可解釋性分析是探測大型語言模型行為、提供效能優化視角、進行可控式推理的重要方向。今天,我們非常高興地為大家帶來 Qwen-Scope——基於 Qwen3 系列與 Qwen3.5 系列模型訓練而成的可解釋性模組。具體來說,我們在 Qwen 的隱藏層中插入稀疏自編碼器(SAE)並加以訓練,透過施加稀疏性約束,自動提取出高度解耦、低冗餘且更具可解釋性的隱藏空間特徵。Qwen-Scope 不僅可以用於分析 Qwen 模型行為的內在機制,在模型優化上也有著巨大潛力,應用場景包含推理結果定向控制、資料分類與合成、模型訓練與優化、評估樣本分佈分析與對比等。
Qwen-Scope 核心亮點包括:
- 推理:無需顯示給出自然語言指令,實現推理結果定向控制;
- 資料:僅需少量種子資料便可收集用於資料分類的特徵,顯著降低資料依賴;同時可以使用未激活特徵資訊定向構造資料,補足長尾能力;
- 訓練:透過分析語言混用和重複生成等低級錯誤問題,定位異常激活特徵,在監督微調和強化學習階段輔助模型訓練,降低此類回覆出現頻率;
- 評估:計算不同樣本間或不同評測集間特徵激活模式,聯合判斷評測冗餘程度,指導挑選評測集、提升評測能力覆蓋度、降低評測成本。
整體概覽
本次 Qwen-Scope 開源的權重涉及 7 個大型語言模型,涵蓋 Qwen3 及 Qwen3.5 系列的稠密模型和混合專家模型,共有 14 組稀疏自編碼器權重。為了使稀疏自編碼器特徵分佈廣、語義含義強、訓練過程穩定可靠,我們從對應模型的預訓練資料中採樣了 0.5B 詞元資料規模進行訓練。
實踐
大家可以藉助 Qwen-Scope 對 Qwen 系列模型進行分析和開發,下面我們將在推理、評測、資料、訓練四個角度分別展示 Qwen-Scope 的用途,詳細內容可以參考技術報告。
推理:模型行為的分析與可控的結果
透過控制特徵的激活,實現對推理結果的定向控制,如語言、實體、風格的定向修改,而無需顯式地給出自然語言指令。
資料:分類與合成
Qwen-Scope 對模型表徵做了各個方向的解析和歸納,所以它可以用來當作資料處理工具,在資料分類和資料合成上均可提供資料處理思路。在毒性資料分類場景下,我們可以基於少量種子資料,分析毒性樣本在 SAE 特徵上的激活模式,並篩選出與毒性高度相關的特徵用於分類。整個過程無需額外訓練分類器,顯著降低了標註和訓練成本;同時,即使只依賴少量啟動資料,也能獲得較高的分類準確率,大幅降低了對大規模標註資料的依賴。
在資料合成場景中,Qwen-Scope 還可以幫助識別已有資料中激活次數少甚至未激活的毒性文本特徵,並定向合成補充樣本。相較於傳統合成資料方案,這種方式具有更強的可控性和針對性,能夠更高效地覆蓋長尾能力,使訓練資料能效比提升至約 15 倍。
訓練:定向優化
Qwen-Scope 的特徵也可以應用在訓練階段。例如,當我們發現模型存在語言混用現象(比如英文回覆中異常出現中文詞)時,我們可以定位到異常激活特徵,並在監督微調階段,針對異常激活特徵設計損失函數,引導模型降低不良案例(badcase)出現的頻率。
再比如重複生成問題,這是一種低頻現象,很難在強化學習階段被採樣到。為此,我們可以透過控制相應特徵從而提高採樣出異常回覆的頻率,增加學習獎勵密度,以方便模型在強化學習階段充分優化這一問題。
評估:測試樣本的缺失與冗餘
評估是大型語言模型開發的核心之一,如今待評估能力、維度越來越多,樣本規模越來越大,哪些評測集存在冗餘,哪些領域覆蓋不足是一個關鍵問題。透過 Qwen-Scope,我們可以對測試集的特徵覆蓋度進行分析以判斷不同評測集之間的評測冗餘程度。如下圖所示,我們發現部分常用評測集在所激活特徵上存在互相覆蓋關係,致使部分評測集會受重複評估影響導致實用意義相對而言會更小。我們希望此類分析方法,可以方便大家挑選出覆蓋度更高的、評測成本更低的測試樣本和評測集。
總結
Qwen-Scope 不僅可以用於分析模型行為,更可以深入模型內部,將複雜的參數運算轉化為人類可理解的概念與規律。它不僅能「看懂」模型,更能「改進」模型。實踐證明,它可以在推理、評估、資料、訓練等階段,向我們提供模型優化思路、指導優化方向。可解釋性,不僅是事後分析的工具,也可以是驅動模型進化的核心引擎之一。我們歡迎社群回饋,同時更希望可以看到大家發揮創造力,展示更多、更有趣的用法!
試用
大家可以前往 Hugging Face 或 ModelScope 體驗 Qwen-Scope。
連結地址
Hugging Face:
https://huggingface.co/spaces/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921MGq3Tu
ModelScope:
https://modelscope.cn/studios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4
技術報告:
https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf