Qwen-Scope：大規模言語モデルの「本音」を見抜く

解釈可能性分析は、大規模言語モデルの振る舞いを探り、パフォーマンス最適化の視点を提供し、制御可能な推論を行うための重要な方向性です。本日、私たちはQwen-Scopeを発表できることを非常に嬉しく思います。これは、Qwen3シリーズとQwen3.5シリーズのモデルを用いて訓練された解釈可能性モジュールです。具体的には、Qwenの隠れ層にスパースオートエンコーダ（SAE）を挿入して訓練し、スパース性制約を課すことで、高度に分離され、冗長性が低く、より解釈しやすい隠れ空間の特徴を自動的に抽出します。Qwen-Scopeは、Qwenモデルの振る舞いの内部メカニズムを分析するためだけでなく、モデル最適化においても大きな可能性を秘めており、推論結果の方向性制御、データ分類と合成、モデル訓練と最適化、評価サンプルの分布分析と比較などの応用シナリオが考えられます。

Qwen-Scopeの主なハイライト：

推論：自然言語による明示的な指示を与えることなく、推論結果の方向性制御を実現します。
データ：少量のシードデータのみでデータ分類に用いる特徴を収集でき、データ依存性を大幅に低減します。同時に、未活性の特徴情報を用いてデータを方向性を持って生成し、ロングテールの能力を補完できます。
訓練：言語混在や繰り返し生成といった低頻度エラーの問題を分析し、異常に活性化する特徴を特定することで、教師ありファインチューニングや強化学習の段階でモデル訓練を支援し、このような応答の発生頻度を低減します。
評価：異なるサンプル間や異なる評価セット間での特徴活性化パターンを計算し、評価の冗長性を共同で判断することで、評価セットの選定をガイドし、評価能力のカバレッジを向上させ、評価コストを削減します。

全体概要

今回Qwen-Scopeがオープンソース化する重みは7つの大規模モデルに関連し、Qwen3およびQwen3.5シリーズの密モデルと専門家混合モデル（MoE）をカバーする、合計14組のスパースオートエンコーダの重みです。スパースオートエンコーダの特徴分布を広くし、意味的な強度を高め、訓練プロセスを安定して信頼性の高いものにするため、対応するモデルの事前学習データから5億トークン規模のデータをサンプリングして訓練を行いました。

実践

皆様はQwen-Scopeを活用してQwenシリーズのモデルを分析・開発することができます。以下では、推論、評価、データ、訓練の4つの観点からQwen-Scopeの用途をそれぞれ紹介します。詳細についてはテクニカルレポートをご参照ください。

推論：モデル行動の分析と制御可能な結果

特徴の活性化を制御することで、言語、エンティティ、スタイルなどの推論結果を方向性を持って変更する制御を、明示的な自然言語命令なしで実現します。

データ：分類と合成

Qwen-Scopeはモデルの表現を様々な方向から解析・帰納するため、データ処理ツールとして活用でき、データ分類とデータ合成の両方にデータ処理のアイデアを提供します。有害データ分類のシナリオでは、少量のシードデータに基づき、有害サンプルにおけるSAE特徴の活性化パターンを分析し、有害性と高い相関を持つ特徴を選別して分類に利用できます。このプロセス全体で分類器を追加で訓練する必要がなく、アノテーションと訓練のコストを大幅に削減します。また、少量の起動データのみに依存しても高い分類精度を得ることができ、大規模なアノテーションデータへの依存を大幅に低減します。

データ合成のシナリオでは、Qwen-Scopeはさらに、既存データにおいて活性化回数が少ない、あるいは未活性の有害テキスト特徴を識別し、方向性を持って補完サンプルを合成するのに役立ちます。従来のデータ合成手法と比較して、このアプローチはより高い制御性と的確性を備え、ロングテールの能力をより効率的にカバーできるため、訓練データのエネルギー効率比を約15倍に向上させます。

訓練：方向性最適化

Qwen-Scopeの特徴は訓練段階でも応用できます。例えば、モデルに言語混在現象（英語の応答中に中国語の単語が異常に出現するなど）が存在することを発見した場合、我々は異常に活性化する特徴を特定し、教師ありファインチューニングの段階で、その異常活性化特徴に対して損失関数を設計し、badcaseの発生頻度を下げるようモデルを誘導することができます。

もう一つの例として繰り返し生成の問題があります。これは低頻度の現象であり、強化学習の段階でサンプリングされることは稀です。そのため、我々は対応する特徴を制御することで異常な応答をサンプリングする頻度を高め、学習報酬の密度を増加させることで、モデルが強化学習段階でこの問題を十分に最適化できるようにします。

評価：テストサンプルの欠落と冗長性

評価は大規模モデル開発の中核の一つであり、今日では評価すべき能力や次元が増え続け、サンプル規模も大きくなる中で、どの評価セットが冗長で、どの領域のカバレッジが不足しているかが重要な問題です。Qwen-Scopeを通じて、我々はテストセットの特徴カバレッジを分析し、異なる評価セット間の評価の冗長度を判断できます。下図に示すように、一般的に使用される一部の評価セットは、活性化する特徴において互いにカバーし合う関係にあることがわかり、その結果、一部の評価セットは重複評価の影響を受け、実用的な意義が相対的に小さくなる可能性があります。このような分析手法が、皆様がカバレッジがより高く、評価コストがより低いテストサンプルや評価セットを選び出す一助となることを期待しています。

まとめ

Qwen-Scopeはモデルの振る舞いを分析するためだけでなく、モデル内部に深く入り込み、複雑なパラメータ演算を人間が理解可能な概念と法則に変換することができます。それは単にモデルを「理解する」だけでなく、モデルを「改善する」ことも可能にします。実践により、推論、評価、データ、訓練などの段階において、モデル最適化のアイデアを提供し、最適化の方向性を導くことができることが証明されています。解釈可能性は事後分析のためのツールであるだけでなく、モデルの進化を駆動するコアエンジンの一つにもなり得るのです。私たちはコミュニティからのフィードバックを歓迎するとともに、皆様が創造性を発揮し、より多くの面白い使い方を披露してくれることを期待しています！

試用

Hugging FaceまたはModelScopeにアクセスしてQwen-Scopeをお試しいただけます。

リンク先

Hugging Face：https://huggingface.co/spaces/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921MGq3Tu

ModelScope：https://modelscope.cn/studios/Qwen/QwenScope?spm=a2ty_o06.30285417.0.0.65e5c921FZvQi4

テクニカルレポート：https://qianwen-res.oss-accelerate.aliyuncs.com/qwen-scope/Qwen_Scope.pdf

Qwen-Scope：大規模言語モデルの「本音」を見抜く

関連記事

分享網址