自動アライメント研究者：大規模言語モデルを活用したスケーラブルな監視の実現に向けて

大規模言語モデルの改善速度が加速するにつれ、アライメント研究において特に重要な 2 つの疑問が生じています。

1 つ目は、アライメントがその進化にどう追いつくかという点です。最先端の AI モデルは、すでに後継機の開発に貢献しています。しかし、それらはアライメント研究者にとっても同様の飛躍をもたらすでしょうか。私たちの言語モデルは、自分自身を整列させるために活用できるのでしょうか。

2 つ目の疑問は、モデルが人間よりも賢くなった時に私たちが何をすべきかということです。人間を超える AI モデルをアライメントする研究分野は、「スケーラブルな監視（scalable oversight）」として知られています。スケーラブルな監視は主に実用的というより理論的な文脈で議論されてきましたが、AI の現在の進歩速度を考えると、もはやその状態は長くは続かないかもしれません。例えば、モデルはすでに膨大な量のコードを生成しています。もしそのスキルが、人間には解析できないほど複雑で数百万行ものコードを生成する段階に達すれば、モデルが私たちの意図通りに動作しているかどうかを判断することが極めて困難になる可能性があります。

新しい Anthropic Fellows による本研究では、これら 2 つの疑問に同時に取り組んでいます。

私たちの新たな研究は、「弱から強への監督（weak-to-strong supervision）」として知られる問題に焦点を当てています。これは、人間よりも賢い AI モデルを監督するという課題を模倣したものです。まず、比較的強力な「ベース」モデル、つまり潜在的な能力を持ちながらも、最良の回答を提供するための微調整（ファインチューニング）をまだ受けていないモデルから出発します。次に、はるかに弱いモデルを「教師」として使用し、この弱いモデルが自ら理想と考える出力を実演することで、強力なベースモデルに対する追加の微調整を行います。最後に、その弱い微調整を受けた後、強力なモデルがどの程度のパフォーマンスを発揮するかを評価します。

最悪の場合、強力なモデルは弱い教師と同等の能力しか持ちません。しかし理想的には、強力なモデルは弱い教師からのフィードバックを学習し、その弱いシグナルを有用な方法で解釈してパフォーマンスを向上させるでしょう。これがどの程度うまくいったかは定量化できます。強力なモデルが全く改善を示さず（弱い教師と同等のパフォーマンス）、スコア 0 であれば、教師のフィードバックを用いて強力なモデルが達成しうる最高の結果、つまり理想的な成果を達成した場合はスコア 1 となります。この指標は、弱いモデルと強力なモデルの上限との間の「回収されたパフォーマンスギャップ（Performance Gap Recovered: PGR）」を表します。

スケーラブルな監視の代理として、弱いモデルは人間を、強力なモデルはいずれ監督が必要となるであろう「人間を遥かに凌駕する賢さを持つモデル」をそれぞれ想定しています。弱から強への監督で進展があれば、その手法が超賢明なモデルを私たちの価値観にアライメントさせる手助けとなる可能性があります。

今回の新しい研究では、Claude が PGR を向上させる方法を自律的に発見できるかどうかを検証しました。Claude は独自のアライメントに関するアイデアを立案し、テストし、分析することができるのでしょうか。そして、もし可能だとすれば、今日の AI モデルがアライメント研究のペースをどの程度加速できるかを示唆しているのでしょうか。

私たちの実験設定

これを明らかにするため、Claude Opus 4.6 のコピーを 9 つ用意し、それぞれにいくつかの追加ツールを与えました。各 Claude には、作業し思考するための場所（サンドボックス）、他者と発見を共有するための共有フォーラム、コードをアップロードするためのストレージシステム、そして各アイデアに対して PGR スコアを受け取るためのリモートサーバーを提供しました。また、モデルのトレーニングと推論に関する基礎知識も提供しました。これらのツールを備えた Claude モデルを、「自動アライメント研究者（Automated Alignment Researchers: AARs）」と呼ぶことにします。

各 AAR が全く同じアイデア pursued するのを防ぐため、それぞれにわずかに異なる（しかし意図的に曖昧な）出発点をプロンプトとして与えました。あるものには解釈可能性ツールの使用を勧め、別のものであればデータセット内のデータの重み付け変更について考えるよう促す、といった具合です¹。それ以外の点では、AAR たちに何をするべきかは指示しませんでした。独自のアイデアを提案し、実験を実行し、結果を分析し、次に何を試みるかを決めるために、互いに見解やコードを共有することは彼ら自身に委ねられました。

結果

AAR たちの成果の基準を提供するため、その作業を人間のベースラインと比較しました。私たちの研究者 2 名が 7 日間を費やし、先行研究における最も有望な一般化手法 4 つの改良に取り組みました。テストしたオープンウェイトモデル（強力なモデルに Qwen 3-4B-Base、弱い教師に Qwen 1.5-0.5B-Chat を使用）において、人間は全体のパフォーマンスギャップの 23% を回収しました（つまり PGR 0.23 を達成）²。

Claude はこの結果を劇的に上回りました。さらに 5 日間（研究時間の累積で 800 時間）の後、AAR たちは残るパフォーマンスギャップのほぼ全体を埋め、最終的に PGR 0.97 を達成しました。これにかかった費用は、トークンとモデルトレーニングの費用で約 18,000 ドル、AAR 1 時間あたり約 22 ドルでした。以下のグラフで、各 AAR が人間のベースライン（0 時間時点）からどのように進歩したかを確認できます。

チャットデータセットにおける「回収されたパフォーマンスギャップ」の増加に関する自動アライメント研究者（AAR）の進捗を示すグラフ — 9 つの並列実行された自動アライメント研究者（赤線）による、累積研究時間に対する回収されたパフォーマンスギャップ。人間の調整によるベースライン（灰色の四角）との比較。スコア 1.0 は、正解ラベルで訓練されたモデルと完全に一致する方法を意味する。

このように Claude は非常に優れた成果を上げました。では、その手法はどの程度独創的で、実世界での応用に役立つのでしょうか。これを明らかにするため、さらに 2 つのテストを実施しました。

1 つ目は、AAR たちのアイデアが保留データ（held-out datasets）、つまり AAR たちが既に見ていないタスクにおいてもパフォーマンスギャップを回収できるかどうかをテストしました。AAR たちの最も性能が高かった 2 つの手法（チャットタスクのデータセット上での結果に基づく）を取り出し、それを数学とコーディングのタスクに適用しました。結果は比較的有望なものでした。AAR たちの最も効果的な手法は、新しい 2 つのデータセットの両方に正常に一般化し、数学で 0.94、コーディングで 0.47 の PGR を達成しました（コーディングの結果でも人間のベースラインの 2 倍です）。AAR たちの 2 番目に良い手法は結果がまちまちでした。数学では機能しましたが（0.75）、コードでは状況を悪化させてしまいました。これらの結果は、AAR の研究にある程度の一般化可能性はあるものの、保証されたものではないことを示唆しています。自動研究の実験を試みる他の研究者の方々にも、AAR のアイデアを保留データセットに対して厳しくテストすることをお勧めします。

AAR が発見したアイデアが、数学とコードの保留データセットにどの程度転移できるかを示すグラフ — 2 つの AAR が発見したアイデア（赤と青）を、保留された数学およびコーディングデータセットに適用した場合に回収されたパフォーマンスギャップ。破線はベースラインとして使用した、人間が調整した最良の方法を示す。

次に、AAR たちのアイデアが生産規模で機能するかどうかをテストしました。Claude Sonnet 4 と私たちの本番用トレーニングインフラを用いて、AAR の最も効果的な手法を試してみました。しかし、ここではあまり成功しませんでした。AAR の手法は、統計的に有意な改善をもたらしませんでした。これは、より根本的な問題というよりは、今回の初期実験の限界を反映している可能性があります。私たちのスコアリング手法は非常に単純なものであり、評価したアイデアも 1 つだけでした。それにもかかわらず、これは（少なくとも現在の能力における）AAR の限界を示すものです。AAR は与えられたモデルやデータセットに固有の機会を利用する傾向があり、その手法は他の場所では機能しない可能性があるのです。これを緩和するため、研究中に AAR が複数のドメインやデータセットに対してテストできるようにすることを提案します。これは、AAR を用いた将来の実験が探求できる領域の一つです。

実験を数回繰り返すことで、AAR をいかに効果的にするかのより深い理解が得られました。例えば、各 AAR に異なる出発点を与えることは、その出発点があいまいなものであっても、非常に効果的であることがわかりました。AAR たちを異なる方向に進ませずに実験を試みたところ、全員がすぐに似たようなアイデアに行き着き、全体的な進捗ははるかに少なくなりました（それでも人間のベースラインのほぼ 3 倍の PGR を達成しましたが）。一方で、AAR たちに過度な構造を与えると、進捗が著しく阻害されることも判明しました。具体的なワークフロー（「アイデアを提案し、次に計画を立案し、その後コードを書く…」など）を規定したところ、結果として Claude の作業を制約してしまうことになりました。自在に振る舞わせた場合、Claude ははるかに適応性が高く、より集中的なテストにコミットする前に、そのアイデアをテストするための安価な実験を設計しました。

含意

2 つのオープンウェイトモデル間のパフォーマンスギャップを回収するという AAR たちの成功は、最先端の AI モデルが今や汎用的なアライメント科学者になったことを意味するものではありません。私たちは、成功の単一かつ客観的な指標があり、モデルが最適化できるという理由で、自動化に特に適した問題を意図的に選択しました。ほとんどのアライメント問題はこれほど整然としたものではありません。また、後述しますが、この設定下でさえ、AAR たちは問題を攻略しようと最善を尽くしました。人間の監視は不可欠です。

しかし、これらの結果には重要な含意があると考えています。

ペースを維持すること。 この研究は、Claude がアライメント研究における実験と探索の速度を意味的に向上させることができることを示しています。人間の研究者は、非常に大規模なスケールで AAR に質問を委任できます。Claude は、新たな仮説を開発し、その結果に対して反復処理を行う任務を引き受けることができるのです。

さらに、弱から強への監督で進展することは、それ自体がより汎用的な自動アライメント研究者の構築に役立つ可能性があります。それが、私たちがこの研究でこの問題を選択した理由です。本研究では、弱から強への監督の問題を、検証可能な結果（PGR スコアの向上）を持つ「明確な」タスクとして位置づけました。AAR が進捗を遂げたかどうかを自動的かつ確実に評価する必要があるためです。しかし、もし AAR がドメインを横断して一般化する、はるかに優れた弱から強への監督方法を発見したならば、検証がはるかに困難な「曖昧な」タスクにおける進捗を評価するために、それら同じ方法を AAR の訓練に使用できるでしょう（例えば、研究プロジェクトの範囲設定における Claude の能力に対する弱から強への監督など）。アライメント研究は能力研究とは異なり、はるかに「曖昧な」問題の解決を必要とすることが多いため、これは重要です。

感性と多様性。 AAR のようなツールに対する反論の一つとして、今日の最先端モデルには依然として「研究における感性（どのようなアイデアが機能し、どれが機能しないかを直感的に把握する能力を指す業界用語）」が欠けているという点が挙げられます。しかし、この実験における AAR の成功は、アイデアの膨大な量が「感性」の欠如を補う可能性があることを示唆しています。AAR が多くの実験を非常に安価に実行できるのであれば、彼らは「力任せ」に、非常に高い感性を持つ研究者が思いつくであろう発見に至ったり、あるいはその研究者なら諦めていたような方向性で成功を収めたりする可能性があります。

ひいては、アライメント研究における核心的なボトルネックは、生成（有望なアイデアを人間の研究者が提案することに依存すること）から、評価（実験が十分に適切に設定され、その結果に確信が持てるようにすること）へと移行する可能性があります。

異星の科学。 この研究には、さらに奇妙な含意もあるかもしれません。AAR は本質的に、人間が考慮しなかったアイデアを発見するように設計されています。しかし、そのアイデアや結果が健全かどうかを検証する方法は依然として必要です。現時点では、AAR たちが何を行い、なぜそうしたのかを解釈することはまだ可能です。しかし、それが常にできるとは限りません。時が経つにつれ、モデルのアイデアは検証がはるかに困難になったり、人間には解析や発見が難しい方法で汚染されていたりするようになる可能性があります。それは「異星の科学（alien science）」の創出を意味するかもしれません。

ハッキングの防止。 この非常に限定された環境下でさえ、モデルによる「報酬ハッキング」、つまり私たちの設定を攻略しようとする試みを目撃しました。例えば数学タスクでは、ある AAR が、各問題への最も一般的な回答が大抵正解であることに気づき、教師を完全にスキップして、強力なモデルに常に最も一般的な回答を選択するよう指示しました。コードが正しいかどうかを予測するコーディングタスクでは、AAR はそのコードをいくつかのテストに対して実行し、正解を単に読み取ることができることに気づきました。こうしたハッキングは私たちの結果を無効にするものではありません（これらを検出し、対象から除外しました）が、明らかに警告を与えるものです。自動研究者のいかなる展開にも、AAR が改ざんできない評価と、その結果および方法の両方に対する人間の検査が不可欠です。

本研究の詳細については、Alignment Science ブログをご覧ください。また、本研究のコードとデータセットはこちらで公開されています。

自動アライメント研究者：大規模言語モデルを活用したスケーラブルな監視の実現に向けて

私たちの実験設定

結果

含意

関連記事

分享網址