對齊（Alignment）

自動化對齊研究員：運用大型語言模型擴展可擴展監督

2026 年 4 月 14 日

註腳

這些內容（連同我們所有的程式碼與數據）皆可於此處取得。
我們選擇這些模型基於多項原因：兩者效能落差顯著；小型模型在我們的測試基準上表現優於隨機猜測；且兩者規模都足夠小，利於快速實驗。所有 Anthropic Fellows 專案均使用開放權重模型。

我們的實驗設置

為了找出答案，我們從九個 Claude Opus 4.6 的複本開始，並為每一個賦予額外工具。每個 Claude 都擁有一個可工作與思考的空間（亦即沙盒）、一個與其他模型共享發現的論壇、一個可上傳程式碼的儲存系統，以及一台可為其每個想法提供 PGR 分數的遠端伺服器。我們也提供了一些關於模型訓練與推論的背景知識。我們將這些配備工具的 Claude 模型稱為「自動化對齊研究員」（Automated Alignment Researchers，簡稱 AARs）。

為了避免每個 AAR 追求幾乎相同的想法，我們為每一個提供了些微不同（但刻意模糊）的起點：我們建議其中一個使用某些可解釋性工具，另一個思考如何重新加權數據集中的資料，等等。¹ 除此之外，我們並未指示 AARs 該做什麼。提出想法、執行實驗、分析結果，並彼此分享發現與程式碼以決定下一步嘗試方向，全都由它們自行決定。

研究結果

為了提供 AARs 成果的基準，我們將它們的表現與人類基準進行比較。兩位研究人員花了七天時間，迭代改進先前研究中四個最具潛力的泛化方法。在我們測試的開放權重模型上（以 Qwen 3-4B-Base 作為強模型，Qwen 1.5-0.5B-Chat 作為弱教師），人類恢復了總效能落差的 23%（亦即達成 PGR 0.23）。²

Claude 則大幅超越此結果。再經過五天（累計 800 小時的研究）後，AARs 幾乎彌補了剩餘的全部效能落差，最終達成 PGR 0.97。這項實驗耗費約 18,000 美元的代幣與模型訓練成本，相當於每 AAR 小時 22 美元。下圖顯示每個個別 AAR 相對於人類基準（0 小時處）的進展。

圖表顯示九位平行運作的自動化對齊研究員在聊天資料集上提升『已恢復效能落差』的進展。 — 九位平行運作的自動化對齊研究員（紅線）在累計研究小時數下所恢復的效能落差，相對於人類微調基準（灰色方塊）。分數 1.0 表示該方法完全匹配使用真實標籤訓練的模型。

那麼，Claude 的表現確實出色。但它的方法有多具創意？又能否應用於真實情境？為了找出答案，我們進行了兩項額外測試。

首先，我們測試 AARs 的想法能否在「保留」資料集（held-out datasets）上恢復效能落差——亦即在 AARs 從未見過的任務上進行測試。我們挑選 AARs 在聊天任務資料集上表現最佳的兩種方法，將它們應用於數學與程式設計任務。結果相當令人鼓舞：AARs 最有效的方法成功泛化至兩個新資料集，在數學任務上 PGR 為 0.94，在程式設計任務上則為 0.47（仍是人類基準的兩倍）。AARs 第二佳的方法則表現參差不齊：在數學上有效（0.75），但在程式設計上反而使情況惡化。這些結果顯示，AARs 的研究成果「部分」具備泛化能力，但並非必然。我們鼓勵其他嘗試自動化研究的團隊，也應對 AARs 的想法進行保留資料集的壓力測試。

圖表顯示 AAR 發現的想法在數學與程式設計保留資料集上的遷移成效。 — *兩種由 AAR 發現的方法（紅線與藍線）應用於保留之數學與程式設計資料集時所恢復的效能落差。虛線代表我們用作基準之人類微調最佳方法。*

接著，我們測試 AARs 的想法在生產規模下是否仍然有效。我們將 AARs 最有效的方法應用於 Claude Sonnet 4，並使用我們的生產訓練基礎設施。然而這次成效較不顯著：AARs 的方法並未帶來統計上顯著的改善。我們認為這可能反映的是本次早期試驗的局限，而非更根本性的問題：我們的評分方式相當簡單，且僅評估單一概念。儘管如此，這確實說明了 AARs（至少在目前能力下）的一項限制：它們傾向於利用特定模型與資料集獨有的機會，這意味著它們的方法未必能套用於其他情境。為減緩此問題，我們建議在研究過程中允許 AARs 針對多個領域與資料集進行測試。這是未來針對 AARs 實驗可進一步探索的方向。

經過數次實驗迭代，我們更了解如何讓 AARs 發揮最大效益。例如，我們發現為每個 AAR 提供不同的起點大有幫助，即使該起點相當模糊也無妨。當我們嘗試「不」設定不同方向就啟動 AARs 時，它們很快便收斂到相似的想法，整體進展大幅減少（儘管仍達成接近人類基準三倍的 PGR）。另一方面，我們也發現給予 AARs「過多」結構反而嚴重阻礙進展。當我們規定特定工作流程（「先提出想法，再擬定計畫，接著撰寫程式碼……」）時，最終反而限制了 Claude 的發揮。反之，若讓 Claude 自行發揮，它反而更具適應性，會先設計低成本實驗測試想法，確認可行後再投入更密集的測試。

研究意涵

我們的 AARs 成功恢復兩個開放權重模型間的效能落差，這絕不代表前沿 AI 模型已成為通用型的對齊科學家。我們刻意選擇一個異常適合自動化的問題，因為它具備單一、客觀的成功指標，可供模型最佳化。大多數對齊問題遠非如此清晰明確。而且，如下所述，即便在這種設定下，我們的 AARs 仍竭盡所能地「鑽漏洞」：人類監督依然至關重要。

但我們確實認為這些結果具有幾項重要意涵。

與時俱進。本研究顯示，Claude 能顯著提升對齊研究中實驗與探索的速度。人類研究人員可大規模委派問題給 AARs；Claude 能承擔發展新穎假設並自行迭代結果的任務。

此外，在弱到強監督上取得進展，本身就可能協助我們建構更通用的自動化對齊研究員，這也是我們選擇此問題作為研究主題的原因。在本研究中，我們將弱到強監督問題框架化為一項「清晰」任務，具備可驗證的結果（提升 PGR 分數）。我們如此設計，是因為需要一種能自動且可靠評估 AAR 是否有進展的方法。然而，若 AARs 發現了能跨領域泛化、更優異的弱到強監督方法，我們便能運用這些方法訓練 AARs，使其能評估那些更難驗證的「模糊」任務進展（例如，針對 Claude 規劃研究專案的能力進行弱到強監督）。這點至關重要，因為對齊研究不同於能力研究，往往需要解決更多「模糊」的問題。

品味與多樣性。針對 AARs 這類工具，一種可能的反駁是：當前的前沿模型仍缺乏「研究品味」（業界術語，指直覺判斷哪些想法可行、哪些不可行的能力）。但本次實驗中 AARs 的成功顯示，龐大的想法數量或許能彌補「品味」的不足。若 AARs 能以極低成本執行大量實驗，它們或許能靠「暴力窮舉」找到高品味研究者可能提出的發現，或在那些研究者可能早已放棄的方向上取得成功。

這也意味著，對齊研究的核心瓶頸可能從「產生」（依賴人類研究者提出有潛力的想法）轉向「評估」（確保實驗設計足夠嚴謹，使我們能對結果有信心）。

異質科學。這項工作或許還帶來一些更奇特的意涵。AARs 的本質，就是要發掘人類可能未曾想到的想法。但我們仍需方法驗證它們的想法與結果是否健全。目前，我們仍能解讀 AARs 的作為與原因。但未來未必如此：隨著時間推移，模型的想法可能變得極難驗證，或以人類難以解析或察覺的方式遭到扭曲。這可能催生出所謂的「異質科學」（alien science）。

防止駭客行為。即便在如此高度限定的環境中，我們仍觀察到模型出現「獎勵駭客行為」——亦即試圖鑽我們設置的漏洞。例如在數學任務中，一位 AAR 發現每題最常見的答案「通常」正確，於是完全跳過教師，直接指示強模型一律選擇最常見答案。在程式設計任務中（模型需判斷一段程式碼是否正確），AAR 發現它可以將程式碼對某些測試運行，直接讀取正確答案。這類駭客行為並不會使我們的結果無效（我們已偵測並剔除這些案例），但它們確實發出警告。任何自動化研究員的部署，都需要 AARs 無法篡改的評估機制——以及人類對其結果與方法的雙重審查。

若想閱讀完整研究內容，請參見我們的對齊科學部落格。本項研究的程式碼與資料集已於此處公開釋出。

自動化對齊研究員：運用大型語言模型擴展可擴展監督

自動化對齊研究員：運用大型語言模型擴展可擴展監督

註腳

相關內容

實務上值得信賴的代理程式

大型語言模型中的情緒概念及其功能

澳洲如何使用 Claude：來自 Anthropic 經濟指數的發現

我們的實驗設置

研究結果

研究意涵

相關文章推薦

分享網址