机器之心編集局
これは本日発表された中で、最も衝撃的な記事だと言えるだろう。
多くの演算子(カーネル)開発者向け WeChat グループでは、すでに大波紋を呼んでいる。
「これこそが、スーパーヒューマン・インテリジェンスがソフトウェア分野で初めて真に姿を現した瞬間かもしれない」──NVIDIA の許冰(Bing Xu)氏は X(旧 Twitter)上でそう断言した。彼が言及していたのは、Terry Chen 氏、Zhifan Ye 氏と共同で筆頭執筆者を務めた NVIDIA の新研究「AVO」である。
今週木曜日に arXiv へ投稿された本研究において、NVIDIA は「Agentic Variation Operator(AVO:エージェント型変異演算子)」と名付ける新種の進化変異演算子を構築した。これは、古典的な進化探索において固定されていた変異・交叉、あるいは人手で設計されたヒューリスティック手法を、自律型コーディングエージェントに置き換えるものであり、極めて驚異的な成果を叩き出している。
許氏は語る。「高度に最適化されたアテンション機構のワークロードにおいて、人間による介入を一切行わず、エージェントが最適化ループ内で 7 日間にわたり連続探索を行った結果、ほぼすべての人間による GPU 専門家を上回る性能を達成した」──AVO のこの快挙は、多くのカーネル開発者や DSL(ドメイン固有言語)関係者に戦慄をもたらすだろう。
Huang Zhipeng 氏の X 投稿より
興味深いことに、X への投稿で許氏は、1 年半前に Terry Chen 氏と NVIDIA でエージェント・プログラミングの研究を始めた当初、2 人とも GPU プログラミングの知識を持っていなかったと明かしている。「だからこそ、私たちは最初から、人間の介入を完全に不要とする自動化システムの開発に注力してきたのです」。彼らはこれを「ブラインド・コーディング(Blind Coding)」と呼んでいる。
「過去 1 年半の間に、私たち 2 人は 2 つのエージェントシステム上で 4 世代のエージェントを開発しました。第 2 世代から、これらのエージェントスタックは自己進化を始めました。現在、各エージェントのコード行数は約 10 万行(空行を除く)に及びます」
さらに氏は AVO 背後にある重大な意味をこう強調する。「断言しよう。ブラインド・コーディングこそがソフトウェアエンジニアリングの未来だ。人間の認知能力こそがボトルネックなのだ」
以下では、「ブラインド・コーディング」の新時代を切り開くこととなる本論文が、いったいどのような貢献をもたらしたのかを詳細に紐解いていこう。
論文タイトル:AVO: Agentic Variation Operators for Autonomous Evolutionary Search
大規模言語モデル(LLM)は、進化探索(Evolutionary Search)において強力なコンポーネントとなり、手作業で設計された変異演算子に代わって、学習済みのコード生成を行うようになった。これらのシステムでは、LLM が選択された親個体から候補解を生成し、ヒューリスティックに基づくフレームワークが親個体のサンプリング、評価、個体群の管理を担当する。この組み合わせは、FunSearch や AlphaEvolve などの代表的システムに見られるように、数理最適化やアルゴリズム発見の分野で顕著な成果を上げてきた。
しかしながら、LLM を事前定義されたパイプライン内での「候補解生成」のみに限定することは、その発見能力を根本的に制限している。1 回の呼び出しにつき 1 つの出力しか生成できず、能動的に参照資料を調べたり、自身の変更をテストしたり、フィードバックを解釈したり、候補を提出する前に修正を行ったりすることができないのだ。この制約は、人間による極限までのチューニングが行き渡っており、さらなる改善には深い反復的エンジニアリングを要する実装において、特に致命的となる。
研究者らは、アテンション機構を背景にこの問題へ取り組んだ。アテンション機構は Transformer アーキテクチャの中核をなす演算子であり、最も最適化の密度が高い GPU 演算子の一つだ。FlashAttention シリーズや NVIDIA の cuDNN ライブラリは、歴代 GPU におけるアテンションのスループットをハードウェアの限界まで押し上げてきた。最新の Blackwell アーキテクチャにおいても、FlashAttention-4 (FA4) や cuDNN には数ヶ月単位の人手による最適化が必要とされる。これらの実装を凌駕するには、ハードウェアドキュメントの研究、プロファイラ出力の分析によるボトルネック特定、候補となる最適化の実装とテスト、正しさの欠如に対する診断、そして蓄積された知見に基づく戦略の修正といった、開発環境との持続かつ反復的な対話が不可欠である。
「ディープエージェント(Deep Agents)」に関する最近の進展は、計画機能、永続メモリ、ツール使用能力を備えた LLM が、複雑な GitHub 課題の解決から重要なディープラーニング用ソフトウェアの生成に至るまで、このような多段階のエンジニアリングワークフローを自律的に処理しうることを示している。これは、進化探索における LLM の役割を根本から変革する契機となる。すなわち、固定されたパイプライン内に LLM を閉じ込めるのではなく、ディープエージェントそのものを変異演算子へと昇華させるのである。
そこで NVIDIA が提案したのが、エージェント型変異演算子(Agentic Variation Operators, AVO)である。このアプローチでは、単発の LLM 呼び出しや固定ワークフローに依存していた従来の変異・交叉プロセスを、自己完結型のコードエージェントが代替する。AVO エージェントは、これまでに生成されたすべての解、ドメイン固有の知識ベース、評価ツールへのアクセス権を有する。何を参照し、何を変更し、いつ評価を行うかを自律的に判断することで、長期間にわたる継続的な改善を実現する。
その有効性を検証するため、NVIDIA は AVO をNVIDIA Blackwell B200 GPU上のマルチヘッドアテンション(MHA)カーネルに適用し、専門家によって最適化された cuDNN および FlashAttention-4 の各カーネルと直接比較した。人間の介入を一切排し、7 日間にわたる連続した自律進化の結果、エージェントは 500 を超える最適化の方向性を探索し、40 バージョンものカーネルを進化させた。最終的に生成された MHA カーネルは、BF16 精度において最大1,668 TFLOPSというスループットを達成。テスト構成において、cuDNN を最大3.5%、FlashAttention-4 を最大10.5%も上回る性能を叩き出した。
NVIDIA による分析によると、エージェントが発見した最適化には、レジスタ割り当て、命令パイプラインのスケジューリング、負荷分散など、カーネル設計の多岐にわたるレイヤーが含まれており、これは真の意味でのハードウェアレベルの推論を反映している。実験により、MHA で発見された最適化技術はグループクエリアテンション(GQA)へも効果的に移行可能であることが示された。エージェントはわずか 30 分間の追加的な自律適応により、進化版 MHA カーネルの GQA 対応を完了。cuDNN 比で最大 7.0%、FlashAttention-4 比で最大 9.3% の性能向上を実現している。
本研究の主な貢献は以下の通りである:
エージェント型変異演算子(AVO)の提案:進化変異演算子の新種を定義。エージェントを単なる候補生成器から、環境との反復的対話を通じてドメイン知識を探索し、修正を実施、結果を検証する「変異演算子」そのものへと昇華させた。
SOTA(State-of-the-Art)性能の実現:NVIDIA B200 GPU 上にて、ベンチマーク構成において MHA における世界最高峰のスループット(1,668 TFLOPS)を達成。cuDNN を最大 3.5%、FlashAttention-4 を最大 10.5% 上回る性能を示した。さらに、これらの最適化が GQA へも容易に移行可能であり、わずか 30 分の自律進化で顕著な性能向上が得られることを実証した。
マイクロアーキテクチャ最適化の分析:ベンチマーク設定下でエージェントが発見したマイクロアーキテクチャレベルの最適化を詳細に分析。これが表面的なコード変換ではなく、真のハードウェアレベルの推論に基づくものであることを明らかにした。
パイプラインからの脱却
AI エージェントが真の「進化の操縦者」に
従来の LLM ベース進化探索フレームワークでは、モデルは固定されたパイプラインの中に閉じ込められ、単なる候補コードの生成器としての役割を強いられていた。1 回の呼び出しで 1 回の出力しかできず、能動的な資料調査、コードテスト、フィードバックの理解、最終提出前の戦略修正も不可能だった。深く反復的な最適化を要する最先端ハードウェア向けタスクにおいて、この制約は致命的ですらあった。
AVO はこの限界を打ち破り、「変異演算子」を自己駆動するエージェントループとして実体化した。この AI エージェントは、過去のコードバージョン履歴を自由に参照し、ドメイン専用知識ベース(CUDA プログラミングガイドや PTX アーキテクチャドキュメントなど)を呼び出し、実行フィードバックに基づいて能動的にコード修正の提案・修復・批判・検証を行うことができる。
端的に言えば、AVO は AI を受動的な「コード生成器」から、全体を掌握する「進化の操縦者」へと進化させたのである。
7 日間の自律稼働
Blackwell アーキテクチャで最高峰ベンチマークを撃破
研究チームは AVO を極めて困難なタスク、すなわちNVIDIA Blackwell (B200) GPU上でのマルチヘッドアテンション(MHA)中核コードの最適化に投入した。アテンション機構は現在、Transformer アーキテクチャの心臓部であり、AI チップ上で最も極限まで最適化が進んでいる計算対象の一つだ。
人間の介入を完全に排除した状態で、AVO エージェントは 7 日間にわたり連続して自律稼働した。
この 7 日間の間に、エージェントはバックグラウンドで 500 を超える最適化の方向性を探索し、最終的に 40 の有効な反復バージョンを提出。生成された MHA コアは BF16 精度において、驚異的な1,668 TFLOPSのスループットを実現した。
ベンチマークテストにおいて、AVO が叩き出した回答は驚嘆に値するものだ:
NVIDIA 公式が Blackwell 向けにカスタマイズしたクローズドソースの cuDNN ライブラリと比較し、スループットが最大3.5%向上。
現在最前線のオープンソース基準である FlashAttention-4 と比較し、スループットが最大10.5%向上。
強力な汎化能力
グループクエリアテンションへ 30 分で移行
さらに印象的だったのは、エージェントが発見したこれらの低レベルなマイクロアーキテクチャ最適化が、特定のシナリオへの過剰適合(オーバーフィッティング)ではなかった点だ。研究者が AVO に対し、最適化済みの MHA コアを現在の大規模モデルで一般的に用いられているグループクエリアテンション(GQA)へ適応するよう求めたところ、エージェントは約 30 分の自律調整のみで任務を完遂した。
GQA におけるテストでも、AVO は圧倒的な優位性を維持。cuDNN を最大 7.0%、FlashAttention-4 を最大 9.3% も上回る性能を示した。これは、MHA の進化過程でエージェントが発見した計算およびメモリへのアクセス最適化パターンが、異なる計算特性を持つ GQA タスクへも効果的に汎化しうることを意味している。
深層マイクロアーキテクチャ推論の深淵
AVO が提出したコード変更を分析すると、AI エージェントが表面的な作業を行っているのではなく、真にハードウェアの深層に根ざした論理推論を行っていることが見て取れる。
分岐なしアキュムレータの再スケーリング:条件分岐を排除することで、ワープ同期のオーバーヘッドを排除し、より軽量なメモリバリアへと置き換えた。これにより、ノンコーサル・アテンションのスループットが一挙に 8.1% 向上した。
エラー訂正とテンソルコア(MMA)パイプラインのオーバーラップ:実行パイプラインを再構成し、従来順序実行されていた依存関係を、オーバーラップするパイプライン実行へと変換。ハードウェアのアイドル待機時間を大幅に削減した。
ワープグループを横断するレジスタの再バランス:パフォーマンスプロファイラのデータを分析した結果、特定の演算グループがレジスタ不足によりデータを低速なローカルメモリへあふれさせていることを発見。Blackwell の 2048 レジスタという予算配分を果断に再分配し、さらに 2.1% の性能向上を引き出した。
NVIDIA による本研究は、AI エージェントがすでに同期、メモリ順序付け、パイプラインスケジューリング、レジスタ割り当てといった複数のハードウェアサブシステムを横断する統合推論を行う能力を備えていることを証明した。AVO は特定ドメインに限定されない進化変異演算子として、将来の自動化されたシステム最適化への明確な道筋を示している。AI チップやディープラーニング基盤エコシステムの開発に活用できるのはもちろん、将来的には計算リソースの極限を追求するあらゆる科学・工学分野でもその真価を発揮するだろう。
AI エージェントの自己進化がこれほどの水準に達している事実を前にして、あなたはどうお感じになるだろうか。
参考リンク
https://x.com/bingxu_/status/2036983004200149460?s=46
https://x.com/nopainkiller/status/2036986666410532972
© 本稿はここまでとなります。
転載の際は、当公众号(公式アカウント)までご連絡いただき、許可をお取りください。
投稿、あるいは取材依頼はこちらまで:liyazhou@jiqizhixin.com