世界最難の試験で劇的な大逆転！黒馬AIが36％を突破、トップモデル勢は揃って失速

【新智元編集部注】昨日、ARC-AGI-3が世界のトップモデルを叩きのめしたばかりでしたが、無名の企業が衝撃的なニュースを発表しました。同社のAIが初日に36.08％という成績を収めたのです！この黒馬はどうやって世界最難のAI試験の鉄のカーテンを切り裂いたのか。真の突破なのか、それとも別のからくりがあるのか。

劇的な大逆転！

昨日、AIにとって最も困難なテスト「ARC-AGI-3」が登場し、世界の大モデルは一晩で壊滅的な打撃を受けました。

最強のトップモデルであるOpus 4.6でさえ、わずか0.2％のスコアしか獲得できず、惨憺たる結果でした。一方、人間は大幅にリードし、満点を取るなどの好成績を収めました。

この結果に、傍観者たちは驚愕しました。NVIDIAのジェンスン・フアンCEOも、AGI概念の提唱者も、今やAGIに到達したと考えていたのに、まさかAGIからこれほど遠いところにいるのか、と。

意外なことに、わずか1日でARC-AGI-3は破られたのです！

先ほど、Symbolicaという名の企業が次のように発表しました。

Agenticaフレームワークを使用し、ARC-AGI-3テストの初日に36.08％という成績を収め、CoTモデルのベースラインを全面的に上回りました。

182のレベルのうち、113のクリアに成功しました。25の利用可能なゲームのうち、7つを完了しました。

世界最難の試験に、ついに亀裂が入りました！

Symbolicaが初日に大番狂わせ、36％を突破

Opus 4.6の哀れな0.2％というスコアに人々が嘆き、「AGIは大手企業が織りなす幻なのか」と疑い始めていた時、転機は驚きの形で訪れました。

SymbolicaのAgenticaフレームワークは、なぜARC-AGI-3発表初日に36.08％という驚異的な成績を収められたのでしょうか。

Agenticaは、Symbolicaが構築したARC-AGI-3専用のエージェントシステムです。

ARC-AGI-3のほぼ異常とも言える採点式——(人間のステップ数 / AIのステップ数)^2——を前に、大モデルのリーダーたちはまだ霧の中で原地を回っている状態でした。36.08％というスコアは、まさに次元を超えた打撃でした。

Symbolicaがなぜ勝てたのかを理解するには、まずOpus 4.6とGPT-5.4がなぜ負けたかを理解する必要があります。

ARC-AGI-3と前世代との最大の違いは、「静的な画像認識」ではなく、対話型ブラックボックスゲームである点です。

純粋なLLMベースのエージェントがゲームに入るとき、最も致命的な弱点は、論理の代わりに連想を、実験の代わりにパターンマッチングを使おうとすることです。

大モデルは未知の環境に直面すると、膨大な事前学習済み知識ベースを使って「脳内補完」を行います。赤い四角と青い線を見ると、「倉庫番」や「水位バランス」を連想し、その誤った仮定に基づいて狂ったようにCoT（思考の連鎖）を出力し続けるのです。

仮定が間違っていても、立ち止まって振り返ることなく、エラーの道をさらに走り続け、ステップ数を使い果たしてスコアがゼロになるまで続けます。

ARC-AGI-3は、まさにAIのこうした弱点を突き、100％人間が解決可能な環境で、AIの3つの能力を測定します：

時間経過に伴うスキル習得効率
疎なフィードバック下での長期計画立案能力
複数ステップにわたり、経験主導の適応能力

一方、SymbolicaのAgenticaフレームワークは、全く異なる技術的アプローチを取りました！

Agenticaはネイティブでマルチエージェントアーキテクチャをサポートし、設計上の並列性を持っています。複雑なタスクを自動的にサブ問題に分解し、作業をサブエージェントに委譲して並列実行させます。

これにより、エージェントは効率的にタスクを進め、すぐにより高速にタスクを完了できます！

AgenticaはタイプセーフなAIフレームワークであり、LLMエージェントとコードをシームレスに統合できます。関数、クラス、アクティブオブジェクト、さらにはSDK全体まで。

以前、強力な長期推論タスクにより、SymbolicaはARC-AGI-2でSOTA（最先端）成績を収めましたが、Agentica SDKがその功労者でした。

核心の秘訣：Arcgentica RLMハーネス

GitHubページのIDEA.mdファイルから、Agenticaフレームワークの絶技——ARC-AGI-3エージェントフレームワーク（Agent Harnesses）——を発見しました。

GitHub URL：https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnessesは、最近の絶対的なホットワードです。Anthropicの公式ブログや業界の専門家たちの議論で、常に言及され続けています。

2025年がエージェント黄金時代の始まりだとすれば、2026年はエージェントフレームワーク（Agent Harnesses）に焦点が当てられるでしょう。

エージェントフレームワークとは、AIモデルを中心に構築されたインフラであり、長時間実行されるタスクを管理するためのものですが、それ自体はエージェントではありません。

今回、Agenticaはゼロからゲームメカニクスを理解し、特定のゲームプロンプトなしで複数のレベルのパズルを解きました。

Agentica SDK上に構築されたArcgentica RLMフレームワークには、どのような特別な点があるのでしょうか。

第一に、ゲーム非依存性です。

ARC-AGI-3が難しい理由は、すべての自然言語プロンプトが排除されているからです。人間がクリアできるのは、物理的直感を持っているからです。

そのため、Agenticaは最も極端な「ゲーム非依存」戦略を採用しました。

エージェントは、色が何を表し、アクションが何をするのか、勝利条件が何かを知りません。ゲームと相互作用し、変化を観察することによってのみ、すべてを推論します。

この空白状態が、逆に成功の要因となりました。

第二に、「統括者＋専門サブエージェント」モデルです。

トップレベルの統括者は、ゲームを直接操作しません。タスクをサブエージェントに委譲し、知識を蓄積し、次の行動を決定します。

専門サブエージェントには、探索器、理論家、テスター、ソルバーが含まれます。

エージェントがグリッドを見始めると、そのコンテキストはピクセルデータで埋め尽くされ、戦略的思考能力を失います。サブエージェントは、生データではなく、簡潔なテキスト要約形式で報告します。

この非集中化された戦略構造の精巧な設計により、Opus 4.6などのモデルにある「同じ脳がピクセルを見て、ルールを覚え、アクションを指揮する」という重大な欠陥を回避できました。

第三に、「共有メモリ」メカニズムです。

ゲーム中、すべてのエージェントはメモリデータベースを共有します。サブエージェントは作業中に確認された事実（シーンレイアウト、メカニクス、勝利条件）と仮説（明確にマークされたもの）を記録します。

新しいエージェントは起動前にメモリをクエリするため、集合的知識を継承できます。

第四に、「レベル切り替え」メカニズムです。

レベル切り替え：あるレベルが解かれると、次のレベルは同じ操作内で直接読み込まれ、返される画面はすでに新しいレベルになります。

すべてのレベルがクリアされた時だけstate=WINがトリガーされ、個々のレベルの完了はlevels_completedの増加を観察することで判断されます。

第五に、Agenticaには厳格なアクション予算管理があり、すべてのトークンを最も重要な場所に使います。

すべてのレベルの総操作回数は制限されています（約800回）。スケジューラはmake_bounded_submit_action(limit)を通じて各サブエージェントに操作割り当てを配分します。システムは、エージェントが本当に立ち往生していない限り、繰り返し操作を避けるよう要求します。

また、力ずくの全探索ではなく、的を絞った試行を優先します。

さらに、サブエージェントが必要に応じてツールを配分することや、スケジューラが再利用と再起動のバランスを取るなどの規定もあります。

ARC-AGI-3の公式位置づけは、「探索、知覚→計画→行動、記憶、目標取得と調整などの能力が必要」と強調しています。

Agenticaの分工と制御戦略は、これらの能力のほぼ「工学的分解」です：

探索：サブエージェントの探索器がアクション予算内で実行し、差分観測を使って「メカニクスの手がかり」を抽出。

計画/推論：サブエージェントの理論家が「submit_action禁止」の制約下でルールを推論し、無意味なアクション消費を低減。

記憶：memoriesデータベースの明示化により、レベル間の戦略再利用がより直接的になり、「繰り返し学習」のアクションとトークンコストを低減。

長期適応：レベル移行はlevels_completedで検出され、統括者が戦略を継続するか、探索ループに再突入するかを決定。

このメカニクスは、ARC-AGI-3の採点構造（後期レベルの重みが高く、効率の二乗ペナルティ）と非常に適合しており、システムが「情報利得が最も高い」実験にアクションを使い、より高重みのレベルに戦略を素早く移行することを奨励しています。

36.08％の高得点に水増しはあるのか？

36％という成績は確かに目を引くものですが、ARC Prize公式の検証を受ける前には、Symbolicaの「番狂わせ」にはまだいくつかの霧が立ち込めています。

Symbolicaも、この成績は現在、ARC-AGI-3組織委員会の公式認証を受けていないと認めています。

資料には非常に重要な一文があります：「unverified competition score」（未検証のスコア）

Symbolicaの現在の成績は、自社で構築した環境に基づいているのか、それとも公式の評価プロセスを厳密に複製しているのか。これは疑問符が付きます。

また、公表されたスコア明細表にも、いくつかの異例な詳細があります。

例えば、Symbolicaは「ARC-AGI-3 APIを通じて取得した人間のベースラインスコアによると、ゲームcn04には合計6つのレベルがある。これはAPIを通じて取得した対応するゲームのレベル数と一致しない」と指摘しています。

公式データにバージョンの混乱があるなら、スコアの有効性も疑わしくなります。

また、スコア明細図から、LP85やAR25などのゲームはスコアが非常に高く（80％〜97％）、SP80やBP35などのゲームはスコアが非常に低い（0.2％〜0.7％）ことがわかります。

このような深刻な二極分化は、過学習によるものではないでしょうか。

真の汎用知能であれば、すべてのゲームで比較的均等なパフォーマンスを示すはずだからです。

人心の帰趨：AGIの究極のテスト

昨日、ARC-AGI-3が登場すると、OpenAI、Google、xAIなど、多くのAI業界の重鎮たちから注目を集め、支持されました。

昨日、ARC-AGI-3が正式に発表された際、サム・アルトマンCEOも会場に駆けつけ、応援しました。

この新しいベンチマークは、常にAGIへと続く「北極星」として認められています。

長い間、AI界の尺度は静的ベンチマークの枠組みに固定されていました。

しかし、OpenClawのような「力ずくの進化」をするAIエージェントが登場すると、業界は「能動的知能」のブラックボックスを切り開くための解剖メスを必要としています。例えば、底なしの探索欲、ミリ秒単位の知覚決定、複雑な経路計画、そして直感的な目標調整などです。

課題URL：https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

ARC-AGI-3が出した試験問題は、AIに問いかけています。完全に未知のルールを前に、人間のような抽象化と推論の本能を持っているか、と。

ARC AGI 3技術報告書は以下のリンクをご覧ください：

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

ここでは、各ゲームがエージェントによる探索、理解、解決を必要とします。満点（100％）は、AIエージェントが人間のように効率的にすべてのゲームをクリアできることを意味します。

現在、最高成績は0.25、つまり人間のベースラインの25％相当です。

ARC-AGI-3のより重要な意義は、新しいAIテストの発表や、草の根がAI巨人を倒すサクセスストーリーではなく、新しいタイプのエージェント——エージェント思考——の開始です。

奇しくも、ARC-AGI-3の発表とほぼ同時に、Jason Junyan Lin氏が過去2年の総括を発表し、同じ傾向を指摘しました：

自律的思考（agentic thinking）が主流の思考様式になる。

……

極めて困難な数学やプログラミングのタスクに直面しても、真に先進的な（AI）システムは、検索、シミュレーション、実行、チェック、検証、修正を行う権利を持つべきだ。

本質的に、エージェント式思考とは、モデルが行動を通じて推論することであり、モデルが環境と相互作用する過程で継続的に進展を得られるかに焦点を当てています。

氏は、AI推論能力の核心的な問題が「モデルが十分に長く思考できるか」から「モデルが有効な行動を維持しながら思考できるか」へと変化したと指摘しています。

ARC-AGI-3の背後にある主旨と、Jason Lin氏の考察は、間違いなく一致しています。

その偶然の一致こそが、おそらく業界の次の方向性でしょう。

参考資料：

https://x.com/JustinLin610/status/2037116325210829168

https://github.com/symbolica-ai/ARC-AGI-3-Agents

https://www.symbolica.ai/blog/arc-agi-3

世界最難の試験で劇的な大逆転！黒馬AIが36％を突破、トップモデル勢は揃って失速

Symbolicaが初日に大番狂わせ、36％を突破

核心の秘訣：Arcgentica RLMハーネス

36.08％の高得点に水増しはあるのか？

人心の帰趨：AGIの究極のテスト

関連記事

分享網址