全球最難AI考試驚天大逆轉！黑馬AI衝破36%，頂流模型集體翻車

新智元報道

編輯：Aeneas KingHZ

【新智元導讀】就在昨天，ARC-AGI-3剛把全球頂尖大模型按在地上摩擦，結果一家名不見經傳的公司卻給出驚天消息：他們的AI在首日就取得了36.08%的成績！這匹黑馬究竟靠什麼撕開全球最難AI考試的鐵幕？是真突破，還是另有玄機？

驚天大逆轉！

就在昨天，給AI的最難測試ARC-AGI-3橫空出世，全球大模型一夜被血洗。

最強的頂流模型Opus 4.6，都只拿了0.2%分，簡直慘不忍睹。與此同時，人類卻大大領先，拿到了滿分的好成績。

這讓圍觀群眾們大吃一驚：無論是輝達執行長黃仁勳，還是提出AGI概念的發明人，都認為如今我們已經到達了AGI，難道我們真的離AGI如此遙遠？

出人意料的是，短短一天內，ARC-AGI-3就被破解了！

就在剛剛，一家名為Symbolica的公司宣布稱：

使用Agentica框架，我們在ARC-AGI-3測試中首日就取得了36.08%成績，全面碾壓CoT模型基線。

182個關卡中，他們已經順利通關了113個。25個可用遊戲中，他們完成了7個。

全球最難考試，被一把撕開缺口！

Symbolica首日爆冷，衝上36%

就在人們還在為Opus 4.6那可憐的0.2%得分唏噓不已，甚至開始懷疑「AGI是否只是大廠編織的幻夢」時，轉機就以驚喜的方式降臨了。

Symbolica的Agentica框架，為什麼在ARC-AGI-3發布首日就能交出36.08%的驚人成績單？

Agentica（Symbolica）基於Symbolica構建的ARC-AGI-3專用智能體系統。

要知道，在ARC-AGI-3那個近乎變態的評分公式——(人類步數 / AI步數)^2——面前，大模型領頭羊們還都在迷霧裡原地打轉呢。36.08%這個分數，簡直是降維打擊。

要理解Symbolica為什麼能贏，首先要明白Opus 4.6和GPT-5.4是怎麼輸的。

ARC-AGI-3與前兩代最大的不同，就在於它不是「靜態看圖說話」，而是一個交互式黑盒遊戲。

當一個基於純粹LLM的智能體進入遊戲，它最致命的弱點是：試圖用聯想代替邏輯，用模式匹配代替實驗。

大模型在面對未知環境時，會利用龐大的預訓練知識庫進行「腦補」。看到紅色方塊和藍色線條，可能就會聯想到「推箱子」或者「水位平衡」，然後基於這個錯誤的假設瘋狂輸出CoT。

如果假設錯了，它也不會停下來反思，而是會在錯誤的道路上越跑越遠，直到步數耗盡，得分歸零。

ARC-AGI-3恰好針對AI的這些弱點，在100%可由人類解決的環境中，衡量AI的三大能力：

隨時間推移的技能獲取效率
稀疏反饋下的長程規劃能力
跨多步、由經驗驅動的適應能力

而Symbolica的Agentica框架，走出了一條完全不同的技術路徑！

Agentica原生支持多智能體架構，並具備設計上的可並行性。它會自動將複雜任務拆解為子問題，並將工作委派給子智能體並行完成。

這意味著智能體能夠保持高效推進，開箱即用地更快完成任務！

Agentica是一個類型安全的AI框架，能夠讓LLM智能體與代碼無縫集成：包括函數、類、活動對象，乃至整個SDK。

此前，憑藉強大的長程推理任務，Symbolica就曾在ARC-AGI-2上取得SOTA成績，Agentica SDK為此立下了汗馬功勞。

核心秘訣：Arcgentica RLM harness

從GitHub頁面中，我們在IDEA.md這個文件中，發現了Agentica框架的絕技——ARC-AGI-3智能體框架。

GitHub地址：https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnesses，是最近的絕對熱詞了，在Anthropic的官方博客和業內各位大咖的討論中，它一直在被不斷提及。

如果說2025年是智能體黃金時代的起點，那麼2026年將聚焦於智能體框架。

智能體框架是一種圍繞AI模型構建的基礎設施，用於管理長時間運行的任務，但它本身並不是智能體。

這次，Agentica從零開始理解遊戲機制，而且在沒有任何特定遊戲提示的情況下，解決多個關卡謎題。

這個基於Agentica SDK構建的Arcgentica RLM框架，有何特別之處？

首先，是遊戲無關性。

ARC-AGI-3之所以難，是因為它剝離了所有自然語言提示。人類能過關，是因為我們擁有物理直覺。

為此，Agentica採取了最極端的「遊戲無關性」策略。

智能體不知道顏色代表什麼，動作的作用是什麼，或者獲勝條件是什麼，僅通過與遊戲互動並觀察變化來推斷一切。

這種空白狀態，反而成就了它。

第二，是「統籌者 + 專業子智能體」的模式。

頂級統籌者，從不直接操作遊戲，它將任務委派給子智能體，積累知識，並決定下一步的行動。

專業子智能體包含：探索器、理論家、測試器和解題機。

如果它開始查看網格，其上下文就會被像素數據填滿，從而失去戰略思考能力。子智能體以簡短的文本摘要形式匯報，而不是原始數據。

這種非中心化計策結構的精妙設計，讓它規避了Opus 4.6等模型中「同一個大腦既要看像素、又要記規則、還要指揮動作」的嚴重缺陷。

第三，是它的「共享記憶」機制。

遊戲期間，所有智能體共享一個 memories 數據庫。子智能體在工作過程中會記錄已確認的事實（場景布局、機制、獲勝條件）和假設（並明確標記）。

新智能體在啟動前會查詢記憶，因此它們可以繼承集體知識。

第四，是「關卡切換」機制。

關卡切換：當一個關卡被解出後，下一個關卡會在同一次操作中直接加載，返回的畫面已經是新關卡。

只有當所有關卡都通關時，才會觸發state=WIN；單個關卡的完成則通過觀察 levels_completed 的增加來判斷。

第五點，Agentica有嚴苛的行動預算管理，每一枚token都要花在刀口上。

所有關卡的總操作次數是有限的（約 800 次）。調度器會通過 make_bounded_submit_action(limit) 為各個子智能體分配操作額度。系統會要求智能體避免重複操作，除非確實卡住。

而且，會優先進行有針對性的嘗試，而不是暴力式的窮舉探索。

另外，還有子智能體需要按需分配工具、調度器需要在復用與重啟之間權衡等規定。

要知道ARC-AGI-3的官方定位，正是強調「需要探索、感知 → 規劃 → 行動、記憶、目標獲取與對齊等能力」。

而Agentica的分工與控制策略，幾乎是對這些能力的「工程化拆解」：

探索：由子智能體探索器在動作預算下執行，盡量用差分觀測提取「機制線索」。

計劃/推理：由子智能體理論家在「不允許submit_action」的約束下推導規則，降低無意義動作消耗。

記憶： memories 數據庫的顯式化讓跨關卡策略復用更直接，降低「重複學習」的動作與token 成本。

長程適配：關卡過渡由 levels_completed 檢測，統籌者決定沿用策略還是重新進入探索循環。

顯然，這套機制與ARC-AGI-3的評分結構（後期關權重更高、效率平方懲罰）十分適配——它鼓勵系統把動作花在「信息增益最高」的實驗上，並盡快把策略遷移到更高權重關卡。

36.08%的高分，是否有水分？

不過，36%的成績無疑是耀眼的，但在經過ARC Prize官方驗證之前，Symbolica的「爆冷」依然籠罩著幾層迷霧。

Symbolica也承認，這一成績，目前沒有得到ARC-AGI-3組委會的官方認證。

材料中有一句非常關鍵的話：「unverified competition score」（未經驗證的成績）

Symbolica目前的成績是基於其自行搭建的環境，還是嚴格復刻了官方的評估流程？這需要打一個問號。

而且，公布的得分明細表中，也有一些不尋常的細節。

比如，Symbolica指出「通過ARC-AGI-3 API獲取的人類基線分數表明，遊戲cn04總共有6個關卡。這與通過API獲取的相應遊戲的關卡數量不符。」

如果官方數據存在版本混亂，那分數的有效性也就令人質疑。

另外，在得分明細圖中可以看出，像LP85、AR25等遊戲得分極高（80%-97%），而SP80、BP35等遊戲得分極低（0.2%-0.7%）。

這種嚴重的兩極分化，是否是過擬合導致的？

畢竟，如果是真正的通用智能，應該在所有遊戲上表現都相對均衡。

人心所向：AGI的終極測試

昨天，ARC-AGI-3一出，就獲得了萬眾矚目，得到OpenAI、谷歌、xAI等多位AI大佬的認可。

上下滑動查看

昨日，ARC-AGI-3正式發布時，OpenAI執行長山姆·奧特曼更是到現場力挺。

這個新的基準測試，被公認為始終通向AGI的「北極星」。

長期以來，AI界的度量衡被鎖死在靜態基準的框架裡。

然而，當OpenClaw這類「暴力進化」的AI智能體出現，行業顯然急需一把解剖刀，去切開「主動式智能」的黑盒：比如深不見底的探索欲，毫秒級的感知決策，複雜的路徑規劃，以及近乎直覺的目標對齊。

賽題：https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

ARC-AGI-3祭出的考題，是在逼問AI：在完全陌生的規則面前，你是否具備人類那種抽象與推理的本能？

ARC AGI 3技術報告見下列連結：

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

在這裡，每款遊戲都需要智能體進行探索、理解並解決。滿分（100%）意味著AI智能體能夠像人類一樣高效地通關所有遊戲。

目前，最好成績為0.25，也就是相當於人類基線的25%。

ARC-AGI-3更重要的意義，不是發布新的AI測試，不是草根逆襲AI巨頭的爽文，而是開啟了新智能體類型——智能體思考。

巧合的是，幾乎與ARC-AGI-3發布同時，林俊旸發表了對過去兩年的總結，指出了相同的趨勢：

自主性思考將成為主流的思考方式。

……

即使面對極其困難的數學或編程任務，一個真正先進的（AI）系統也應有權進行搜索、模擬、執行、檢查、驗證和修正。

本質上，智能體式思考，是模型通過行動來進行推理，關注的是模型在與環境交互的過程中能否持續取得進展。

他指出AI推理能力核心問題從「模型能否思考足夠長時間」轉變為「模型能否以維持有效行動的方式進行思考」。

ARC-AGI-3的背後宗旨，和林俊旸的思考，無疑不謀而合了。

巧合之處，恐怕就是行業的下一個方向。

參考資料：

https://x.com/JustinLin610/status/2037116325210829168

https://github.com/symbolica-ai/ARC-AGI-3-Agents

https://www.symbolica.ai/blog/arc-agi-3

全球最難AI考試驚天大逆轉！黑馬AI衝破36%，頂流模型集體翻車

Symbolica首日爆冷，衝上36%

核心秘訣：Arcgentica RLM harness

36.08%的高分，是否有水分？

人心所向：AGI的終極測試

相關文章推薦

分享網址