全球最難AI考試驚天大逆轉!黑馬AI衝破36%,頂流模型集體翻車

圖片


新智元報道

編輯:Aeneas KingHZ

【新智元導讀】就在昨天,ARC-AGI-3剛把全球頂尖大模型按在地上摩擦,結果一家名不見經傳的公司卻給出驚天消息:他們的AI在首日就取得了36.08%的成績!這匹黑馬究竟靠什麼撕開全球最難AI考試的鐵幕?是真突破,還是另有玄機?

驚天大逆轉!

就在昨天,給AI的最難測試ARC-AGI-3橫空出世,全球大模型一夜被血洗。

最強的頂流模型Opus 4.6,都只拿了0.2%分,簡直慘不忍睹。與此同時,人類卻大大領先,拿到了滿分的好成績。

圖片

這讓圍觀群眾們大吃一驚:無論是輝達執行長黃仁勳,還是提出AGI概念的發明人,都認為如今我們已經到達了AGI,難道我們真的離AGI如此遙遠?

出人意料的是,短短一天內,ARC-AGI-3就被破解了!

就在剛剛,一家名為Symbolica的公司宣布稱:

使用Agentica框架,我們在ARC-AGI-3測試中首日就取得了36.08%成績,全面碾壓CoT模型基線。

圖片

圖片

182個關卡中,他們已經順利通關了113個。25個可用遊戲中,他們完成了7個。

全球最難考試,被一把撕開缺口!

圖片

圖片

Symbolica首日爆冷,衝上36%

就在人們還在為Opus 4.6那可憐的0.2%得分唏噓不已,甚至開始懷疑「AGI是否只是大廠編織的幻夢」時,轉機就以驚喜的方式降臨了。

圖片

Symbolica的Agentica框架,為什麼在ARC-AGI-3發布首日就能交出36.08%的驚人成績單?

圖片

Agentica(Symbolica)基於Symbolica構建的ARC-AGI-3專用智能體系統。

要知道,在ARC-AGI-3那個近乎變態的評分公式——(人類步數 / AI步數)^2——面前,大模型領頭羊們還都在迷霧裡原地打轉呢。36.08%這個分數,簡直是降維打擊。

圖片

要理解Symbolica為什麼能贏,首先要明白Opus 4.6和GPT-5.4是怎麼輸的。

ARC-AGI-3與前兩代最大的不同,就在於它不是「靜態看圖說話」,而是一個交互式黑盒遊戲。

當一個基於純粹LLM的智能體進入遊戲,它最致命的弱點是:試圖用聯想代替邏輯,用模式匹配代替實驗。

大模型在面對未知環境時,會利用龐大的預訓練知識庫進行「腦補」。看到紅色方塊和藍色線條,可能就會聯想到「推箱子」或者「水位平衡」,然後基於這個錯誤的假設瘋狂輸出CoT。

如果假設錯了,它也不會停下來反思,而是會在錯誤的道路上越跑越遠,直到步數耗盡,得分歸零。

ARC-AGI-3恰好針對AI的這些弱點,在100%可由人類解決的環境中,衡量AI的三大能力:

  • 隨時間推移的技能獲取效率

  • 稀疏反饋下的長程規劃能力

  • 跨多步、由經驗驅動的適應能力

而Symbolica的Agentica框架,走出了一條完全不同的技術路徑!

Agentica原生支持多智能體架構,並具備設計上的可並行性。它會自動將複雜任務拆解為子問題,並將工作委派給子智能體並行完成。

這意味著智能體能夠保持高效推進,開箱即用地更快完成任務!

圖片

Agentica是一個類型安全的AI框架,能夠讓LLM智能體與代碼無縫集成:包括函數、類、活動對象,乃至整個SDK。

此前,憑藉強大的長程推理任務,Symbolica就曾在ARC-AGI-2上取得SOTA成績,Agentica SDK為此立下了汗馬功勞。

圖片

核心秘訣:Arcgentica RLM harness

從GitHub頁面中,我們在IDEA.md這個文件中,發現了Agentica框架的絕技——ARC-AGI-3智能體框架。

圖片

GitHub地址:https://github.com/symbolica-ai/ARC-AGI-3-Agents

Agent Harnesses,是最近的絕對熱詞了,在Anthropic的官方博客和業內各位大咖的討論中,它一直在被不斷提及。

圖片

如果說2025年是智能體黃金時代的起點,那麼2026年將聚焦於智能體框架。

智能體框架是一種圍繞AI模型構建的基礎設施,用於管理長時間運行的任務,但它本身並不是智能體。

這次,Agentica從零開始理解遊戲機制,而且在沒有任何特定遊戲提示的情況下,解決多個關卡謎題。

圖片

這個基於Agentica SDK構建的Arcgentica RLM框架,有何特別之處?

首先,是遊戲無關性。

ARC-AGI-3之所以難,是因為它剝離了所有自然語言提示。人類能過關,是因為我們擁有物理直覺。

為此,Agentica採取了最極端的「遊戲無關性」策略。

智能體不知道顏色代表什麼,動作的作用是什麼,或者獲勝條件是什麼,僅通過與遊戲互動並觀察變化來推斷一切。

這種空白狀態,反而成就了它。

第二,是「統籌者 + 專業子智能體」的模式。

頂級統籌者,從不直接操作遊戲,它將任務委派給子智能體,積累知識,並決定下一步的行動。

圖片

專業子智能體包含:探索器、理論家、測試器和解題機。

如果它開始查看網格,其上下文就會被像素數據填滿,從而失去戰略思考能力。子智能體以簡短的文本摘要形式匯報,而不是原始數據。

這種非中心化計策結構的精妙設計,讓它規避了Opus 4.6等模型中「同一個大腦既要看像素、又要記規則、還要指揮動作」的嚴重缺陷。

第三,是它的「共享記憶」機制。

遊戲期間,所有智能體共享一個 memories 數據庫。子智能體在工作過程中會記錄已確認的事實(場景布局、機制、獲勝條件)和假設(並明確標記)。

新智能體在啟動前會查詢記憶,因此它們可以繼承集體知識。

圖片

第四,是「關卡切換」機制。

關卡切換:當一個關卡被解出後,下一個關卡會在同一次操作中直接加載,返回的畫面已經是新關卡。

只有當所有關卡都通關時,才會觸發state=WIN;單個關卡的完成則通過觀察 levels_completed 的增加來判斷。

第五點,Agentica有嚴苛的行動預算管理,每一枚token都要花在刀口上。

所有關卡的總操作次數是有限的(約 800 次)。調度器會通過 make_bounded_submit_action(limit) 為各個子智能體分配操作額度。系統會要求智能體避免重複操作,除非確實卡住。

而且,會優先進行有針對性的嘗試,而不是暴力式的窮舉探索。

另外,還有子智能體需要按需分配工具、調度器需要在復用與重啟之間權衡等規定。

要知道ARC-AGI-3的官方定位,正是強調「需要探索、感知 → 規劃 → 行動、記憶、目標獲取與對齊等能力」。

而Agentica的分工與控制策略,幾乎是對這些能力的「工程化拆解」:

探索:由子智能體探索器在動作預算下執行,盡量用差分觀測提取「機制線索」。

計劃/推理:由子智能體理論家在「不允許submit_action」的約束下推導規則,降低無意義動作消耗。

記憶: memories 數據庫的顯式化讓跨關卡策略復用更直接,降低「重複學習」的動作與token 成本。

長程適配:關卡過渡由 levels_completed 檢測,統籌者決定沿用策略還是重新進入探索循環。

顯然,這套機制與ARC-AGI-3的評分結構(後期關權重更高、效率平方懲罰)十分適配——它鼓勵系統把動作花在「信息增益最高」的實驗上,並盡快把策略遷移到更高權重關卡。

圖片

36.08%的高分,是否有水分?

不過,36%的成績無疑是耀眼的,但在經過ARC Prize官方驗證之前,Symbolica的「爆冷」依然籠罩著幾層迷霧。

Symbolica也承認,這一成績,目前沒有得到ARC-AGI-3組委會的官方認證。

圖片

材料中有一句非常關鍵的話:「unverified competition score」(未經驗證的成績)

Symbolica目前的成績是基於其自行搭建的環境,還是嚴格復刻了官方的評估流程?這需要打一個問號。

而且,公布的得分明細表中,也有一些不尋常的細節。

比如,Symbolica指出「通過ARC-AGI-3 API獲取的人類基線分數表明,遊戲cn04總共有6個關卡。這與通過API獲取的相應遊戲的關卡數量不符。」

圖片

如果官方數據存在版本混亂,那分數的有效性也就令人質疑。

另外,在得分明細圖中可以看出,像LP85、AR25等遊戲得分極高(80%-97%),而SP80、BP35等遊戲得分極低(0.2%-0.7%)。

圖片

圖片

這種嚴重的兩極分化,是否是過擬合導致的?

畢竟,如果是真正的通用智能,應該在所有遊戲上表現都相對均衡。

圖片

人心所向:AGI的終極測試

昨天,ARC-AGI-3一出,就獲得了萬眾矚目,得到OpenAI、谷歌、xAI等多位AI大佬的認可。

圖片

圖片

圖片

圖片

上下滑動查看

昨日,ARC-AGI-3正式發布時,OpenAI執行長山姆·奧特曼更是到現場力挺。

圖片

圖片

這個新的基準測試,被公認為始終通向AGI的「北極星」。

長期以來,AI界的度量衡被鎖死在靜態基準的框架裡。

然而,當OpenClaw這類「暴力進化」的AI智能體出現,行業顯然急需一把解剖刀,去切開「主動式智能」的黑盒:比如深不見底的探索欲,毫秒級的感知決策,複雜的路徑規劃,以及近乎直覺的目標對齊。

圖片

賽題:https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data

ARC-AGI-3祭出的考題,是在逼問AI:在完全陌生的規則面前,你是否具備人類那種抽象與推理的本能?

圖片

ARC AGI 3技術報告見下列連結:

https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf

在這裡,每款遊戲都需要智能體進行探索、理解並解決。滿分(100%)意味著AI智能體能夠像人類一樣高效地通關所有遊戲。

圖片

目前,最好成績為0.25,也就是相當於人類基線的25%。

圖片

ARC-AGI-3更重要的意義,不是發布新的AI測試,不是草根逆襲AI巨頭的爽文,而是開啟了新智能體類型——智能體思考。

巧合的是,幾乎與ARC-AGI-3發布同時,林俊旸發表了對過去兩年的總結,指出了相同的趨勢:

自主性思考將成為主流的思考方式。

……

即使面對極其困難的數學或編程任務,一個真正先進的(AI)系統也應有權進行搜索、模擬、執行、檢查、驗證和修正。

圖片

本質上,智能體式思考,是模型通過行動來進行推理,關注的是模型在與環境交互的過程中能否持續取得進展。

他指出AI推理能力核心問題從「模型能否思考足夠長時間」轉變為「模型能否以維持有效行動的方式進行思考」。

ARC-AGI-3的背後宗旨,和林俊旸的思考,無疑不謀而合了。

巧合之處,恐怕就是行業的下一個方向。

參考資料:

https://x.com/JustinLin610/status/2037116325210829168

https://github.com/symbolica-ai/ARC-AGI-3-Agents

https://www.symbolica.ai/blog/arc-agi-3

圖片

圖片


分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.