新智元報道
編輯:Aeneas KingHZ
【新智元導讀】就在昨天,ARC-AGI-3剛把全球頂尖大模型按在地上摩擦,結果一家名不見經傳的公司卻給出驚天消息:他們的AI在首日就取得了36.08%的成績!這匹黑馬究竟靠什麼撕開全球最難AI考試的鐵幕?是真突破,還是另有玄機?
驚天大逆轉!
就在昨天,給AI的最難測試ARC-AGI-3橫空出世,全球大模型一夜被血洗。
最強的頂流模型Opus 4.6,都只拿了0.2%分,簡直慘不忍睹。與此同時,人類卻大大領先,拿到了滿分的好成績。
這讓圍觀群眾們大吃一驚:無論是輝達執行長黃仁勳,還是提出AGI概念的發明人,都認為如今我們已經到達了AGI,難道我們真的離AGI如此遙遠?
出人意料的是,短短一天內,ARC-AGI-3就被破解了!
就在剛剛,一家名為Symbolica的公司宣布稱:
使用Agentica框架,我們在ARC-AGI-3測試中首日就取得了36.08%成績,全面碾壓CoT模型基線。
182個關卡中,他們已經順利通關了113個。25個可用遊戲中,他們完成了7個。
全球最難考試,被一把撕開缺口!
Symbolica首日爆冷,衝上36%
就在人們還在為Opus 4.6那可憐的0.2%得分唏噓不已,甚至開始懷疑「AGI是否只是大廠編織的幻夢」時,轉機就以驚喜的方式降臨了。
Symbolica的Agentica框架,為什麼在ARC-AGI-3發布首日就能交出36.08%的驚人成績單?
Agentica(Symbolica)基於Symbolica構建的ARC-AGI-3專用智能體系統。
要知道,在ARC-AGI-3那個近乎變態的評分公式——(人類步數 / AI步數)^2——面前,大模型領頭羊們還都在迷霧裡原地打轉呢。36.08%這個分數,簡直是降維打擊。
要理解Symbolica為什麼能贏,首先要明白Opus 4.6和GPT-5.4是怎麼輸的。
ARC-AGI-3與前兩代最大的不同,就在於它不是「靜態看圖說話」,而是一個交互式黑盒遊戲。
當一個基於純粹LLM的智能體進入遊戲,它最致命的弱點是:試圖用聯想代替邏輯,用模式匹配代替實驗。
大模型在面對未知環境時,會利用龐大的預訓練知識庫進行「腦補」。看到紅色方塊和藍色線條,可能就會聯想到「推箱子」或者「水位平衡」,然後基於這個錯誤的假設瘋狂輸出CoT。
如果假設錯了,它也不會停下來反思,而是會在錯誤的道路上越跑越遠,直到步數耗盡,得分歸零。
ARC-AGI-3恰好針對AI的這些弱點,在100%可由人類解決的環境中,衡量AI的三大能力:
隨時間推移的技能獲取效率
稀疏反饋下的長程規劃能力
跨多步、由經驗驅動的適應能力
而Symbolica的Agentica框架,走出了一條完全不同的技術路徑!
Agentica原生支持多智能體架構,並具備設計上的可並行性。它會自動將複雜任務拆解為子問題,並將工作委派給子智能體並行完成。
這意味著智能體能夠保持高效推進,開箱即用地更快完成任務!
Agentica是一個類型安全的AI框架,能夠讓LLM智能體與代碼無縫集成:包括函數、類、活動對象,乃至整個SDK。
此前,憑藉強大的長程推理任務,Symbolica就曾在ARC-AGI-2上取得SOTA成績,Agentica SDK為此立下了汗馬功勞。
核心秘訣:Arcgentica RLM harness
從GitHub頁面中,我們在IDEA.md這個文件中,發現了Agentica框架的絕技——ARC-AGI-3智能體框架。
GitHub地址:https://github.com/symbolica-ai/ARC-AGI-3-Agents
Agent Harnesses,是最近的絕對熱詞了,在Anthropic的官方博客和業內各位大咖的討論中,它一直在被不斷提及。
如果說2025年是智能體黃金時代的起點,那麼2026年將聚焦於智能體框架。
智能體框架是一種圍繞AI模型構建的基礎設施,用於管理長時間運行的任務,但它本身並不是智能體。
這次,Agentica從零開始理解遊戲機制,而且在沒有任何特定遊戲提示的情況下,解決多個關卡謎題。
這個基於Agentica SDK構建的Arcgentica RLM框架,有何特別之處?
首先,是遊戲無關性。
ARC-AGI-3之所以難,是因為它剝離了所有自然語言提示。人類能過關,是因為我們擁有物理直覺。
為此,Agentica採取了最極端的「遊戲無關性」策略。
智能體不知道顏色代表什麼,動作的作用是什麼,或者獲勝條件是什麼,僅通過與遊戲互動並觀察變化來推斷一切。
這種空白狀態,反而成就了它。
第二,是「統籌者 + 專業子智能體」的模式。
頂級統籌者,從不直接操作遊戲,它將任務委派給子智能體,積累知識,並決定下一步的行動。
專業子智能體包含:探索器、理論家、測試器和解題機。
如果它開始查看網格,其上下文就會被像素數據填滿,從而失去戰略思考能力。子智能體以簡短的文本摘要形式匯報,而不是原始數據。
這種非中心化計策結構的精妙設計,讓它規避了Opus 4.6等模型中「同一個大腦既要看像素、又要記規則、還要指揮動作」的嚴重缺陷。
第三,是它的「共享記憶」機制。
遊戲期間,所有智能體共享一個 memories 數據庫。子智能體在工作過程中會記錄已確認的事實(場景布局、機制、獲勝條件)和假設(並明確標記)。
新智能體在啟動前會查詢記憶,因此它們可以繼承集體知識。
第四,是「關卡切換」機制。
關卡切換:當一個關卡被解出後,下一個關卡會在同一次操作中直接加載,返回的畫面已經是新關卡。
只有當所有關卡都通關時,才會觸發state=WIN;單個關卡的完成則通過觀察 levels_completed 的增加來判斷。
第五點,Agentica有嚴苛的行動預算管理,每一枚token都要花在刀口上。
所有關卡的總操作次數是有限的(約 800 次)。調度器會通過 make_bounded_submit_action(limit) 為各個子智能體分配操作額度。系統會要求智能體避免重複操作,除非確實卡住。
而且,會優先進行有針對性的嘗試,而不是暴力式的窮舉探索。
另外,還有子智能體需要按需分配工具、調度器需要在復用與重啟之間權衡等規定。
要知道ARC-AGI-3的官方定位,正是強調「需要探索、感知 → 規劃 → 行動、記憶、目標獲取與對齊等能力」。
而Agentica的分工與控制策略,幾乎是對這些能力的「工程化拆解」:
探索:由子智能體探索器在動作預算下執行,盡量用差分觀測提取「機制線索」。
計劃/推理:由子智能體理論家在「不允許submit_action」的約束下推導規則,降低無意義動作消耗。
記憶: memories 數據庫的顯式化讓跨關卡策略復用更直接,降低「重複學習」的動作與token 成本。
長程適配:關卡過渡由 levels_completed 檢測,統籌者決定沿用策略還是重新進入探索循環。
顯然,這套機制與ARC-AGI-3的評分結構(後期關權重更高、效率平方懲罰)十分適配——它鼓勵系統把動作花在「信息增益最高」的實驗上,並盡快把策略遷移到更高權重關卡。
36.08%的高分,是否有水分?
不過,36%的成績無疑是耀眼的,但在經過ARC Prize官方驗證之前,Symbolica的「爆冷」依然籠罩著幾層迷霧。
Symbolica也承認,這一成績,目前沒有得到ARC-AGI-3組委會的官方認證。
材料中有一句非常關鍵的話:「unverified competition score」(未經驗證的成績)
Symbolica目前的成績是基於其自行搭建的環境,還是嚴格復刻了官方的評估流程?這需要打一個問號。
而且,公布的得分明細表中,也有一些不尋常的細節。
比如,Symbolica指出「通過ARC-AGI-3 API獲取的人類基線分數表明,遊戲cn04總共有6個關卡。這與通過API獲取的相應遊戲的關卡數量不符。」
如果官方數據存在版本混亂,那分數的有效性也就令人質疑。
另外,在得分明細圖中可以看出,像LP85、AR25等遊戲得分極高(80%-97%),而SP80、BP35等遊戲得分極低(0.2%-0.7%)。
這種嚴重的兩極分化,是否是過擬合導致的?
畢竟,如果是真正的通用智能,應該在所有遊戲上表現都相對均衡。
人心所向:AGI的終極測試
昨天,ARC-AGI-3一出,就獲得了萬眾矚目,得到OpenAI、谷歌、xAI等多位AI大佬的認可。
上下滑動查看
昨日,ARC-AGI-3正式發布時,OpenAI執行長山姆·奧特曼更是到現場力挺。
這個新的基準測試,被公認為始終通向AGI的「北極星」。
長期以來,AI界的度量衡被鎖死在靜態基準的框架裡。
然而,當OpenClaw這類「暴力進化」的AI智能體出現,行業顯然急需一把解剖刀,去切開「主動式智能」的黑盒:比如深不見底的探索欲,毫秒級的感知決策,複雜的路徑規劃,以及近乎直覺的目標對齊。
賽題:https://www.kaggle.com/competitions/arc-prize-2026-arc-agi-3/data
ARC-AGI-3祭出的考題,是在逼問AI:在完全陌生的規則面前,你是否具備人類那種抽象與推理的本能?
ARC AGI 3技術報告見下列連結:
https://arcprize.org/media/ARC_AGI_3_Technical_Report.pdf
在這裡,每款遊戲都需要智能體進行探索、理解並解決。滿分(100%)意味著AI智能體能夠像人類一樣高效地通關所有遊戲。
目前,最好成績為0.25,也就是相當於人類基線的25%。
ARC-AGI-3更重要的意義,不是發布新的AI測試,不是草根逆襲AI巨頭的爽文,而是開啟了新智能體類型——智能體思考。
巧合的是,幾乎與ARC-AGI-3發布同時,林俊旸發表了對過去兩年的總結,指出了相同的趨勢:
自主性思考將成為主流的思考方式。
……
即使面對極其困難的數學或編程任務,一個真正先進的(AI)系統也應有權進行搜索、模擬、執行、檢查、驗證和修正。
本質上,智能體式思考,是模型通過行動來進行推理,關注的是模型在與環境交互的過程中能否持續取得進展。
他指出AI推理能力核心問題從「模型能否思考足夠長時間」轉變為「模型能否以維持有效行動的方式進行思考」。
ARC-AGI-3的背後宗旨,和林俊旸的思考,無疑不謀而合了。
巧合之處,恐怕就是行業的下一個方向。
參考資料:
https://x.com/JustinLin610/status/2037116325210829168
https://github.com/symbolica-ai/ARC-AGI-3-Agents
https://www.symbolica.ai/blog/arc-agi-3