分類: 自然語言處理
- 10M參數也能跑ARC與數獨,Bengio團隊押注「多軌跡推理」
- 多語言 RAG 的上下文被卡在 512 太久了:嵌入模型 32K 上下文時代從 Granite R2 開始
- 何愷明團隊首個語言模型亮相!105M參數、45B訓練token,連續擴散路線正面擊敗主流離散DLM
- 何愷明團隊「擴散模型」新作:在「最後一公里」進行離散解碼
- Subquadratic — 效率即智慧
- Abstract-CoT:推理token暴降11.6倍,無詞思維鏈打破LLM效率天花板
- 論文淺嚐 | 利用多智能體大型語言模型實現知識圖譜自動化擴充(NeurIPS 2025)
- 思考不需言語:使用抽象思維鏈實現高效潛在推理
- DeepSeek-V4 預覽版:邁入百萬字元上下文普惠時代
- 李飛飛團隊最新研究:從熵到互信息,RAGEN-2 重塑推理品質標準,終結 AI Agent「越訓越模板化」困境
- 多智能體編排太繁瑣?MASFactory 用 Vibe Graphing 直接「話」出來了
- 僅用2億真實Token訓練的模型,為何能媲美3.6億數據量的效果?
- 實作 RAG 這一年,最後悔的就是盲目導入知識圖譜
- 最強多模態大模型在真實網頁搜尋中被人類碾壓?GPT-5.2 僅獲 36% 勝率,北大、華為等聯合開源全新深度搜尋基準 BrowseComp-V3
- 神作!MIT 與 Google 訓練出能進行嚴格貝氏推論的 LLM 大模型
- Google 新研究找到了大型模型反覆推敲的重要 Token!
- On-Policy Distillation 到底是什麼?深度解讀 On-Policy/Self-Distillation
- Transformer 作者領軍,Sakana AI 連發三篇論文:徹底重構長文本的記憶機制
- 真·開外掛!MIT新研究:架構0改動,讓大模型解鎖千萬級上下文
- Attention 並非你所需的全部?以格拉斯曼流形重構序列建模的幾何美學
- Meta 提出 Deep Think with Confidence:幾乎無需更動,即可提升推論的準確性與效率
- DeepSeek R2 秘密武器曝光!梁文鋒剛拿下頂級大獎的技術,讓 AI 讀長文速度狂飆 11 倍
- 推理越多,幻覺越重?多模態推理模型的「幻覺悖論」
- ACL 2025 | 大型語言模型「以訛傳訛」?DRAG 雙階段「多代理辯論」破解幻覺疊加問題
- 全球程式設計師譁然!黃仁勳於倫敦放話:程式語言的未來是「Human」