分類: 大語言模型
- 長文縮減六成+稀疏度 95%:今日雙重突破,創下推理運算效率新紀錄
- 讓全網 AI 翻車的「洗車難題」,終於有人破案了
- 史丹佛大學實錘!多智能體推理竟是算力幻覺,同 Token 預算下單一智能體完勝
- 北大團隊改造 DeepSeek 注意力機制:速度提升四倍且不損精度
- LLM 真實能力大起底:Python 考 90 分,Whitespace 考 0 分!AI 的「學霸」人設崩了
- 合成資料比真實數據更有效?Meta 論文揭示強化學習訓練大模型的突破路徑
- SortedRL:大模型 RL 訓練速度提升 50%,訓練效率躍升 18%
- GPT-5.4、Claude Opus 等頂尖大模型被曝「假推理」:解題過程竟是「表演」?
- 模型已具備內省能力,但過去它的心門上了鎖|Hao 好聊論文
- 讓 AI 自己「煉數據」!DataChef 開源:用強化學習自動生成 LLM 數據配方
- 實作 RAG 這一年,最後悔的就是盲目導入知識圖譜
- 效能飆升 42%!人大與字節開源 10 萬級 SWE 資料集 Scale-SWE
- Agent Skills 時代:強弱模型差異究竟多大?戳破你的「平替」幻覺|牛津最新研究
- 30B模型投入科研,效能超越GPT-5.4,成績從1.7%提升至33.3%
- 神作!MIT 與 Google 訓練出能進行嚴格貝氏推論的 LLM 大模型
- 打破模型靜態權重!騰訊混元發布模型推理時即時換腦技術
- 大語言模型為什麼能「理解」世界?
- PPO已死?DeepSeek都在用的強化學習基石竟有重大缺陷!
- 剛剛,Claude 4.6 與 GPT-5.3-Codex 同時發布!
- 谷歌新發現:DeepSeek 推理分裂出多重人格,左右腦互搏越來越聰明
- 智譜新模型也用DeepSeek的MLA,蘋果M5就能跑
- 谷歌剛掀了模型記憶的桌子,英偉達又革了注意力的命|Hao好聊論文
- 別讓「反幻覺」扼殺AI創造力,最新實證研究來了!
- 從「Titans+MIRAS & Nested」跨越式架構創新到NeurIPS2025最佳論文「Gated Attention」
- 因果推斷殺入 LLM 戰場!大模型幻覺終結者?ABCA 框架