分類: 機器學習
- 強化學習遠非最優,CMU 剛剛提出最大似然強化學習
- 別再暴力 Clip 了!千問提出 GatedNorm,統一視角揭秘殘差流玄學
- Transformer 作者領軍,Sakana AI 連發三篇論文:徹底重構長文本的記憶機制
- 美團低調上新!實測首個開源「重思考」模型:8路並行,Agent硬剛Claude
- 谷歌新發現:DeepSeek 推理分裂出多重人格,左右腦互搏越來越聰明
- 谷歌剛掀了模型記憶的桌子,英偉達又革了注意力的命|Hao好聊論文
- 最佳化即是幾何,幾何即是推理:用數學終結Transformer的黑盒時代
- 單次量子機器學習
- NVIDIA開源神作:8B小模型吊打GPT5,成本僅30%,速度快2.5倍!NVIDIA研究總監:為Agent去優化單個LLM簡直是個錯誤!讓小模型管大模型更香
- 讓 AI 自己打怪升級,Meta 用 Self-play RL 把 Coding 推向超級智慧
- Attention 並非你所需的全部?以格拉斯曼流形重構序列建模的幾何美學
- 從「Titans+MIRAS & Nested」跨越式架構創新到NeurIPS2025最佳論文「Gated Attention」
- 成本不到8千美元!新浪微博1.5B小模型超越近萬億參數模型
- AI秒解18世紀「天書」帳本!Google新模型盲測引爆全網
- 上海交大博士最新思辨:僅用兩個問題闡明強化學習
- Meta 發現:RAG 系統過慢是因為做了太多無用功
- 遞迴推理HRM模型再進化!TRM兩層網路(7M參數)擊敗大型語言模型!
- 微軟提出 GRPO-RoC:軌跡品質過濾是代理式強化學習的關鍵
- 破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!
- 史丹佛最新研究:最強LLM也搞不定前瞻程式碼!Gemini 2.5 Pro成功率不足40%
- 獎勵模型新革命!SWIFT不讀文本讀「心聲」,打造又快又強又省錢的AI裁判
- GPT-5 等於擴展法則失靈?畢樹超:永遠有效,因為它反映的是資料結構,是客觀規律
- AI 修復錯誤新 SOTA:SWE-Bench Lite 修正率達 60.33%,能像人一樣累積經驗,中科院軟體所出品
- ReaGAN:讓圖中每個節點都成為智能推理專家
- 超越人類標註,Meta 提出 CoT-Self-Instruct:如何用「推理式自進化」重塑大型語言模型訓練