最新文章
所有文章

繁體中文

分類：機器學習

強化學習遠非最優，CMU 剛剛提出最大似然強化學習
別再暴力 Clip 了！千問提出 GatedNorm，統一視角揭秘殘差流玄學
Transformer 作者領軍，Sakana AI 連發三篇論文：徹底重構長文本的記憶機制
美團低調上新！實測首個開源「重思考」模型：8路並行，Agent硬剛Claude
谷歌新發現：DeepSeek 推理分裂出多重人格，左右腦互搏越來越聰明
谷歌剛掀了模型記憶的桌子，英偉達又革了注意力的命｜Hao好聊論文
最佳化即是幾何，幾何即是推理：用數學終結Transformer的黑盒時代
單次量子機器學習
NVIDIA開源神作：8B小模型吊打GPT5，成本僅30%，速度快2.5倍！NVIDIA研究總監：為Agent去優化單個LLM簡直是個錯誤！讓小模型管大模型更香
讓 AI 自己打怪升級，Meta 用 Self-play RL 把 Coding 推向超級智慧
Attention 並非你所需的全部？以格拉斯曼流形重構序列建模的幾何美學
從「Titans+MIRAS & Nested」跨越式架構創新到NeurIPS2025最佳論文「Gated Attention」
成本不到8千美元！新浪微博1.5B小模型超越近萬億參數模型
AI秒解18世紀「天書」帳本！Google新模型盲測引爆全網
上海交大博士最新思辨：僅用兩個問題闡明強化學習
Meta 發現：RAG 系統過慢是因為做了太多無用功
遞迴推理HRM模型再進化！TRM兩層網路(7M參數)擊敗大型語言模型！
微軟提出 GRPO-RoC：軌跡品質過濾是代理式強化學習的關鍵
破除大型語言模型強化學習訓練中的「熵」詛咒，讓模型學會穩定成長！
史丹佛最新研究：最強LLM也搞不定前瞻程式碼！Gemini 2.5 Pro成功率不足40%
獎勵模型新革命！SWIFT不讀文本讀「心聲」，打造又快又強又省錢的AI裁判
GPT-5 等於擴展法則失靈？畢樹超：永遠有效，因為它反映的是資料結構，是客觀規律
AI 修復錯誤新 SOTA：SWE-Bench Lite 修正率達 60.33%，能像人一樣累積經驗，中科院軟體所出品
ReaGAN：讓圖中每個節點都成為智能推理專家
超越人類標註，Meta 提出 CoT-Self-Instruct：如何用「推理式自進化」重塑大型語言模型訓練

←
1
2
3
4
5
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.