最新文章
所有文章

繁體中文

分類：深度學習

Chandra OCR 2 開源了！官方基準測試拿下 85.9 分，直接碾壓 GPT-4o 的 69.9 分
LLM 真實能力大起底：Python 考 90 分，Whitespace 考 0 分！AI 的「學霸」人設崩了
重構原生多模態！美團發布純離散基座，真正實現萬物皆 Token
輝達自我革命：AI 智能體自主演化 7 天，超越所有人類 GPU 專家與算子工程師
NVIDIA Nemotron-Cascade 2 技術報告：3B 激活參數奪下 IMO 金牌，重新定義小模型極限
Mamba-3：專為推論效率打造的新一代狀態空間模型
AI 不需要理解世界，但我們需要理解 AI
將注意力旋轉 90 度！今天，Kimi 的「注意力殘差」火了
Google 新研究找到了大型模型反覆推敲的重要 Token！
“刪掉一層”，模型反而更懂任務？哈工深｜楊朔團隊發現 VLM 中的任務干擾層
LLM RL 訓練軌跡竟然是線性的？Miaow Lab 最新工作：無需繼續訓練，直接「預測」未來模型！
On-Policy Distillation 到底是什麼？深度解讀 On-Policy/Self-Distillation
Nvidia 全新技術讓大型語言模型推理成本降低 8 倍，準確度毫不妥協
像挖礦一樣挖掘激勵函數？DeepMind打造「算力礦場」，暴力搜出下一代ReLU
少即是多：微模型的遞迴推理
谷歌新發現：DeepSeek 推理分裂出多重人格，左右腦互搏越來越聰明
Transformer已死？DeepMind正在押注另一條AGI路線
預訓練資料太差怎麼辦？Bengio團隊引入顯式貝葉斯，無梯度實現In-Context RL
最佳化即是幾何，幾何即是推理：用數學終結Transformer的黑盒時代
RLVR強化學習訓練成本暴降98%！12種PEFT方法大PK，結果讓人意外...
Attention 並非你所需的全部？以格拉斯曼流形重構序列建模的幾何美學
梁文鋒署名，DeepSeek新年開啟宏觀架構新篇章，破解梯度爆炸與顯存牆
【深度】Ilya Sutskever 精選論文：柏拉圖表徵假說
上海交大博士最新思辨：僅用兩個問題闡明強化學習
NAS新視角：圖神經網路驅動的通用架構空間，卷積與Transformer混合架構性能躍升！

←
1
2
3
4
5
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.