分類: 大型語言模型
- 4B 模型幻覺抑制能力超越 GPT-5,CMU 等提出行為校準強化學習新方法
- MMLU已死?「人類最後考試」登上Nature:全球AI模型集體不及格!
- Google 新研究找到了大型模型反覆推敲的重要 Token!
- Anthropic CEO:大型語言模型的資料瓶頸已不復存在,模型正在自我訓練
- Anthropic最新論文:網際網路匿名,在AI時代終結|Hao好聊論文
- 並非所有 token 都平等!Google 提出真・深度思考:思維鏈長≠深度推理
- LLM RL 訓練軌跡竟然是線性的?Miaow Lab 最新工作:無需繼續訓練,直接「預測」未來模型!
- Google Gemini 3.1 Pro 屠榜稱霸,清華姚順宇出手!Claude 和 GPT 被逼入死角
- 1兆美元蒸發背後:垂直軟體的護城河,正被大型模型改寫
- Qwen3.5:邁向原生多模態智慧代理人
- 苦澀的教訓!ROLL團隊分享:Agentic RL 訓練中的實務經驗
- 小米推出 JudgeRLVR:先判斷後生成——打破推理模型「長思維鏈」的效率悖論
- Nvidia 全新技術讓大型語言模型推理成本降低 8 倍,準確度毫不妥協
- Transformer 作者領軍,Sakana AI 連發三篇論文:徹底重構長文本的記憶機制
- 自進化Agent新突破!Meta推出Dr.Zero:自發湧現複雜推理、搜尋能力
- 真·開外掛!MIT新研究:架構0改動,讓大模型解鎖千萬級上下文
- 上下文爆炸怎麼破?讓Agent像生物一樣主動「忘記」
- 最佳化即是幾何,幾何即是推理:用數學終結Transformer的黑盒時代
- NVIDIA開源神作:8B小模型吊打GPT5,成本僅30%,速度快2.5倍!NVIDIA研究總監:為Agent去優化單個LLM簡直是個錯誤!讓小模型管大模型更香
- LAMER:元強化學習讓語言Agent學會主動探索
- 論文淺嘗 | 利用條件陳述激發並提升大型語言模型的因果推理能力(CL2025)
- 成本不到8千美元!新浪微博1.5B小模型超越近萬億參數模型
- 強化學習(RL)記憶更牢固,監督微調(SFT)更容易遺忘?普林斯頓陳丹琦團隊改寫後訓練認知
- 讓LLM像公司一樣幹活:微軟把「思維併發」做成了協議,準確率更高、關鍵路徑時延降28%
- AI教母李飛飛萬字長文引爆矽谷!大型語言模型路線錯了,空間智慧才是走向AGI的唯一路徑