最新文章
所有文章

繁體中文

分類：強化學習

KARL：基於強化學習的知識代理
OpenClaw-RL：讓 AI 智慧代理在對話中自我進化
4B 模型幻覺抑制能力超越 GPT-5，CMU 等提出行為校準強化學習新方法
LLM RL 訓練軌跡竟然是線性的？Miaow Lab 最新工作：無需繼續訓練，直接「預測」未來模型！
苦澀的教訓！ROLL團隊分享：Agentic RL 訓練中的實務經驗
小米推出 JudgeRLVR：先判斷後生成——打破推理模型「長思維鏈」的效率悖論
強化學習遠非最優，CMU 剛剛提出最大似然強化學習
PPO已死？DeepSeek都在用的強化學習基石竟有重大缺陷！
OpenAI前研究員：模型能自行突破困難才叫AGI，最大問題是泛化；最重要技能是「管理初級工程師」，機器人出現「ChatGPT時刻」只需兩到三年
自進化Agent新突破！Meta推出Dr.Zero：自發湧現複雜推理、搜尋能力
預訓練資料太差怎麼辦？Bengio團隊引入顯式貝葉斯，無梯度實現In-Context RL
LAMER：元強化學習讓語言Agent學會主動探索
RLVR強化學習訓練成本暴降98%！12種PEFT方法大PK，結果讓人意外...
重磅！DeepSeek 正式發佈 2 個模型
美空軍在高階兵棋推演中整合人工智慧
什麼？RLVR 竟然不是在學習新知識？而是在學習如何使用知識進行推理！
強化學習（RL）記憶更牢固，監督微調（SFT）更容易遺忘？普林斯頓陳丹琦團隊改寫後訓練認知
小紅書提出DeepEyesV2，從「看圖思考」到「工具協同」，探索多模態智能新維度
微軟提出GAD框架：開源模型也能直接蒸餾黑盒GPT-5
強化學習+大模型記憶：Mem-α，讓智能體第一次學會「如何記憶」
上海交大博士最新思辨：僅用兩個問題闡明強化學習
Meta 這兩篇最新的智能體學習 (Agent Learning) 論文，有些意思！
錯越多學越快！「軌跡重寫」技術讓 AI 智能體從失敗中創造完美經驗！
捨棄人工標註！華人團隊提出多模態大模型自我演化演算法
首個多輪LLM路由器問世：Router-R1讓大型模型學會「思考–路由–聚合」

←
1
2
3
4
5
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.