最新文章
所有文章

繁體中文

分類：強化學習

讓思考更精準更長！強化學習新演算法 FIPO 登場
合成資料比真實數據更有效？Meta 論文揭示強化學習訓練大模型的突破路徑
500 筆種子數據、四個 Agent 自我進化，推理能力提升 10.7%
SortedRL：大模型 RL 訓練速度提升 50%，訓練效率躍升 18%
林俊旸離職後首次發聲！覆盤千問的彎路，指出AI的新路
讓 AI 自己「煉數據」！DataChef 開源：用強化學習自動生成 LLM 數據配方
NVIDIA Nemotron-Cascade 2 技術報告：3B 激活參數奪下 IMO 金牌，重新定義小模型極限
ICLR 2026 | 大型語言模型的非監督式強化學習能走多遠？清華大學研究團隊提出系統性解答
別再迷信結果獎勵了！港中文發現並解決 RL 中的「資訊自鎖」難題！
KARL：基於強化學習的知識代理
OpenClaw-RL：讓 AI 智慧代理在對話中自我進化
4B 模型幻覺抑制能力超越 GPT-5，CMU 等提出行為校準強化學習新方法
LLM RL 訓練軌跡竟然是線性的？Miaow Lab 最新工作：無需繼續訓練，直接「預測」未來模型！
苦澀的教訓！ROLL團隊分享：Agentic RL 訓練中的實務經驗
小米推出 JudgeRLVR：先判斷後生成——打破推理模型「長思維鏈」的效率悖論
強化學習遠非最優，CMU 剛剛提出最大似然強化學習
PPO已死？DeepSeek都在用的強化學習基石竟有重大缺陷！
OpenAI前研究員：模型能自行突破困難才叫AGI，最大問題是泛化；最重要技能是「管理初級工程師」，機器人出現「ChatGPT時刻」只需兩到三年
自進化Agent新突破！Meta推出Dr.Zero：自發湧現複雜推理、搜尋能力
預訓練資料太差怎麼辦？Bengio團隊引入顯式貝葉斯，無梯度實現In-Context RL
LAMER：元強化學習讓語言Agent學會主動探索
RLVR強化學習訓練成本暴降98%！12種PEFT方法大PK，結果讓人意外...
重磅！DeepSeek 正式發佈 2 個模型
美空軍在高階兵棋推演中整合人工智慧
什麼？RLVR 竟然不是在學習新知識？而是在學習如何使用知識進行推理！

←
1
2
3
4
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.