分類: 強化學習
- 讓思考更精準更長!強化學習新演算法 FIPO 登場
- 合成資料比真實數據更有效?Meta 論文揭示強化學習訓練大模型的突破路徑
- 500 筆種子數據、四個 Agent 自我進化,推理能力提升 10.7%
- SortedRL:大模型 RL 訓練速度提升 50%,訓練效率躍升 18%
- 林俊旸離職後首次發聲!覆盤千問的彎路,指出AI的新路
- 讓 AI 自己「煉數據」!DataChef 開源:用強化學習自動生成 LLM 數據配方
- NVIDIA Nemotron-Cascade 2 技術報告:3B 激活參數奪下 IMO 金牌,重新定義小模型極限
- ICLR 2026 | 大型語言模型的非監督式強化學習能走多遠?清華大學研究團隊提出系統性解答
- 別再迷信結果獎勵了!港中文發現並解決 RL 中的「資訊自鎖」難題!
- KARL:基於強化學習的知識代理
- OpenClaw-RL:讓 AI 智慧代理在對話中自我進化
- 4B 模型幻覺抑制能力超越 GPT-5,CMU 等提出行為校準強化學習新方法
- LLM RL 訓練軌跡竟然是線性的?Miaow Lab 最新工作:無需繼續訓練,直接「預測」未來模型!
- 苦澀的教訓!ROLL團隊分享:Agentic RL 訓練中的實務經驗
- 小米推出 JudgeRLVR:先判斷後生成——打破推理模型「長思維鏈」的效率悖論
- 強化學習遠非最優,CMU 剛剛提出最大似然強化學習
- PPO已死?DeepSeek都在用的強化學習基石竟有重大缺陷!
- OpenAI前研究員:模型能自行突破困難才叫AGI,最大問題是泛化;最重要技能是「管理初級工程師」,機器人出現「ChatGPT時刻」只需兩到三年
- 自進化Agent新突破!Meta推出Dr.Zero:自發湧現複雜推理、搜尋能力
- 預訓練資料太差怎麼辦?Bengio團隊引入顯式貝葉斯,無梯度實現In-Context RL
- LAMER:元強化學習讓語言Agent學會主動探索
- RLVR強化學習訓練成本暴降98%!12種PEFT方法大PK,結果讓人意外...
- 重磅!DeepSeek 正式發佈 2 個模型
- 美空軍在高階兵棋推演中整合人工智慧
- 什麼?RLVR 竟然不是在學習新知識?而是在學習如何使用知識進行推理!