分類: 強化學習
- 對喔!為什麼語言模型不能直接輸出答案與其置信度呢?
- DeepSeek-GRPO重要性權重設計錯誤?詳解Qwen3新強化學習演算法GSPO
- 阿里巴巴深夜開源「王牌」Agent!硬槓OpenAI,性能全面超越SOTA!
- 強化學習(RL)規模化王牌!DeepSWE 開源 AI 代理登上榜首,訓練方法與權重全面公開
- 清華大學研究:再次翻轉?證實強化學習並未真正提升基礎模型推論能力!
- 清華等提出 Absolute Zero 自博弈大型模型,完全零資料訓練仍登頂多項任務
- AGI理論比較:主動推論、強化學習、控制論、貝氏腦、效用決策、有限理性、情感動機、動態體內平衡
- 大型語言模型(LLM)已能自我更新權重,自適應、知識整合能力大幅提升,AI 醒了?
- NVIDIA(ProRL)|強化學習究竟能否提升大型語言模型的推理上限?
- LLM 已能自我更新權重,自適應、知識整合能力大幅提升,AI 覺醒了?
- SRO 架構賦予 Qwen-2.5-VL 推理能力,效能飆升 16.8%
- 大模型強化學習新突破——SPO新範式助力大模型推論能力提升!
- SFT+RL雙階段訓練突破大型語言模型自我監督!人大DeepCritic實現AI批判自主進化
- 類R1訓練不再只看結果對錯!港中文推出SophiaVL-R1模型
- 首個多模態專用慢思維框架!超越GPT-o1近7個百分點,強化學習教VLM「三思而後行」
- 10行程式碼,AIME24/25提升15%!揭密大型模型強化學習的熵機制
- 過程監督>結果監督!華為港城重構RAG推論訓練,5k樣本效能超越90k模型
- AI僅憑「自信」學會推理,浙大校友復刻DeepSeek長思維鏈湧現,強化學習無需外部獎勵訊號
- 北京大學校友翁荔最新部落格:Why We Think
- LSTM之父22年前構想將成真?AI「自我演化」論文一週內集中發表,新趨勢湧現?
- AI數學能力飆升100%,自進化逼近強化學習極限!CMU新作顛覆認知
- 首次解釋LLM如何推論反思!西北大學、Google新框架:引入貝葉斯自適應強化學習,全面提升數學推論能力
- LLM 結合 RL 遭質疑:刻意使用錯誤獎勵,數學基準竟也顯著提升,AI 圈為之震驚
- 總結!2025年大型語言模型代理強化學習多輪規劃技術
- Qwen團隊發布長上下文推理模型QwenLong-L1,超越o3-mini