カテゴリー: 強化学習
- RLスケーリングの切り札!DeepSWEオープンソースAIエージェントが首位獲得、学習方法と重みを全面公開
- 清華大学の研究:まさかの逆転か?RLが基盤モデルの推論能力を真に向上させていないことを確認!
- 清華大学などがAbsolute Zero自己対戦型大規模モデルを提案、データなし学習で多数のタスクで最高性能を達成
- AGI理論比較:積極的推論、強化学習、制御理論、ベイズ脳、効用意思決定、限定合理性、感情的動機、動的恒常性
- LLMは自己重み更新が可能に、自己適応と知識統合能力が大幅向上、AIは目覚めたか?
- NVIDIA(ProRL)|RLはLLMの推論上限を本当に引き上げられるのか?
- LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか?
- SROアーキテクチャがQwen-2.5-VLの推論能力を強化し、性能を16.8%向上
- 大規模モデル強化学習の新たなブレイクスルー — SPO新パラダイムが大モデルの推論能力向上を支援!
- SFT+RL二段階学習でLLMの自己教師あり学習を突破!人民大学DeepCriticがAI批評の自律進化を実現
- R1型訓練はもはや結果の正誤だけでなく!香港中文大学がSophiaVL-R1モデルを発表
- 初のマルチモーダル専用スローシンキングフレームワーク!GPT-o1を7ポイント近く上回り、強化学習がVLMに「熟考」を促す
- 10行のコードでAIME24/25が15%向上!大規模モデル強化学習におけるエントロピーメカニズムの解明
- プロセス監視>結果監視!華為港城がRAG推論トレーニングを再構築、5kサンプルで90kモデルの性能を凌駕
- RL推論の進捗整理
- AIが「自信」のみで推論を学習、浙江大学出身者がDeepSeekの長思考連鎖の出現を再現、強化学習は外部報酬信号を必要としない
- LSTMの父が22年前に構想したアイデアは実現するのか?AI「自己進化」に関する論文が1週間で集中公開、新たなトレンドが台頭?
- AIの数学能力が100%急増、自己進化が強化学習の限界に迫る!CMUの新作が認識を覆す
- LLMがどのように推論し自己反省するかを初解説!ノースウェスタン大学とGoogleの新フレームワーク:ベイズ適応型強化学習を導入し、数学的推論能力を大幅に向上
- LLMとRLの組み合わせに疑問符:意図的な誤った報酬でも数学ベンチマークが大幅向上、AI界に衝撃
- まとめ!2025年の大規模言語モデルエージェント強化学習におけるマルチターン計画技術
- Qwenチームが長文コンテキスト推論モデルQwenLong-L1を発表、o3-miniを凌駕
- GRPO=高度な拒否サンプリング?強化学習の解明の時:負のサンプル「選択と集中」が鍵!
- 画像だけで思考可能、強化学習が推論モデルの新パラダイムを創出!複雑なシーンの計画能力を最大化
- Claude 4はどのように考えるのか?シニア研究者が回答:RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み