カテゴリー: 強化学習
- MicrosoftがGRPO-RoCを提案:エージェント型強化学習の鍵は軌跡品質フィルタリング
- ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に!
- スタンフォードが新たな強化学習パラダイムを提案:3BモデルエージェントがClaude、GPT-4を凌駕
- MicrosoftがrStar2-Agentを発表:「より賢く考える」ことは、単に「より長く考える」よりもはるかに効果的で効率的である
- 数学ランキングを席巻するLLM、会話の仕方を忘れる?CMUらがSFTとRLの驚くべき違いを明らかに!
- 強化学習フレームワークの進化と開発トレンド
- ARPO:エージェント型強化学習方策最適化、エージェントが重要な瞬間にさらに一歩探索することを可能に
- RAG革命!Graph-R1、初のRL駆動グラフ推論エージェント
- Qwen3が廃止した混合推論モードを振り返る
- 言語モデルはなぜ解答と確信度を直接出力できないのか?
- DeepSeek-GRPOの重要度重み設計の欠陥?Qwen3の新しい強化学習アルゴリズムGSPOを解説
- RLの直感に反する研究:LLMに直接解答を与える方が、詳細な手順を示すよりも効果的!
- アリババが深夜に「切り札」エージェントをオープンソース化!OpenAIに真っ向勝負、性能は全面的にSOTAを達成!
- RLスケーリングの切り札!DeepSWEオープンソースAIエージェントが首位獲得、学習方法と重みを全面公開
- 清華大学の研究:まさかの逆転か?RLが基盤モデルの推論能力を真に向上させていないことを確認!
- 清華大学などがAbsolute Zero自己対戦型大規模モデルを提案、データなし学習で多数のタスクで最高性能を達成
- AGI理論比較:積極的推論、強化学習、制御理論、ベイズ脳、効用意思決定、限定合理性、感情的動機、動的恒常性
- LLMは自己重み更新が可能に、自己適応と知識統合能力が大幅向上、AIは目覚めたか?
- NVIDIA(ProRL)|RLはLLMの推論上限を本当に引き上げられるのか?
- LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか?
- SROアーキテクチャがQwen-2.5-VLの推論能力を強化し、性能を16.8%向上
- 大規模モデル強化学習の新たなブレイクスルー — SPO新パラダイムが大モデルの推論能力向上を支援!
- SFT+RL二段階学習でLLMの自己教師あり学習を突破!人民大学DeepCriticがAI批評の自律進化を実現
- R1型訓練はもはや結果の正誤だけでなく!香港中文大学がSophiaVL-R1モデルを発表
- 初のマルチモーダル専用スローシンキングフレームワーク!GPT-o1を7ポイント近く上回り、強化学習がVLMに「熟考」を促す