カテゴリー: 強化学習
- 苦い教訓!ROLLチームが共有:Agentic RLトレーニングにおける実践経験
- 小米がJudgeRLVRを発表:先に判断してから生成——推論モデルの「長い思考チェーン」の効率パラドックスを打破
- 強化学習は最適ではない、CMUが最大尤度強化学習を提案
- PPOは死んだ?DeepSeekが使用する強化学習の基盤には重大な欠陥がある!
- OpenAI元研究員:モデルが自ら困難を突破できてこそAGI、最大の問題は汎化。「初級エンジニアの管理」が最重要スキル、ロボティクスの「ChatGPTの瞬間」まで2〜3年
- 自己進化エージェントの新たなブレークスルー!MetaがDr. Zeroを発表:自発的に複雑な推論と検索能力を獲得
- DeepMind世界モデル研究者:Transformerアーキテクチャは重要ではない、AGIのボトルネックは別にある
- 事前学習データが低品質な場合どうすればいい?Bengioチーム、明示的ベイズを導入し勾配なしでIn-Context RLを実現
- NVIDIAが8B小規模モデルを公開:GPT-5を上回り、コストは30%、速度は2.5倍!NVIDIA研究ディレクター「Agentのための単一LLMの最適化は完全に間違っている。小規模モデルが大規模モデルを管理する方が効果的」
- AIに自ら敵を倒させて成長させる。MetaがSelf-play RLを用いてコーディングを超知能へと導く
- LAMER:メタ強化学習が言語エージェントに能動的な探索を学ばせる
- RLVR強化学習の学習コストが98%急減!12種のPEFT手法を大比較、結果は意外だった...
- 衝撃!DeepSeekが正式に2つのモデルをリリース
- 米空軍、高度な兵棋演習にAIを統合
- え?RLVRは新しい知識を学んでいるのではなく、知識をどのように使って推論するかを学んでいる!
- NVIDIA、10億ドルをこのAIコーディングスタートアップに投入予定!Copilot技術の重鎮が率い、設立2年で評価額約1兆円
- RLはより記憶を保持、SFTは忘れやすい?プリンストン陳丹琦チームが後訓練の認知を書き換え
- 小紅書がDeepEyesV2を提案、「画像思考」から「ツール協同」へ、多モーダル知能の新次元を探求
- マイクロソフトがGADフレームワークを提案:オープンソースモデルもブラックボックスGPT-5を直接蒸留可能
- 強化学習+大規模モデルの記憶:Mem-α、エージェントが「記憶する方法」を初めて学ぶ
- 上海交通大学博士の最新考察:2つの質問だけで強化学習を明確にする
- Metaの最新エージェント学習論文2編が興味深い!
- 失敗するほど学習が速くなる!軌跡リライティング技術により、エージェントは失敗から完璧な経験を創造する!
- 初のマルチラウンドLLMルーター「Router-R1」が登場、大規模モデルに「思考–ルーティング–集約」を学習させる
- プリンストン大学陳丹琦グループの新作:RLHFでは不十分、RLVRには限界?RLMTが第三の道を切り開く