カテゴリー: 強化学習
- 合成データは実データよりも優れているのか?
- SortedRL:大規模言語モデルの RL 訓練を 50% 高速化、効率を 18% 向上
- 林俊旸、退任後初の発声!Qwenの遠回りを振り返り、AIの新たな道を示す
- ICLR 2026 | 大規模モデルの教師なし強化学習はどこまで行けるか?清華大学チームが体系的な答えを示す
- もう結果報酬を盲信するな!香港中文大が RL の「情報自己拘束」問題を発見・解決
- KARL:強化学習に基づくナレッジエージェント
- OpenClaw-RL:会話の中でAIエージェントを自律的に進化させる
- 4B モデルの幻覚抑制能力が GPT-5 を凌駕、CMU 等が行動較正強化学習の新しい手法を提案
- Anthropic CEO:大規模モデルのデータボトルネックはもはや存在せず、モデルが自ら学習している
- LLM RL 訓練軌跡は線形だった?Miaow Lab 最新研究:追加訓練不要で、直接「予測」する未来モデル!
- On-Policy Distillation とは何か?On-Policy/Self-Distillation の深層解説
- Qwen3.5:ネイティブマルチモーダルエージェントへの道
- 苦い教訓!ROLLチームが共有:Agentic RLトレーニングにおける実践経験
- 小米がJudgeRLVRを発表:先に判断してから生成——推論モデルの「長い思考チェーン」の効率パラドックスを打破
- 強化学習は最適ではない、CMUが最大尤度強化学習を提案
- PPOは死んだ?DeepSeekが使用する強化学習の基盤には重大な欠陥がある!
- OpenAI元研究員:モデルが自ら困難を突破できてこそAGI、最大の問題は汎化。「初級エンジニアの管理」が最重要スキル、ロボティクスの「ChatGPTの瞬間」まで2〜3年
- 自己進化エージェントの新たなブレークスルー!MetaがDr. Zeroを発表:自発的に複雑な推論と検索能力を獲得
- DeepMind世界モデル研究者:Transformerアーキテクチャは重要ではない、AGIのボトルネックは別にある
- 事前学習データが低品質な場合どうすればいい?Bengioチーム、明示的ベイズを導入し勾配なしでIn-Context RLを実現
- NVIDIAが8B小規模モデルを公開:GPT-5を上回り、コストは30%、速度は2.5倍!NVIDIA研究ディレクター「Agentのための単一LLMの最適化は完全に間違っている。小規模モデルが大規模モデルを管理する方が効果的」
- AIに自ら敵を倒させて成長させる。MetaがSelf-play RLを用いてコーディングを超知能へと導く
- LAMER:メタ強化学習が言語エージェントに能動的な探索を学ばせる
- RLVR強化学習の学習コストが98%急減!12種のPEFT手法を大比較、結果は意外だった...
- 衝撃!DeepSeekが正式に2つのモデルをリリース