カテゴリー: 強化学習
- モデルはズルが大好き!Cursorが初公開するComposer 2の強化学習の内幕:モデルは「偽の環境」を見抜き、浮動小数点演算の不確実性がRL学習の致命的な落とし穴に
- OpenAIのポストトレーニング責任者が語る:AIは突然賢くなったわけではなく、信頼性という「壁」を越えただけ
- エージェント訓練はなぜ長距離タスクで必ず崩壊するのか
- 生成-フィルター-制御-再生:LLM強化学習におけるロールアウト戦略の包括的レビュー
- OpenAI翁家翌:勾配の彼方に、次のAI訓練パラダイムが到来か?
- トークンレベルで生成長を精密制御:3BモデルがGPT-5.4やClaudeを撃破
- Agent-World:実世界環境を拡張し、エージェントと環境の共進化を実現!
- 言葉なき思考:抽象的思考連鎖による効率的な潜在推論
- Z Tech|王子涵氏に聞く:DeepSeek を去り、人生を逆転させる思考とは
- 深層解説!Claude Code モデルの強化学習トレーニングにおける報酬ハッキング
- SWE-Check の発表:バグ検出を 10 倍高速化
- リー・フェイフェイ氏率いるチームが取り組む課題:エントロピーから相互情報量へ、RAGEN-2 が推論の質の基準を再定義し、AI エージェントの「訓練するほど定型化が進む」現象を解消
- 思考をより正確に、より長く!新しい強化学習アルゴリズム「FIPO」が登場
- 合成データは実データよりも優れているのか?
- SortedRL:大規模言語モデルの RL 訓練を 50% 高速化、効率を 18% 向上
- 林俊旸、退任後初の発声!Qwenの遠回りを振り返り、AIの新たな道を示す
- ICLR 2026 | 大規模モデルの教師なし強化学習はどこまで行けるか?清華大学チームが体系的な答えを示す
- もう結果報酬を盲信するな!香港中文大が RL の「情報自己拘束」問題を発見・解決
- KARL:強化学習に基づくナレッジエージェント
- OpenClaw-RL:会話の中でAIエージェントを自律的に進化させる
- 4B モデルの幻覚抑制能力が GPT-5 を凌駕、CMU 等が行動較正強化学習の新しい手法を提案
- Anthropic CEO:大規模モデルのデータボトルネックはもはや存在せず、モデルが自ら学習している
- LLM RL 訓練軌跡は線形だった?Miaow Lab 最新研究:追加訓練不要で、直接「予測」する未来モデル!
- On-Policy Distillation とは何か?On-Policy/Self-Distillation の深層解説
- Qwen3.5:ネイティブマルチモーダルエージェントへの道