最新の記事
すべての記事

日本語

カテゴリー：強化学習

モデルはズルが大好き！Cursorが初公開するComposer 2の強化学習の内幕：モデルは「偽の環境」を見抜き、浮動小数点演算の不確実性がRL学習の致命的な落とし穴に
OpenAIのポストトレーニング責任者が語る：AIは突然賢くなったわけではなく、信頼性という「壁」を越えただけ
エージェント訓練はなぜ長距離タスクで必ず崩壊するのか
生成-フィルター-制御-再生：LLM強化学習におけるロールアウト戦略の包括的レビュー
OpenAI翁家翌：勾配の彼方に、次のAI訓練パラダイムが到来か？
トークンレベルで生成長を精密制御：3BモデルがGPT-5.4やClaudeを撃破
Agent-World：実世界環境を拡張し、エージェントと環境の共進化を実現！
言葉なき思考：抽象的思考連鎖による効率的な潜在推論
Z Tech｜王子涵氏に聞く：DeepSeek を去り、人生を逆転させる思考とは
深層解説！Claude Code モデルの強化学習トレーニングにおける報酬ハッキング
SWE-Check の発表：バグ検出を 10 倍高速化
リー・フェイフェイ氏率いるチームが取り組む課題：エントロピーから相互情報量へ、RAGEN-2 が推論の質の基準を再定義し、AI エージェントの「訓練するほど定型化が進む」現象を解消
思考をより正確に、より長く！新しい強化学習アルゴリズム「FIPO」が登場
合成データは実データよりも優れているのか？
SortedRL：大規模言語モデルの RL 訓練を 50% 高速化、効率を 18% 向上
林俊旸、退任後初の発声！Qwenの遠回りを振り返り、AIの新たな道を示す
ICLR 2026 | 大規模モデルの教師なし強化学習はどこまで行けるか？清華大学チームが体系的な答えを示す
もう結果報酬を盲信するな！香港中文大が RL の「情報自己拘束」問題を発見・解決
KARL：強化学習に基づくナレッジエージェント
OpenClaw-RL：会話の中でAIエージェントを自律的に進化させる
4B モデルの幻覚抑制能力が GPT-5 を凌駕、CMU 等が行動較正強化学習の新しい手法を提案
Anthropic CEO：大規模モデルのデータボトルネックはもはや存在せず、モデルが自ら学習している
LLM RL 訓練軌跡は線形だった？Miaow Lab 最新研究：追加訓練不要で、直接「予測」する未来モデル！
On-Policy Distillation とは何か？On-Policy/Self-Distillation の深層解説
Qwen3.5：ネイティブマルチモーダルエージェントへの道

←
1
2
3
4
5
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.