最新の記事
すべての記事

日本語

カテゴリー：強化学習

LLM RL 訓練軌跡は線形だった？Miaow Lab 最新研究：追加訓練不要で、直接「予測」する未来モデル！
On-Policy Distillation とは何か？On-Policy/Self-Distillation の深層解説
Qwen3.5：ネイティブマルチモーダルエージェントへの道
苦い教訓！ROLLチームが共有：Agentic RLトレーニングにおける実践経験
小米がJudgeRLVRを発表：先に判断してから生成——推論モデルの「長い思考チェーン」の効率パラドックスを打破
強化学習は最適ではない、CMUが最大尤度強化学習を提案
PPOは死んだ？DeepSeekが使用する強化学習の基盤には重大な欠陥がある！
OpenAI元研究員：モデルが自ら困難を突破できてこそAGI、最大の問題は汎化。「初級エンジニアの管理」が最重要スキル、ロボティクスの「ChatGPTの瞬間」まで2〜3年
自己進化エージェントの新たなブレークスルー！MetaがDr. Zeroを発表：自発的に複雑な推論と検索能力を獲得
DeepMind世界モデル研究者：Transformerアーキテクチャは重要ではない、AGIのボトルネックは別にある
事前学習データが低品質な場合どうすればいい？Bengioチーム、明示的ベイズを導入し勾配なしでIn-Context RLを実現
NVIDIAが8B小規模モデルを公開：GPT-5を上回り、コストは30%、速度は2.5倍！NVIDIA研究ディレクター「Agentのための単一LLMの最適化は完全に間違っている。小規模モデルが大規模モデルを管理する方が効果的」
AIに自ら敵を倒させて成長させる。MetaがSelf-play RLを用いてコーディングを超知能へと導く
LAMER：メタ強化学習が言語エージェントに能動的な探索を学ばせる
RLVR強化学習の学習コストが98%急減！12種のPEFT手法を大比較、結果は意外だった...
衝撃！DeepSeekが正式に2つのモデルをリリース
米空軍、高度な兵棋演習にAIを統合
え？RLVRは新しい知識を学んでいるのではなく、知識をどのように使って推論するかを学んでいる！
NVIDIA、10億ドルをこのAIコーディングスタートアップに投入予定！Copilot技術の重鎮が率い、設立2年で評価額約1兆円
RLはより記憶を保持、SFTは忘れやすい？プリンストン陳丹琦チームが後訓練の認知を書き換え
小紅書がDeepEyesV2を提案、「画像思考」から「ツール協同」へ、多モーダル知能の新次元を探求
マイクロソフトがGADフレームワークを提案：オープンソースモデルもブラックボックスGPT-5を直接蒸留可能
強化学習＋大規模モデルの記憶：Mem-α、エージェントが「記憶する方法」を初めて学ぶ
上海交通大学博士の最新考察：2つの質問だけで強化学習を明確にする
Metaの最新エージェント学習論文2編が興味深い！

←
1
2
3
4
5
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.