最新の記事
すべての記事

日本語

カテゴリー：強化学習

SFT+RL二段階学習でLLMの自己教師あり学習を突破！人民大学DeepCriticがAI批評の自律進化を実現
R1型訓練はもはや結果の正誤だけでなく！香港中文大学がSophiaVL-R1モデルを発表
初のマルチモーダル専用スローシンキングフレームワーク！GPT-o1を7ポイント近く上回り、強化学習がVLMに「熟考」を促す
10行のコードでAIME24/25が15%向上！大規模モデル強化学習におけるエントロピーメカニズムの解明
プロセス監視＞結果監視！華為港城がRAG推論トレーニングを再構築、5kサンプルで90kモデルの性能を凌駕
RL推論の進捗整理
AIが「自信」のみで推論を学習、浙江大学出身者がDeepSeekの長思考連鎖の出現を再現、強化学習は外部報酬信号を必要としない
LSTMの父が22年前に構想したアイデアは実現するのか？AI「自己進化」に関する論文が1週間で集中公開、新たなトレンドが台頭？
AIの数学能力が100%急増、自己進化が強化学習の限界に迫る！CMUの新作が認識を覆す
LLMがどのように推論し自己反省するかを初解説！ノースウェスタン大学とGoogleの新フレームワーク：ベイズ適応型強化学習を導入し、数学的推論能力を大幅に向上
LLMとRLの組み合わせに疑問符：意図的な誤った報酬でも数学ベンチマークが大幅向上、AI界に衝撃
まとめ！2025年の大規模言語モデルエージェント強化学習におけるマルチターン計画技術
Qwenチームが長文コンテキスト推論モデルQwenLong-L1を発表、o3-miniを凌駕
GRPO=高度な拒否サンプリング？強化学習の解明の時：負のサンプル「選択と集中」が鍵！
画像だけで思考可能、強化学習が推論モデルの新パラダイムを創出！複雑なシーンの計画能力を最大化
Claude 4はどのように考えるのか？シニア研究者が回答：RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み
大規模モデルが初めて囲碁AIの「ブラックボックス」を破り、科学的発見の新たな道を開く！上海AI Labが新世代InternThinkerを発表
ZeroSearch：「Alibaba Technology」ブラウザ不要、大規模言語モデルが自己報酬学習
世界中のアイドル計算能力でモデルを学習、性能はR1に匹敵、ジェンセン・ファンの空が崩壊！Karpathyもかつて投資
NVIDIAがAIをより賢くツール利用可能に：Nemotron-Research-Tool-N1モデルの詳細解析
ZeroSearch：ゼロ検索でLLMの潜在能力を促進、LLM検索能力の新時代を切り拓く
たった1つのデータで、大規模言語モデルの数学的推論能力を大幅に向上させられるのか？
スタンフォードの以弱馭強W4S：Meta-Agentでより強力なLLMを操縦、精度が95.4%に向上 | 最新
「経験の時代」は自己学習AIエージェントをウェブ全体に解き放つ — 準備方法はこちら
強化学習アルゴリズムの整理：PPOからGRPO、そしてDAPOへ

←
1
2
3
4
5
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.