カテゴリー: 強化学習
- 10行のコードでAIME24/25が15%向上!大規模モデル強化学習におけるエントロピーメカニズムの解明
- プロセス監視>結果監視!華為港城がRAG推論トレーニングを再構築、5kサンプルで90kモデルの性能を凌駕
- RL推論の進捗整理
- AIが「自信」のみで推論を学習、浙江大学出身者がDeepSeekの長思考連鎖の出現を再現、強化学習は外部報酬信号を必要としない
- LSTMの父が22年前に構想したアイデアは実現するのか?AI「自己進化」に関する論文が1週間で集中公開、新たなトレンドが台頭?
- AIの数学能力が100%急増、自己進化が強化学習の限界に迫る!CMUの新作が認識を覆す
- LLMがどのように推論し自己反省するかを初解説!ノースウェスタン大学とGoogleの新フレームワーク:ベイズ適応型強化学習を導入し、数学的推論能力を大幅に向上
- LLMとRLの組み合わせに疑問符:意図的な誤った報酬でも数学ベンチマークが大幅向上、AI界に衝撃
- まとめ!2025年の大規模言語モデルエージェント強化学習におけるマルチターン計画技術
- Qwenチームが長文コンテキスト推論モデルQwenLong-L1を発表、o3-miniを凌駕
- GRPO=高度な拒否サンプリング?強化学習の解明の時:負のサンプル「選択と集中」が鍵!
- 画像だけで思考可能、強化学習が推論モデルの新パラダイムを創出!複雑なシーンの計画能力を最大化
- Claude 4はどのように考えるのか?シニア研究者が回答:RLHFパラダイムは過去のもの、RLVRはプログラミング/数学で実証済み
- 大規模モデルが初めて囲碁AIの「ブラックボックス」を破り、科学的発見の新たな道を開く!上海AI Labが新世代InternThinkerを発表
- ZeroSearch:「Alibaba Technology」ブラウザ不要、大規模言語モデルが自己報酬学習
- 世界中のアイドル計算能力でモデルを学習、性能はR1に匹敵、ジェンセン・ファンの空が崩壊!Karpathyもかつて投資
- NVIDIAがAIをより賢くツール利用可能に:Nemotron-Research-Tool-N1モデルの詳細解析
- ZeroSearch:ゼロ検索でLLMの潜在能力を促進、LLM検索能力の新時代を切り拓く
- たった1つのデータで、大規模言語モデルの数学的推論能力を大幅に向上させられるのか?
- スタンフォードの以弱馭強W4S:Meta-Agentでより強力なLLMを操縦、精度が95.4%に向上 | 最新
- 「経験の時代」は自己学習AIエージェントをウェブ全体に解き放つ — 準備方法はこちら
- 強化学習アルゴリズムの整理:PPOからGRPO、そしてDAPOへ
- ルールベース強化学習ファインチューニングにおける明示的思考の研究
- NVIDIA Llama Nemotronシリーズ:主要技術解説
- LLMエージェントのパフォーマンスが低い理由:Google DeepMindの研究が3つの失敗モードを明らかに、RLファインチューニングで緩和可能