最新の記事
すべての記事

日本語

カテゴリー：強化学習

失敗するほど学習が速くなる！軌跡リライティング技術により、エージェントは失敗から完璧な経験を創造する！
初のマルチラウンドLLMルーター「Router-R1」が登場、大規模モデルに「思考–ルーティング–集約」を学習させる
プリンストン大学陳丹琦グループの新作：RLHFでは不十分、RLVRには限界？RLMTが第三の道を切り開く
MicrosoftがGRPO-RoCを提案：エージェント型強化学習の鍵は軌跡品質フィルタリング
ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に！
スタンフォードが新たな強化学習パラダイムを提案：3BモデルエージェントがClaude、GPT-4を凌駕
MicrosoftがrStar2-Agentを発表：「より賢く考える」ことは、単に「より長く考える」よりもはるかに効果的で効率的である
数学ランキングを席巻するLLM、会話の仕方を忘れる？CMUらがSFTとRLの驚くべき違いを明らかに！
強化学習フレームワークの進化と開発トレンド
ARPO：エージェント型強化学習方策最適化、エージェントが重要な瞬間にさらに一歩探索することを可能に
RAG革命！Graph-R1、初のRL駆動グラフ推論エージェント
Qwen3が廃止した混合推論モードを振り返る
言語モデルはなぜ解答と確信度を直接出力できないのか？
DeepSeek-GRPOの重要度重み設計の欠陥？Qwen3の新しい強化学習アルゴリズムGSPOを解説
RLの直感に反する研究：LLMに直接解答を与える方が、詳細な手順を示すよりも効果的！
アリババが深夜に「切り札」エージェントをオープンソース化！OpenAIに真っ向勝負、性能は全面的にSOTAを達成！
RLスケーリングの切り札！DeepSWEオープンソースAIエージェントが首位獲得、学習方法と重みを全面公開
清華大学の研究：まさかの逆転か？RLが基盤モデルの推論能力を真に向上させていないことを確認！
清華大学などがAbsolute Zero自己対戦型大規模モデルを提案、データなし学習で多数のタスクで最高性能を達成
AGI理論比較：積極的推論、強化学習、制御理論、ベイズ脳、効用意思決定、限定合理性、感情的動機、動的恒常性
LLMは自己重み更新が可能に、自己適応と知識統合能力が大幅向上、AIは目覚めたか？
NVIDIA（ProRL）｜RLはLLMの推論上限を本当に引き上げられるのか？
LLMは既に自己重み更新が可能に、適応能力と知識統合能力が大幅向上、AIは目覚めたか？
SROアーキテクチャがQwen-2.5-VLの推論能力を強化し、性能を16.8%向上
大規模モデル強化学習の新たなブレイクスルー — SPO新パラダイムが大モデルの推論能力向上を支援！

←
1
2
3
4
5
→

AINews·AI 新聞聚合平台

© 2026 AINews. All rights reserved.