カテゴリー: 大規模言語モデル
- MicrosoftがGRPO-RoCを提案:エージェント型強化学習の鍵は軌跡品質フィルタリング
- ByteDance、LLM強化学習における「エントロピー」の呪いを打破し、モデルの確実な成長を可能に!
- 考えれば考えるほど間違える:CoTの「深く熟考する」ことがLLMの幻覚を促進する触媒に!
- ファインチューニングなしでLLM推論精度が99%に爆増!軽量推論フレームワーク「DeepConf」を試す|Meta最新
- スタンフォードが新たな強化学習パラダイムを提案:3BモデルエージェントがClaude、GPT-4を凌駕
- なぜ大規模言語モデルはハルシネーションを起こすのか?OpenAIの最新研究がついに解明
- スタンフォード大学の最新研究:最強LLMでさえ最先端コードに苦戦!Gemini 2.5 Proの成功率は40%未満
- MicrosoftがrStar2-Agentを発表:「より賢く考える」ことは、単に「より長く考える」よりもはるかに効果的で効率的である
- 【巨匠の考察】マーティン・ファウラーのAIに関する考察:我々は「問題」さえも不明瞭な時代にいる
- Metaが「Deep Think with Confidence」を発表:ほぼ何も変更せずに推論の精度と効率を向上
- MCPツールスタッキングは大きな落とし穴!開発者の大物が語る:コマンドラインの「脆さ」がAIを壊滅させた!コード実行環境に一本化すべき:7回の呼び出しが1回に!ネットユーザー:ブラックボックスツールはとっくに捨てるべきだった!
- 数学ランキングを席巻するLLM、会話の仕方を忘れる?CMUらがSFTとRLの驚くべき違いを明らかに!
- 報酬モデルの新たな革命!SWIFTはテキストではなく「心の声」を読み取り、高速かつ強力で経済的なAI評価者を生み出す
- 思考の連鎖(CoT)推論の「蜃気楼」:大規模言語モデルの汎化能力に関する詳細な考察
- GPT-5 vs Claude Opus 4.1: コーディング能力評価
- ハードコア分析大規模言語モデル:DeepSeek-V3からKimiK2まで、主流LLMアーキテクチャを一本で理解する
- ARPO:エージェント型強化学習方策最適化、エージェントが重要な瞬間にさらに一歩探索することを可能に
- 史上最大規模の高品質科学推論後学習データセットがオープンソース化、Qwen3などを素早く「科学者」に
- 王夢迪チームによる「自己進化エージェント」の総説:静的LLMから汎用人工超知能(ASI)へ
- 大規模モデルの「闇落ち」スイッチ!Anthropicチームの新作:大規模モデルの人格変数がついに人類に発見される!ペルソナドリフトツールチェーンを提案し、モデルを狂わせるブラックボックスを最終的に解明
- Attentionが集中しない?中国人民大学と清華大学が「LeaF」を共同提案:妨害トークンを剪定し、モデルの能動的な焦点化を促す
- モデルは本当に「コードの自己修正」ができるのか?北航がリポジトリレベルの理解生成ベンチマークを発表し、LLM理解評価パラダイムを刷新
- ReaGAN:グラフ内の各ノードをインテリジェントな推論エキスパートにする
- Googleが挑戦状、DeepSeek、Kimiも参戦:初のAI大規模モデル対抗戦が明日開幕
- RAG革命!Graph-R1、初のRL駆動グラフ推論エージェント