カテゴリー: 大規模言語モデル
- NVIDIAとSakana AIが共同開発した「スパースLLM」の核心技術を徹底解説
- SortedRL:大規模言語モデルの RL 訓練を 50% 高速化、効率を 18% 向上
- 推論はもはや logits の「運搬作業」ではない:FlashSampling でデコード速度が最大 19% 向上
- LLMはコンピューターになれるか? | Percepta
- 大規模言語モデルに「継続的に新知識を注入」する北航 CASE フレームワーク:1000 回の編集で記憶喪失を起こさず、追加パラメータは 1MB 未満丨 WWW'26
- AI にデータ「錬成」を任せる!DataChef がオープンソースに:強化学習で LLM 用データレシピを自動生成
- TurboQuant:極限の圧縮技術でAIの効率性を再定義
- 長尺動画の推論が失敗する理由:Symphonyが示す「認知的分業」という答え
- NVIDIA Nemotron-Cascade 2 技術レポート:3B の活性化パラメータで IMO 金メダル級の性能を達成
- ICLR 2026 | 大規模モデルの教師なし強化学習はどこまで行けるか?清華大学チームが体系的な答えを示す
- もう結果報酬を盲信するな!香港中文大が RL の「情報自己拘束」問題を発見・解決
- 最強のマルチモーダル大規模言語モデルが実世界のウェブ検索で人間に完敗?GPT-5.2 の勝率はわずか 36%、北京大学と華為などが共同で新しい深層検索ベンチマーク「BrowseComp-V3」をオープンソース化
- 4B モデルの幻覚抑制能力が GPT-5 を凌駕、CMU 等が行動較正強化学習の新しい手法を提案
- 30Bモデルで研究、GPT-5.4を超え、性能が1.7%から33.3%へ向上
- 黄仁勳がOpenClaw戦場に参入!最強のオープンソース「ロブスター」モデルがOpus 4.6に迫る
- 神業!MIT と Google が厳密なベイズ推論を実行可能な LLM を訓練
- AI はどれだけの人の職を奪ったのか?どの仕事が本当にAIに代替されたのか?Anthropicが実データで謎を解明
- モデルの静的重みを打破!騰訊混元が推論時にリアルタイムで脳を交換する技術を発表
- 大規模言語モデルはなぜ世界を「理解」できるのか?
- Googleの新しい研究、大規模モデルが反復推敲する重要なトークンを発見!
- Anthropic最新論文:AI時代におけるインターネット匿名の終焉|Hao好聊論文
- 最近、Google がマルチエージェントに関する 2 本の優れた論文を発表
- 独占!DeepSeek が清華大学・北京大学と共同で「DualPath」システムを発表、AI 推論 Infra のスループットを平均 196% 向上
- すべてのトークンが平等ではない!Google が真の「深い思考」を提案:思考連鎖の長さ=深い推論ではない
- Qwen3.5-Flash登場!3つの中規模モデルをオープンソース化