カテゴリー: 大規模言語モデル
- Claude 4.6は66%?Claw-Eval-Liveが示す「ターミナル操作ができても、部門横断の仕事はできない」AIエージェントの現実
- あなたのエージェントは全く学習していない、ただノートをめくっているだけだ
- ソフトウェア3.0時代の到来
- Qwen-Scope:大規模言語モデルの「本音」を見抜く
- GPTの父がAIを1930年にタイムスリップさせる:コードを一行も見たことがないのにPythonを「発明」!
- Scaling Pain:超大規模コーディングAIエージェント推論の実践
- ChatGPTの数学進化の道!OpenAI研究員が語る:数も数えられなかったChatGPTがエルデシュ問題に新解法を提示するまで。数学はモデル進歩の重要なベンチマーク。AI自動化研究員の展望。
- Skills駆動推論の新パラダイム、清華大&北京大学:トークン59%削減、精度はむしろ向上
- 言葉なき思考:抽象的思考連鎖による効率的な潜在推論
- コスト9割減、正確性100%!MITの常識破りのアーキテクチャがシリコンバレーの信仰に挑む
- LLMは自力で推論を強化できる?SePTがシンプルなオンライン自己学習パラダイムを提案
- QuantCode-Bench:大規模言語モデルによるコード生成能力を評価するベンチマーク
- DeepSeek-V4 プレビュー版:100 万トークン時代の幕開け
- 正式発表:混元 Hy3 preview
- Xiaomi MiMo-V2.5 シリーズ大規模モデルがパブリックベータを正式開始
- 普通の LAN ケーブルで 1 兆パラメータモデルを稼働!月之暗面が「PrfaaS」アーキテクチャを発表、H100 依存からの脱却を実証:遅延 64% 削減、大規模モデル推論の「囲城」を突破
- 上海交通大学の54ページのレビュー論文が解き明かす、エージェントの認知外部化の進化の道
- Qwen3.6-Max-Preview が登場!次世代フラッグシップモデルの早期プレビュー版を公開
- NUS・復旦大学・清華大学:大規模言語モデルの潜在空間に関する初の体系的レビュー
- AIシステムにおける正確性と正直さの分離:MASKベンチマーク
- 長文を 6 割削減+スパース化 95%:本日発表の 2 大手法が推論の計算効率で新記録を樹立
- スター数が急増!MSAがオープンソース化!
- AI を総崩れさせた「洗車ジレンマ」、ついに真相解明か
- 大規模モデルが「その場で」パラメータを変更可能に!ByteDance Seed&北京大学の新論文:テスト時推論で層追加や再学習不要
- スタンフォード大が実証:マルチエージェント推論は「計算リソースの幻影」に過ぎず、同等トークン予算下ではシングルエージェントが完全勝利