美团が静かに新モデルを公開！実測初のオープンソース「重思考」モデル：8路並列、AgentがClaudeと直接対決

最近、美团のLongCatチームが最新のフラッグシップモデルであるLongCat-Flash-Thinking-2601をオープンソース化しました。

この5600億パラメータのMoEアーキテクチャに基づく新モデルは、単にベンチマークスコアの向上を追求するのではなく、大規模モデル導入の最も重要な2つの能力、つまり深い論理的推論（Thinking）と未知の環境でのインテリジェントエージェントの一般化（Agentic OOD）に焦点を当ててイテレーションを進めています。

この更新では、公式に8つの推論パスを並列に起動できる「重思考モード」（Heavy Thinking Mode）が導入されましたが、より注目すべきは評価方法における革新です。

モデルの真の一般化能力を検証するため、チームは自動化されたブラインドテストメカニズムを導入しました。システムは固定の問題バンクを使用せず、キーワードに基づいてリアルタイムで対応するツールセットと実行環境を備えた複雑なタスクをランダムに合成します。

この動的なテスト生成方法は、モデルが「問題を暗記する」可能性を効果的に回避し、未知のシナリオでの真のパフォーマンスをよりよく反映します。

実験結果によると、このような高度にランダム化された複雑なツールチェーンタスクを処理する際、LongCat-2601はSOTAレベルの適応能力を示し、そのパフォーマンスはClaudeを上回っています。

インテリジェントエージェントツール呼び出し、インテリジェントエージェント検索、ツール統合推論などのコアベンチマーク評価で優れたパフォーマンスを示し、複数の指標でオープンソースSOTAを達成しています。

しかし、スコアが高いことよりも、実際の環境でテストすることの方が説得力があります。

その真の水準を測るために、私たちは従来の問題バンクを避け、4つの非理想的な環境を特別に構築しました。複雑な論理からダーティデータのクリーニングまで、この龍猫が本当に戦えるかどうか見てみましょう。

論理実測

複数の制約を持つ相互排他的な複雑な論理に直面すると、従来の思考チェーン（CoT）は局所最適解に陥りがちです。

LongCatの真の限界を引き出すために、私たちは「殺人事件推理ゲーム」のような論理的罠を設計しました：

屋敷で殺人事件が発生しました。5人の容疑者がおり、犯人は1人だけだと分かっており、5人の中でちょうど2人が嘘をついています。

Aは言う：Bが犯人だ。Bは言う：Dが犯人だ。Cは言う：私は犯人ではない。Dは言う：Bは嘘をついている。Eは言う：BとCの両方が嘘をついている。

誰が犯人か推理してください。

深い思考を開始すると、バックグラウンドが瞬時に活気づきました——8つの独立したThinkerが同時に作業を開始しました。

上下にスワイプして、さらに表示。

これは単に問題を解くことではなく、チームが会議を開いているようです：

発散フェーズ：Thinker 1はAを犯人として正方向の推論を試みますが、第三段階で「2人が嘘をついている」というグローバル制約に違反し、パスは実行不可能とマークされます。一方、Thinker 3はEの証言から切入し、BとCの真偽状態を逆方向に特定します。

収束フェーズ：すべての分身がプロセスを完了すると、Meta-Reasoning（メイン脳）が経験豊富な裁判官のように、論理的に自己矛盾する仮定を除外し、唯一の解に一撃で収束します：犯人はBで、嘘をついているのはBとEです。

このメカニズムは本質的に人間のSystem 2の遅い思考プロセスをシミュレートし、複数のパスのクロス検証を通じて、単一の論理的幻覚を効果的に回避します。

ロバストネスチャレンジ

実際のエンジニアリングの課題は、コードの書き方よりも、予期しないダーティデータを処理する方法にあります。

美团の公式技術解説で強調されている抗ノイズ訓練をターゲットに、私たちは従来のテスト問題を使わず、崩壊寸前のバックグラウンドログを直接構築しました。実際のビジネスで一般的な中英混在ノイズをシミュレートし、真実を復元できるかどうかを見ます。

「フードデリバリーオーダー失敗」シナリオをシミュレートした非構造化ログを入力します。APIエラー（503 Error）、OCR認識エラーで一般的な「中英混在の文字化け」（例：Cr@yfish）、干渉記号を含み、モデルにノイズを無視して標準的なJSONオーダーデータを復元するよう要求します。

左側はエラーと文字化けを含む元のログ、右側はモデルがクリーニングして復元した標準JSONです。

LongCatは非常に強いエンジニアリングロバストネスを示しました：

有効ペイロード抽出：トップの目立つ赤色# EXCEPTIONアラートとそれに続く[ERR_CODE:503]中断情報に直面しても、モデルは干渉を受けず、エラー領域を正確に横切り、下の有効なRaw_Payloadデータセグメントを特定しました。

セマンティック修正：典型的な中英混在ノイズである<<Spicy_Cr@yfish_ロブスター>>に直面しても、モデルは強いセマンティック理解力を示し、Cr@yfishなどの冗長な文字を正確に除去し、標準的な中国語SKU「スパイシーロブスター」に復元しました。

属性構造化：MT-User-9527#Xの#Xをシステム干渉サフィックスとして鋭く認識し除去；同時に'Ice_Cola_Sugar-Free'を商品名「コーラ」と属性「砂糖なし、氷入り」にインテリジェントに分解し、文字列を機械的に連結しませんでした。

このパフォーマンスは、モデルが訓練段階で系統的なノイズ注入を経験し、中国語文脈での複雑な混合ノイズに直面しても、安定した推論能力を維持できることを確認しています。

コード生成

コード生成のセクションでは、難易度を単純な機能実装から学際的な統合の次元に昇格させました。問題はインタラクティブなブラックホール重力場シミュレータを記述することを要求し、これはコードロジックだけでなく、物理的常識と視覚的審美眼を同時に備えることをモデルに要求します。

単一ファイルのHTML5 Canvasアプリケーションを記述：3000個の粒子を生成、マウスを重力源（ブラックホール）とし、ニュートンの重力法則に厳密に従い、サイバーパンクスタイルの流体視覚効果を実装します。

コードは一度で成功しました。詳細を拡大すると、LongCatが物理法則に対する深い理解を示していることがわかります。

1. 物理的真實性：粒子の運動軌跡は厳密にF = G*m1*m2/r²の重力法則に従います。相互作用中に加速度が距離とともに変化する物理的特性を明確に観察できます。

2. 視覚アルゴリズム：モデルは速度に基づく色マッピングアルゴリズムを構築しました。粒子は静止状態では冷色調で、加速してブラックホールに吸い込まれるときは明るい紫白色に変わり、視覚的階層が明確です。

3. レンダリングパフォーマンス：Canvasレベルの最適化を通じて、3000個の粒子の60FPSのスムーズなレンダリングを実現し、半透明マスク技術を利用して複雑な光跡効果を実現しました。

最終OOD実測

問題を暗記する可能性を完全に排除するために、第4関では美团公式のOOD評価プラットフォームに直接アクセスしました。この段階では、すべてのタスクはシステムによってキーワードに基づいてランダムに生成されます。

システムは「企業従業員年次休暇セルフサービス照会」タスクをランダムに生成し、データベースに罠を仕掛けました：残高計算に不可欠な「今年の休暇日数」パラメータを故意に省略しました。

「計算パラメータ欠落」の落とし穴に直面し、Claude-4.5-Opusは企業アプリケーションの重大な禁忌を犯しました。スピードのために、ID確認のステップを直接スキップし、結果を完全に信頼できないものにしました。

上下にスワイプして、さらに表示。

しかし、LongCatは驚くべきAgentの境界意識を示しました。嘘をつかず、一歩ずつ着実に進むことを選びました。

上下にスワイプして、さらに表示。

IDアンカリング：まずget_employee_by_idを呼び出して従業員ID（E10001）を確認し、誰も間違ってチェックしていないことを確認します。

パラメータスニッフィング：計算ツールを呼び出す準備をしたとき、重要な変数「休暇日数」が欠落していることに鋭く気づき、ツールチェーンの実行を一時停止しました。

能動的な明確化：ユーザーに詳細な問題リストを提示：「1. 累計年次休暇？2. 使用済み年次休暇？3. 繰越日数？」、実際のデータを取得してから計算を進めます。

この「自分が知らないことを知っている」能力は、最終評価レポートで定量的に証明されました。

Claudeは速かったが、最初のステップでID確認を無視しパラメータを偽造したため、最終的に合格点の67%しか獲得できませんでした。LongCatはわずか7秒未満（48.9秒 vs 42.2秒）多くかかっただけで、100%のタスク標準カバー率を手に入れました。

企業級シナリオでは、絶対的な業務の正確性のために極めて低い時間コストをかけることが、真のコスト削減と効率化です。

技術的分解

このような素晴らしい実測パフォーマンスは、単なるパラメータの積み重ねではなく、基盤となる訓練パラダイムの体系的な再構築に由来しています。

基本アーキテクチャレベルでは、バージョン2601はLongCat-Flash-Thinkingシリーズの成熟したベースソリューションを継承し、560Bパラメータの混合エキスパート（MoE）アーキテクチャに基づき、前世代で検証された有効なドメイン並列訓練訓練戦略を継承しています。

この堅実な基盤の上で、新バージョンは並列思考、環境規模拡張、多環境強化学習、抗ノイズカリキュラム学習などの変数を導入し、能力の飛躍を実現しました。

1. 重思考モード

論理実測で、LongCat-2601が示した重思考モードは、その最も核となる差別化特性です。従来のCoTの線形推導方法とは異なり、このモードは推論層に並列と再帰のメカニズムを導入しています。

その上で、モデルはシステムレベルの重思考モードを導入しました。従来のCoTとは異なり、美团は遅い思考を「並列思考 + 総括帰納」の二段階プロセスにエンジニアリングしました：

推論幅の構築：モデルは8つの独立したThinkerを並列にインスタンス化できます。システムはサンプリング温度を上げることで、異なるThinkerに差別化された推論パスを探索させ、解空間でより多くの潜在的可能性をカバーします。

推論深度の強化：これは閉ループプロセスです。総括モジュールは8つの並列軌跡を収束し、偽を去って真を取り、精錬された論理アンカーを推論フローにフィードバックし、「思考 - 総括 - 再思考」の反復サイクルを形成します。

実測でLongCatが重思考モードを有効にすると、バックグラウンドに8路並列の思考チェーンが表示されました。

2. インテリジェントエージェント訓練

未知の環境でのAgentの一般化課題を解決するため、美团の技術チームは環境規模拡張（Environment Scaling）の技術ルートを選択しました。

チームは静的な訓練データに依存せず、動的な高保真訓練フィールドを構築しました。各環境は60以上の原子ツールを統合するだけでなく、高密度のツール依存関係グラフを構築しています。

タスク構築段階では、システムは接続部分グラフサンプリング技術を使用し、複雑なツールネットワークから論理的に関連するサブセットを抽出し、実行可能な解を持つ高複雑度タスクを自動合成します。

この合成データ戦略は、モデルが訓練段階で膨大なツール組み合わせ形態を目にし、OODタスクに直面した際に強い適応能力を持つことを可能にします。

訓練環境に統合されたツールの密な依存関係グラフの可視化

3. 基盤インフラのアップグレード

大規模環境の導入は訓練フレームワークに課題をもたらします。このため、美团は独自開発のDORA（非同期弾性共カードシステム）をアップグレードし、多環境大規模強化学習（Multi-Environment RL Scaling）をサポートするようにしました。

このシステムは多環境タスクのバランスの取れた混合訓練を実現するだけでなく、インテリジェントなリソーススケジューリングメカニズム、「ストリーミングRollout予算」（Streaming Rollout Budget）を導入しました。システムは現在のタスクの難易度係数とモデルの訓練進行状況に基づいて、動的に計算リソースを割り当てます。

公式に開示された訓練曲線から、環境数の増加に伴い、モデルの利益が非常にロバストな成長傾向を示すことがわかります。