Thinking Machines Lab(TML社)を過小評価してはいけません。同社が昨年発表した「On-Policy Distillation(方策オン蒸留)」は、今や事実上、業界の新たなコンセンサスとなっています。DeepSeek v4をはじめ、主要なAIラボはすべて、この技術を何らかの形で導入しています。蒸留による推論能力の抽出、そして方策オン(on-policy)の最適化は、現在のモデル開発において必須の工程です。
TMLがこのタイミングで公開した「Interaction Model」は、大規模言語モデル(LLM)の第二段階とも言うべき進化を示しています。単にテキストを理解し生成する段階から、「文脈(コンテキスト)を動的に再構成し、情報の流れを主体的に管理する」能力を獲得しつつあるのです。
このTML社の新モデルは、ストリーミング方式を採用しています。ユーザーのトークンがモデルに絶え間なく流れ込み、モデルからのトークンも途切れることなく返ってきます。

一般的な大規模言語モデル(LLM)のインタラクションが、一つのリクエストに対して一つのレスポンスを返す従来のHTTPのようなものだとすれば、このインタラクションモデルは、双方向のデータストリームが連続的にやり取りされるWebSocketのようなものです。
この方式の利点は、モデルがインタラクション中に発生した事象に即座に反応できる点にあります。例えば、TMLの共同創業者である翁荔氏は、このモデルが物語に登場する動物の数をリアルタイムで数える様子を披露しました。
同様の応用シーンは、他にも数多く想定できます。例えば:
- 「私が話している間に同時通訳をして」
- 「スポーツの試合をリアルタイムで実況して」
- 「私が間違ったことを言ったら、すぐに遮って指摘して」
この「ストリーミングインタラクション」を実現する方法は、ターン制を完全になくすのではなく、その粒度を極めて細かくし、各マイクロターンがわずか200ミリ秒のデータで構成されるようにした点にあります。

しかし、このような超高頻度のマイクロターンでは、各ターンでプリフィル(Prefill)段階が必要となり、遅延への要求も非常に厳しくなります。TMLは「ストリーミングセッション」を設計しました。クライアントが各200ミリ秒のデータブロックを個別のリクエストとして送信し、推論サーバーがこれらのデータブロックをGPUメモリ内の永続的なシーケンスに追加することで、ビデオメモリへの頻繁な操作を回避しているのです。
このモデルの第二の特徴は、マルチモーダル全二重通信であることです。入力は音声、映像、テキストと多岐にわたります。Early-Fusion(早期融合)を採用しており、重厚なエンコーダ層を持ちません。

GPT-realtimeのような音声全二重モデルと比較すると、視覚情報が追加されたことで、より幅広いタスクを処理できるようになっています。
第三の特徴は、これが単一のモデルではなく、二つのモデルが連携するシステムであることです。

このシステムにはフロントエンドとバックエンドがあります。フロントエンドのストリーミングモデルは高速で、インタラクションや簡単な即時思考を担当し、バックエンドの従来型大規模モデルは複雑な問題の処理やツールの呼び出しを担当します。このモデル連携は、Claude Codeにおけるアドバイザーモードに非常によく似ています。
アドバイザーモードと同様に、フロントエンドモデルも、自身がバックエンドモデルを呼び出す必要があると判断できるだけの、相応の知能を備えていなければなりません。そのため、このインタラクション用の小規模モデルも、決して小さくはありません。
現在のTML-Interaction-Smallは、アクティブパラメータ数12B、総パラメータ数276BのMoE(専門家混合モデル)です。このアーキテクチャは、複雑なタスクを処理する音声アシスタントに非常に適しています。フロントエンドモデルがユーザーとの絶え間ないコミュニケーションを維持することで、「AIアシスタントが常に待機している」という感覚をユーザーに与え、一方でバックエンドモデルが実作業を担当し、完了後にフロントエンドモデルがその結果をスムーズに伝達します。
昨年、Sesame音声モデルを体験した後、私は映画『her/世界でひとつの彼女』が実現したと感じました。しかし今振り返ると、視覚を持ち、フロントエンドとバックエンドに分かれたこのインタラクションモデルこそが、『her』の完成形と言えるでしょう。
このモデルはインタラクティブ性において、他の類似モデルをはるかに凌駕しています。

公式記事の最後には、即時反応が求められるいくつかのタスクを示す小さなデモが紹介されています。
- ユーザーが絶えず手の形を変え、モデルが正確に指の本数を答える。
- リアルタイムの為替換算を行い、「XXドル」というフレーズをすべてユーロに変換する。
- ストップウォッチを起動し、ある物事にかかった時間をユーザーに報告する。
これらのタスクはすべてTMLのモデルのみが達成可能であり、GPT-realtimeやGeminiを含む他のモデルは失敗しました。
従来の音声全二重モデルは、往々にして知能面で妥協を強いられてきました。例えば、ネット上では様々な質問でChatGPT音声モデルの知能指数をテストする人がいますが、テキストモデルであれば犯さないような初歩的な間違いを犯すことがあります。TMLのこのデュアルモデルアーキテクチャ(フロントエンドが高速応答を担当し、バックエンドが知能を担当)は、この問題を解決するのではないでしょうか。
もう一つ私が興味を持っているのは、TMLがこのモデルをどのように製品化するのかという点です。『her/世界でひとつの彼女』のサマンサのようなパーソナルAIコンパニオンとして提供するのか、それとも企業向けに音声エージェントサービスを提供するのか。答えは近いうちに明らかになるはずです。
少なくともブログの文体からは、特定のアルゴリズムの優位性よりも、エンジニアリング上の組み合わせを強調しているように見えます。具体的には以下の点が含まれますが、これらに限定されません。
- 動的なウェイクワード(SiriやAlexaを起動する推論バージョンのようなもの)の実装。
- Omniレベルの意図認識。
- フロントモデルとバックモデルの分離を設定し、バックグラウンド推論セッション(バックグラウンドでの思考、バックグラウンドでの計時を含む)を実現。
- 200msのチャンクによって、ユーザーとモデル間のデュアルストリームインタラクションを標準的なTransformerのシーケンシャル入力に変換。
- 固定されたGPUメモリ上でのキュー待機による効率的な推論を実現(276BA12B、アクティベーション4.3%、最大サイズのQwen3.5と同水準)。最終的にFD-benchの遅延は0.4秒にまで低下し、以前の結果と比較して、ユーザビリティが大きく前進しました。
これは、TM社がこうしたエンジニアリング上の実装を、単純なモデルのスコアよりも確かな実力と見なしていることを示しています。
かつての音声全二重モデルは、しばしば知能の面で妥協を強いられてきました。例えば、ChatGPTの音声モデルの知能を様々な質問でテストしたというネット上の投稿では、テキストモデルなら通常犯さないような初歩的なミスが見られました。TMLのこのデュアルモデルアーキテクチャは、フロントエンドが高速応答、バックエンドが知能処理を担当することで、この問題を解決するのでしょうか。
もう一つ興味深いのは、TMLがこのモデルをどのように製品化するのかという点です。映画『her/世界でひとつの彼女』のサマンサのようなパーソナルAIコンパニオンとして提供するのか、それとも企業向けの音声エージェントサービスとして展開するのか。その答えは、まもなく明らかになるでしょう。