OpenAI元CTOが「常在型」AIのプロトタイプを発表｜Hao好聊論文

Tencentの先端技術論文解説コラム。コードとビジネスの交差点で、AIの確実性を探求する。

文：博陽

編集：徐青陽

5月11日、Thinking Machinesが新モデル「Interaction Model（インタラクションモデル）」を発表した。OpenAIの元CTOであるムラティ氏が設立したこのAI研究所は、以前、DeepSeek V4に多大な影響を与えたOPD蒸留パラダイムを発表している。今回、彼らが発表した新モデルは、次世代の人と機械のインタラクションの形を象徴するものだとしている。

彼らの論証の出発点はコミュニケーション学だ。

1991年、ハーバート・クラークとスーザン・ブレナンは古典的論文『コミュニケーションにおけるグラウンディング』の中で、人間が効果的にコミュニケーションを取るための3つの基本条件を提示した。Thinking Machinesはこの3条件を診断フレームワークとして流用し、現在のAIインタラクションシステムの状態を一つ一つ検証した。

共在性（Copresence）：双方が同じ知覚フィールドを共有していること。あなたが見たり、聞いたり、経験している環境を、相手も知覚できる。

共時性（Contemporality）：受信がほぼ送信と同時に行われること。あなたが話している間、相手はあなたの話している内容を処理しており、「あなたが話し終えるのを待って理解し始める」という断絶が存在しない。

並行性（Simultaneity）：双方が同時に情報を送受信できること。あなたが話している間、相手は同時に微細な表情、うなずき、相槌といったリアルタイムのフィードバックを返すことができる。

この3つの条件は、対面での会話では自然に満たされている。友人と喫茶店で話すとき、あなたたちは同じ物理空間を共有し（共在性）、あなたが口を開けば相手はすぐに聞いて理解し（共時性）、相手はあなたが話している間に眉をひそめたりうなずいたりして「理解している」または「少し違うと思う」という反応を示す（並行性）。

Thinking Machinesの診断結果によると、現在のAIシステムは最初の2つの条件を全く満たしておらず、3つ目の条件は最近の全二重音声モデルである程度の進展が見られるものの、まだ不完全だという。

AIは真に「その場」にいたことがない

Thinking Machinesは、現在のAIが「その場にいる」という定義から最もかけ離れている点は、対話システムがすべて「ターン」という概念に基づいて構築されていることだと指摘する。

ユーザーが話し終えると、モデルが処理し、モデルが返答を出力する。1ターンが終了し、次のターンが始まる。この構造が、根本的なレベルで共在性を断ち切っているのだ。

一つ目は共在性がない点だ。AIはあなたが能動的に入力した時にだけ、あなたを知覚する。あなたが話していない時、あなたの世界はAIにとって存在しないも同然だ。あなたが眉をひそめたり、窓辺に歩いて行ったり、画面に悪い知らせがポップアップしても、AIはそれを全く認識しない。その知覚フィールドは、あなたがキーボードやマイクを通じて「能動的にプッシュ」した情報だけが通る細いパイプに限られている。

二つ目は共時性の欠如だ。モデルはあなたが「話し終える」のを待たなければ処理を開始できない。音声活動検出（VAD）は、あなたのターンが終了したと判断するために、十分な長さの無音区間を検出する必要がある。この「話し終えるのを待つ」ギャップの中で、モデルはあなたが話している内容をリアルタイムで理解することはない。

Thinking Machinesはブログで一つの比喩を用いている。同僚と重要な意見の相違について話し合っているのに、電子メールでしかコミュニケーションが取れない状況を想像してみてほしい。あなたが書いて送信し、返信を待つ。相手が書いて送信し、あなたの次のメールを待つ。この方法が複雑な協調作業の解決に適していると考える人はいないだろう。

しかし、これこそが現在のすべてのAIシステムにおけるインタラクションのパターンなのだ。

三つ目の必要条件である並行性は、この3つの中でここ2年で最も進歩が速い分野だ。リアルタイム音声AIは、システムが同時に送受信できるようにする試みをすでに始めている。OpenAIは5月7日にGPT-Realtime-2を発表し、ByteDanceのSeeduplexは「豆包」に全面的に実装された。しかし、アーキテクチャを詳しく見ると、並行性の実装深度は各社で異なっている。

そして、それらはいずれも並行性という一つの条件を解決したに過ぎず、残りの二つは全く手つかずのままだ。

通信層は全二重だが、モデル層はまだ「話し終える」のを待っている

GPT-Realtime-2は、Thinking Machinesの発表の4日前にOpenAIが発表した音声モデルであり、現時点で同社最強のリアルタイムインタラクションソリューションだ。まず、何を実現したのか見てみよう。

GPT-5レベルの推論能力、128Kのコンテキストウィンドウ、そして最も重要なのは並列ツール呼び出し能力の向上だ。これにより、音声でシステムを制御し、ツールを呼び出せるようになった。そのため、Big Bench Audioでは前世代より15.2%高いスコアを記録しており、音声モデルとして非常に強力だ。

しかし、ここで我々が関心を寄せるのはただ一つの問題、それが3つの条件に照らしてどこに位置づけられるかだ。

まずアーキテクチャを見てみよう。OpenAI Realtime APIの基盤はWebSocketであり、全二重通信プロトコルだ。あなたの音声ストリームは継続的にサーバーに送信され、AIの音声ストリームは継続的にあなたに返される。双方向が同時に開かれている。つまり、並行性は通信レベルでは解決されており、AIが話している最中にあなたが口を開くことも、あなたが話している最中にAIが出力を続けることも可能だ。チャネルは双方向であり、「一方が話し終えるまでもう一方が口を開けない」という制限はない。

問題は、チャネルの背後にあるモデルにある。

WebSocketは継続的にあなたの音声を受信しているが、モデルは「常に聴いている」わけではない。サーバー側にはVAD（音声活動検出）モジュールが存在し、あなたとモデルの間に挟まって門番の役割を果たしている。VADの仕事は「ユーザーが話し終えたかどうか」を判断することだ。十分な長さの無音区間を検出して初めて、あなたのターンが終了したと判断し、モデルが起動されてあなたが今話した内容を処理し始める。

たとえるなら、チャネルは双方向の道路のようなもので、いつでも両側から同時に車が通行できる。しかし、モデルは道路の先にある料金所のようなものだ。車が来るたびにゲートを開けるのではなく、すべての車が到着するのを待って（あなたが話し終えるのを待って）から、一括してゲートを開けて処理する。

割り込みはどうか？あなたがAIの話中に口を開くと、VADが新たな音声活動を検出し、システムはAIの現在の出力をキャンセルする。そして、あなたが話し終えるのを待ってから、新たな生成をトリガーする。

このプロセスに注目してほしい。割り込みはVADによってトリガーされるのであり、モデル自身があなたが口を開いたことを認識したわけではない。モデルは外部から「止まれ」と通知され、次の入力が十分に蓄積されるのを待ってから再起動する。

並行性の基盤はあるものの、ターンベースという古い問題を解決しておらず、共時性は全く解決できていない。

モデル層で全二重だが、依然としてあなたの顔を知らない

ByteDanceが2025年4月に発表したSeeduplexは、OpenAIよりも一歩先を進んでいる。これはモデルレベルで全二重を実現した音声大規模モデルだ。

GPT-Realtime-2の並行性は通信層に依存しており、WebSocketが双方向の同時伝送を許可しているが、モデル自体は依然として「話し終えるのを待ってから考える」状態だ。Seeduplexは並行性をモデル内部にまで推し進めた。

その3ストリームアーキテクチャ（リスニングストリーム、スピーキングストリーム、制御ストリーム）とR-PEC（相対位置エンコーディング）により、モデルは入力と出力を真に同時処理できるようになった。リスニングストリームはあなたが話している内容を継続的に解析し、スピーキングストリームは同時に応答を生成し、制御ストリームは両者の間でリアルタイムの調停を行う。

その結果、誤った割り込み率は半二重モデルと比較して50%減少し、話し始めるタイミングが重なる割合は40%低下した。

これは並行性において確かな進歩だ。GPT-Realtime-2の割り込みメカニズムは「キャンセルしてやり直し」であり、AIは停止させられ、あなたが話し終えるのを待って、新たに一から生成する。Seeduplexの割り込みは連続的であり、AIは話しながらあなたの話を聞き、あなたが話し始めようとしていると判断すれば、「キャンセル-待機-再起動」という断絶プロセスなしに、スムーズに道を譲る。トランシーバーから電話へのアップグレードと言える。

3ストリームアーキテクチャ（リスニング/スピーキング/制御）とR-PEC（相対位置エンコーディング）メカニズムにより、モデルは真に情報を同時に送受信できる。通信層の表面的な並行性ではなく、モデル内部で入力ストリームと出力ストリームを同時に処理する。その結果、誤った割り込み率は半二重モデルと比較して50%減少し、話し始めるタイミングが重なる割合は40%低下した。3つの条件で言えば、並行性の欠如を補ったのだ。

しかし、共在性と共時性はどうか？ GPT Realtimeと同様、全く手つかずのままだ。

両者とも純粋な音声モデルであり、視覚入力はない。あなたが話していない時、あなたは依然としてモデルにとって存在しない。R-PECは相対的な時系列エンコーディングであり、リスニングストリームのあるトークンがスピーキングストリームのあるトークンの「前」か「後」かを知ることはできるが、各位置を現実世界の特定の瞬間に固定する絶対的な時計を持っていない。

前後関係は分かるが、連続的な存在感を持たない。音声活動がない場合、3つのストリームには処理すべきものがなく、モデルはアイドリング状態となる。

したがって、再び例えるなら、OpenAI Realtime-2は割り込み可能なトランシーバーだ。あなたがボタンを押すと、相手は話すのをやめてあなたの話を聞く。Seeduplexは本物の電話であり、二人が同時に話しても混乱しない。

しかし、Thinking Machinesが実現したいのは「対面」なのだ。

対面とは、たとえ誰も話していなくても、二人が同じ空間、同じ時間、同じ沈黙を共有していることを意味する。

インタラクティブ性をモデルに組み込む

トランシーバーと電話は、いずれも3つの条件のうち1つしか解決していない。Thinking Machinesは3つ全てを補おうとしている。どうやって？

まず一つ目、共在性から説明しよう。

共在性：AIがあなたの知覚する全モダリティにアクセスできるようにする

AIはあなたの知覚帯域幅と同等である必要がある。あなたが見えるものはAIにも見え、あなたが聞こえるものはAIにも聞こえなければならない。

そこで彼らはマルチモーダルモデルを訓練した。しかし、共時性を満たすために、彼らは現在主流の、音声モデルにエンコーダーの足場を追加してマルチモーダル機能を実現する手法を選ばず、統一モデルを新たに訓練し直した。

共時性を実現するには、異なるモダリティ間の処理が統一时间で行われなければならない。システムが時間の精度で複数のモダリティストリーム（動画フレーム、音声クリップ、テキストトークン）を同一の表現空間に同時に固定する必要がある場合、外部コンポーネントによる遅延のジッターがアライメントを破壊してしまう。

例えば、視覚は独立したエンコーダー（ViTなど）を経由し、音声は別のエンコーダー（Whisperなど）、テキストは三つ目のエンコーダーを経由すると、三つのエンコーダーはそれぞれ異なる処理遅延を持つ。視覚は80ms、音声は40ms、テキストはほぼ即時といった具合だ。

これらの遅延差は小さく見えるが、後続の処理で致命的な影響を及ぼす。

これこそが、Thinking Machineが技術文書で「インタラクティブ性はモデル自体の一部でなければならず、外部の足場を組み合わせて実現するものではない」と強調する理由だ。

時間精度が必要なすべての機能をモデルに内包し、ゼロから共同訓練する。これは美的な好みではなく、工学的な必然なのだ。

具体的な方法としては、音声入力には軽量なdMel（メルスペクトログラム）埋め込み層を用いて最小限の前処理を行い、動画入力は画像を40x40のパッチに分割した後hMLP（階層的MLP）でエンコードし、テキストは標準埋め込みを用いる。すべてのコンポーネントとメインのTransformerは、エンコーダーフリー早期融合（Encoder-free Early Fusion）を用いてゼロから共同訓練される。

その結果、すべてのモダリティが入力からTransformerに入るまでの経路は最短に抑えられ、遅延も最も均一化された。

ここでは、統一表現自体が独立した革新点ではなく、実現を可能にする条件だ。モダリティ同士が互いの速度を落とさないようにし、次の段階である時間固定に精度基盤を提供する。

もちろん、これに加えて、彼らがモデルをゼロから訓練することを選んだもう一つの理由は、Thinking Machineがインタラクション能力自体がモデルの能力と共に成長するものであり、足場ではそうならないと考えているからだ。

統一モデルを作り、この成長を享受して初めて、インタラクションはスケールアップできる。

共時性：モデルに連続的な内部時計を与える

共時性は、このアーキテクチャの中で最も中核的な点だ。

モデルが常に「その場にいる」ためには、イベントによって起動されるのではなく、連続的な内部時計を必要とする。

現在の言語モデルは時間軸において受動的だ。その時間感覚はイベント駆動型である。用事があれば目覚め、なければ眠る。

Thinking Machinesはこのパラダイムを反転させた。彼らのインタラクションモデルは、200msのマイクロターンで動作する。200msごとに、モデルは一連の入力トークンを処理し、一連の出力トークンを生成する。あなたが話しているかどうか、「イベント」が発生しているかどうかに関わらず、この200msの心臓の鼓動は決して止まらない。

なぜ200msなのか？それは人間の会話における最小の有意義なフィードバック間隔だからだ。会話分析の研究によると、200msは人がバックチャネルフィードバック（「うん」「そう」「それで？」）を生成する最短時間にほぼ等しい。この間隔より短いとフィードバックは不自然に感じられ、長いと相手は「話を聞いていない」と感じる。

各200msマイクロターンにおいて、モデルはまず全入力トークン（全モダリティから）を読み込み、それから出力すべきトークンを生成する。入力と出力は交互に配置され、連続したシーケンスを形成する。

沈黙は空白ではない。ある200msの間あなたが何も言わなかったとしても、モデルはその沈黙を処理する（音声ストリームでは静寂のメル特徴、動画ストリームではあなたの現在の映像）。沈黙、オーバーラップ、割り込み、すべてがコンテキストに保持される。

これにより、これまで不可能だった能力が実現した。

TimeSpeakテスト（「30秒後にリマインダーして」とユーザーが指示）では、Interaction Modelのマクロ正解率は64.7%に対し、GPT-4o realtimeはわずか4.3%。CueSpeakテスト（「私が手を挙げるのが見えたら答えを言って」）では、Interaction Modelが81.7%に対し、GPT-4o realtimeは2.9%だった。差は桁違いだ。なぜならGPT-4o realtimeには内部時計がなく、「30秒後」がどこにあるのか分からないからだ。

200msの心臓を工学的に動作させるため、Thinking Machinesは二つのことを行った。

訓練-サンプリングのアライメント。このアーキテクチャでは、訓練時の時間解像度と推論時の時間解像度を完全に一致させる必要がある。訓練時にモデルが不定長のチャンクを見ているのに、推論時には厳密に200msごとに出力しなければならない場合、モデルが学習する時間感覚は歪んでしまう。そのために、彼らは訓練と推論の間でビット単位のアライメントを実装し、この問題を解決した。追加のオーバーヘッドは5%未満だ。

ストリーミングセッション。従来のLLM推論フレームワークは、リクエストごとにメモリを割り当て、プリフィルを行う。200msごとのチャンクは、1秒間に5回の小規模なプリフィルを意味し、従来のフレームワークでは読み取りオーバーヘッドが許容できないほど増大する。そこで彼らは推論アーキテクチャを再設計した。クライアントは200msごとにチャンクを送信し、推論サーバーはチャンクをGPUメモリ上の永続的なシーケンスに追記することで、繰り返しの割り当てを回避する。これによりメモリ読み取りのコストが低く抑えられ、実際に動作可能になった。

並行性：入力と出力を真に並列化する

並行性は、システムが同時に受信と送信を行えなければならないことを要求する。

標準的な自己回帰Transformerは、一度に一つのことしか行わない。プロンプトを読み込む（プリフィル）か、トークンごとに返答を生成する（デコード）かのいずれかだ。デコード段階では新しい入力を受け付けない。その結果、AIが話している間は、あなたの話を聞いていないことになる。両者は時間的に排他的なのだ。

Thinking Machineは時間を200msの離散的なブロックに区切った。各ブロック内の実行順序は「先に読み込み、後に書き込み」だ。モデルはまずこの200msの間に蓄積されたすべての入力トークン（あなたが言ったこと、表情の変化）を処理し、それからこの200msの間に出力すべきトークンを生成する。

モデル内部から見れば、入力と出力は依然としてシーケンシャルであり、従来モデルと一致する。

しかし、人間の知覚スケールから見ると、200msは「先読み後書き」の間隔を知覚できないほど短い。あなたは、AIがあたかも自分が話しているのと同時に応答しているかのように感じる。なぜなら、あなたが口を開いてからAIが応答するまでの遅延は最大でも200msであり、人間が会話シーンで感じる時間分解能は約200-300msだからだ。そのため、間に遅延があるとは全く感じない。

これは物理層の真の並列処理ではない。人間の知覚閾値以下での高速な交錯であり、効果としては並行性に等しい。

これはSeeduplexの二重アーキテクチャとは異なる。Seeduplexの3ストリームアーキテクチャは、モデル内部で真の並列処理を行い、リスニングストリームとスピーキングストリームを同時に実行する。Thinking Machinesは、時間を十分に細かく区切ることで、逐次実行を体験レベルで並列と等価にしている。

後者には追加の利点がある。各マイクロターンで、モデルはすべての入力を読み込んでから出力を生成するため、「その瞬間のグローバルな状態」を完全に把握している。一方、Seeduplexの並列リスニング/スピーキングストリームでは、競合を調停するために追加の制御ストリームを必要とする。マイクロターン構造は、各タイムブロックに決定点が一つしかないため、この問題を自然に回避する。

しかし、並行性は一つの工学的な緊張をもたらす。モデルが200msごとに有意義な出力を生成して存在感を維持する必要がある場合、「考える」ことにあまり多くの時間を費やすことができない。アイコンタクトを常に維持しながら微積分を解くことは誰にもできない。存在感の維持と深い思考は、計算リソースに対する要求が本質的に相反するのだ。

そこでThinking Machinesはデュアルモデルアーキテクチャを選択した。

Interaction Model（TML-Interaction-Small）：276BパラメータのMoE（Mixture of Experts）モデルで、推論ごとにアクティブになるのは12Bパラメータのみ。その役割は心臓の鼓動を維持し、200msごとに応答し、マルチモーダルな連続双方向ストリームを維持し、対話管理と即時応答を処理することだ。標準ベンチマークではGPT-4oレベルに迫る性能を持つが、長時間の思考を必要とする深い推論は行わない。

Background Model（バックグラウンドモデル）：深い作業を担当。Interaction Modelが「この質問には調査や推論が必要だ」と判断した場合、タスクを非同期でバックグラウンドモデルに委託する。バックグラウンドモデルはストリーミングで結果を返し、Interaction Modelは適切な合間にその結果を自然に対話に織り込む。二つのモデルは完全な対話コンテキストを共有する。

Interaction Modelにおいて、鼓動は硬直的であり（200msごとに必ず応答）、思考は弾力的である（2秒かけることも20秒かけることもできる）。分割して最適化する方が、一つのモデルに両方を同時に満たさせるよりもはるかに効率的なのだ。

この二重アーキテクチャの後押しにより、Interaction Modelはより高い対話品質を獲得した。FD-bench V1.5の対話品質スコアでは、Interaction Modelが77.8、GPT-4o realtimeが46.8、GPT-4が48.3、Gemini 3が54.3だった。

なぜ「共在」が次世代のインタラクションなのか？

技術アーキテクチャの説明は終わった。ここからは理念について話そう。

コミュニケーション学が規定する「良いコミュニケーション」に加えて、「共在」は何をもたらすのか、なぜThinking Machineはこれが次世代のインタラクションだと考えるのか。

まず、「共在」そのものの時系列性と能動性の展望だ。

常にその場にいるAIは、より良い体験を提供する。なぜなら、以前話したことを覚えており、いつでも応答でき、24時間365日我々から情報を収集し、応答できるからだ。

これらの重要性は、OpenClawの爆発的な人気によって完全に証明された。それは心臓の鼓動によって時系列性と能動性を生み出し、記憶によって自己進化と実行時蓄積の基盤を獲得したのだ。

しかし、OpenClawが情報を収集するチャネルは依然として狭く、ターンベースでの起動を必要とする。このより広帯域で、より時間的な固定点を持つインタラクションシステムと組み合わせれば、その利便性と能力の幅は大幅に向上するだろう。

しかし、それ以外に、これが次世代インタラクションであると決定づけるものは何か？

Thinking Machine自身もこれについて考察しており、引用の中で二人の哲学者の著作を参照している。

フリードリヒ・ハイエクは1945年の『社会における知識の利用』で、社会で最も重要な知識は教科書に書けるような形式知ではなく、特定の時間と場所に関する具体的な状況の知識として、個々人の手に分散していると指摘した。この知識は暗黙知であり、中央計画者が収集・集約することはできない。

ジェームズ・C・スコットは『国家の視点』で、この概念を「メーティス（実践知）」として発展させた。これは、自らその場に身を置き、長期間浸ることによってのみ獲得できる知識だ。老農夫の自分の田畑への理解、医師が病室に入る際に患者の表情から読み取る情報などがそれにあたる。

これらの知識はテキストとしてエンコードできず、共在の状況においてのみ観察され、吸収されうるものだ。

これをヒューマンコンピュータインタラクションに当てはめてみよう。現在のモデルは、人間が要求を言語にエンコードしてAIに「プッシュ」することを求める。曖昧な意図や複雑な状況をテキストに圧縮し、送信し、応答を待つ。

しかし、人間自身の自分のニーズに対する理解は元々不完全なものだ。あなたは画面のコードを見て眉をひそめ、「ここに何か問題がある」とは分かっても、具体的にどこが間違っているのかはうまく説明できない。同僚との議論中のためらい、間、ホワイトボードの隅をじっと見つめて首を振る動作、これらはすべて情報なのだ。

共在するAIはこれらの情報を捉えることができる。心が読めるからではなく、あなたの知覚フィールドに継続的に存在しているからだ。あなたの状態を「言葉にされなくても」知覚できる。ハイエクの言うような状況的知識を、あなたの沈黙、視線、表情の変化から獲得するのだ。

OpenAIは5月7日のGPT-Realtime-2発表ブログの中で、ユーザーが「対話的、同期的、ハンズオンキーボード」の方法でモデルを使用する場合、モデルの優位性は明らかではなく、自律的なエージェントシステムの方がより能力を発揮できると認めている。

これは、現在のAIインタラクションにおいて、人間がループから外されていることを露呈している。それは人間が役に立たないからではなく、パイプが狭すぎて人間の暗黙知を送り込めないからだ。

「より速く」はパイプの効率を最適化するに過ぎない。「共在」は全く新しい情報チャネルを切り開く。このチャネルを流れるのは、能動的にエンコードして送信することができず、同じ時空の中でしか知覚できない情報なのだ。

これこそが、Thinking Machinesの道筋が現在の主流AI企業と袂を分かつ理由でもある。

OpenAI、Anthropic、Googleがモデルを「バックグラウンド非同期実行」のエージェントパラダイムへと押し進める中、Thinking Machinesは逆の方向へ進んだ。人間をループから外してタスクをAIに委ねるのではなく、AIを人間のループの中に入れ、継続的にその場に存在させるのだ。

もちろん、Thinking Machinesのシステムは完璧ではない。276B MoEモデルのコストは誰もが負担できるものではない。200msマイクロターンは、推論インフラに対する要求が現在の主流ソリューションをはるかに超える。ゼロからの共同訓練は、再利用可能な既成の事前訓練済みエンコーダーがないことを意味する。

しかし、もしこの主張が正しいとすれば、継続的な同在はインタラクション体験のアップグレードだけでなく、AIの知能の境界を拡張するものとなる。

AIが人間の完全なループに入り込んだ後、それは初めて「真のワークフロー」を手に入れることができるかもしれない。

OpenAI元CTOが「常在型」AIのプロトタイプを発表｜Hao好聊論文

関連記事

分享網址