OpenAI 前技術長，帶來了永遠「在場」AI 的原型｜Hao 好聊論文

騰訊前沿科技論文解讀專欄，在程式碼與商業的交會處，尋找AI的確定性。

文｜博陽

編輯｜徐青陽

5月11日，Thinking Machines 發表了一個新模型——Interaction Model（互動模型）。這家由 OpenAI 前技術長 Murati 創立的 AI 實驗室，先前提出了深刻影響 DeepSeek V4 的 OPD 蒸餾範式。這次，他們聲稱這款新發表的模型代表了下一代人機互動的模式。

他們的論證起點是傳播學。

1991年，Herbert Clark 和 Susan Brennan 在經典論文《Grounding in Communication》中提出了人類有效交流的三個基礎條件。Thinking Machines 把這三個條件拿過來，當作診斷框架，逐條檢查當前 AI 互動系統的狀態。

共在性（Copresence），即雙方共享同一個感知場。你看到的、聽到的、正在經歷的環境，對方也能感知到。

共時性（Contemporality），即接收幾乎與發送同步。你說話的同時，對方就在處理你說的內容，不存在一個「等你說完再開始理解」的斷層。

併發性（Simultaneity），即雙方可以同時發送和接收資訊。你在說話的時候，對方可以同時給出微表情、點頭、插話等即時回饋。

這三個條件在面對面談話中天然滿足。你和朋友在咖啡廳聊天時，你們共享同一個物理空間（共在性），你一開口對方就在聽和理解（共時性），對方會在你說話的同時皺眉或點頭表示「跟上了」或「不太同意」（併發性）。

Thinking Machines 的診斷結論是，當前 AI 系統的前兩條完全不滿足，第三條在最近的全雙工語音模型中有了部分進展，但仍不完整。

AI 從未真正「在場」

Thinking Machines 認為，當前 AI 最不符合在場定義的是，對話系統全部建立在輪次（turn）的概念上。

用戶說完一段話，模型處理，模型輸出回覆。一個 turn 結束，下一個 turn 開始。這個結構在根本層面上切斷了共在。

它一沒有共在性。AI 只在你主動輸入時才感知你。你不說話的時候，你的世界對它不存在。你皺了眉頭、走到了窗邊、螢幕上彈出了一條壞消息，它完全不知道。它的感知場僅限於你用鍵盤或麥克風「主動推送」給它的那一條窄管道。

二缺乏共時性。模型必須等你「說完」才開始處理。語音活動檢測（VAD，Voice Activity Detection）需要檢測到一段足夠長的沉默才判定你的 turn 結束。在這個「等你說完」的斷層裡，模型對你正在說的內容沒有任何即時理解。

Thinking Machines 在部落格文章裡用了一個類比。試想你和同事在討論一個關鍵分歧，但只能透過電子郵件溝通。你寫完發出去，等回覆。對方寫完發出來，等你的下一封。沒有人覺得這種方式適合解決複雜協作問題。

但這就是當前所有 AI 系統的互動模式。

而第三個必要條件併發性是三條中最近兩年進展最快的。即時語音 AI 已經在嘗試讓系統同時收發。OpenAI 5月7日發表了 GPT-Realtime-2，字節跳動的 Seeduplex 全量上了豆包。但細看架構會發現，每家對併發的實現深度不同。

而且它們都只解決了併發性這一條，前兩條紋絲未動。

通訊層全雙工，但模型層仍在等你說完

GPT-Realtime-2 是 OpenAI 在 Thinking Machines 發表前4天推出的語音模型，也是他們目前最強的即時互動方案。先看它做了什麼。

它有 GPT-5 級推理能力、128K 上下文視窗，最重要的是並行工具調用能力的提升，讓你能用語音控制系統，調用工具。因此它在 Big Bench Audio 上比前代高 15.2%，作為語音模型本身很強。

但這裡我們只關心一個問題，它在三條件上走到了哪裡。

先看架構。OpenAI Realtime API 的底層是 WebSocket，一個全雙工通訊協定。你的音訊流持續發送到伺服器，AI 的音訊流持續迴轉給你，兩個方向同時開放。所以併發性在通訊層面是解決了的，你可以在 AI 說話時開口，AI 也能在你說話時繼續輸出。通道是雙向的，沒有「一方必須等另一方說完才能開口」的限制。

問題出在通道背後的模型。

WebSocket 雖然持續接收你的音訊，但模型並不「一直在聽」。伺服器端有一個 VAD（語音活動檢測）模組夾在你和模型之間，充當門衛。VAD 的工作是判斷「用戶說完了沒有」。只有當它檢測到一段足夠長的沉默，判定你的 turn 結束了，模型才被喚醒開始處理你剛才說的內容。

打個比方。通道像一條雙向公路，隨時可以兩邊同時走車。但模型像公路盡頭的收費站，它不是看到車來就開閘，而是等所有車都到齊（你說完了），才一次性放行處理。

打斷怎麼辦？如果你在 AI 說話時開口，VAD 檢測到新的聲音活動，系統取消 AI 當前的輸出，然後等你說完，再觸發新一輪生成。

注意這個過程，打斷是 VAD 觸發的，不是模型自己意識到你開口了。模型被外部通知「停下來」，然後等新一輪輸入攢夠了再啟動。

有了底層的併發性基礎，但並沒有解決 turn base 的老問題，共時性完全無法解決。

模型層全雙工，但依然不知道你長什麼樣

字節跳動在2025年4月推出的 Seeduplex 比 OpenAI 多走了一步。它是在模型層面實現全雙工的語音大模型。

GPT-Realtime-2 的併發性靠的是通訊層，WebSocket 允許雙向同時傳輸，但模型本身仍然是「等你說完再想」。Seeduplex 把併發性推進了模型內部。

它的三流架構（聽流、說流、控制流）加上 R-PEC（相對位置編碼），讓模型真正做到了同時處理輸入和輸出，聽流持續解析你正在說的話，說流同時生成回應，控制流在兩者之間做即時仲裁。

結果是誤打斷率比半雙工模型減少 50%，搶話比例下降 40%。

這在併發性上是實打實的進步。GPT-Realtime-2 的打斷機制是「取消再重來」，AI 被叫停，等你說完，重新生成一輪。Seeduplex 的打斷是連續的，AI 說話的同時在聽你說，如果判斷你要插話，它平滑地讓出來，不需要「取消-等待-重啟」這個斷裂過程。從對講機升級成了電話。

但共在性和共時性呢？和 GPT Realtime 一樣，紋絲未動。

兩者都是純語音模型，沒有視覺輸入。你不說話時，你對它依然不存在。R-PEC 是相對時序編碼，它知道聽流中的某個 token 在說流的某個 token「之前」或「之後」，但它沒有一個絕對時鐘把每個位置錨定到現實世界的某一時刻。

它知道先後順序，但不擁有連續的存在感。當沒有語音活動的時候，三條流沒有東西可以處理，模型處於空轉狀態。

因此打個比方。OpenAI Realtime-2 是一部能打斷的對講機。你按按鈕它就停下來聽你說。Seeduplex 是一部真正的電話，兩個人可以同時說話而不混亂。

但 Thinking Machines 想做的是面對面。

面對面意味著即使沒人說話，兩個人也共享同一個空間、同一段時間、同一份沉默。

把互動性焊進模型

對講機和電話都只解決了三條中的一條。Thinking Machines 要三條全補。怎麼做？

先從第一條，共在性來講起。

共在性，讓 AI 接觸你正在接觸的全部模態

AI 需要和你的感知頻寬等寬。你能看到的它也要能看到，你能聽到的它也要能聽到。

所以他們訓練了一個多模態的模型。但為了共時性的滿足，他們並沒有選擇當下主流的給語音模型加上編碼器鷹架，來實現多模態功能的路，而是重新訓練了一個統一的模型。

共時性，要求不同模態之間的處理要是統一時間的。如果系統需要在時間的精準度上對齊多條模態流，視訊幀、音訊片段、文本 token 同時錨定到同一個表徵空間，任何外掛元件的延遲抖動都會破壞對齊。

比如視覺走一個獨立編碼器（比如 ViT），音訊走另一個（比如 Whisper），文本走第三個，三個編碼器各有不同的處理延遲，視覺可能需要 80ms，音訊 40ms，文本幾乎即時。

這些延遲差看起來很小，但會在後續環節產生致命影響。

這就是 Thinking Machine 在技術文件裡強調「interactivity must be part of the model itself（互動性必須是模型本身的一部分），而不是透過外部鷹架拼裝」的原因。

把所有需要時間精準度的功能內化到模型，從零聯合訓練。這不是審美偏好，而是工程必然。

具體做法是，音訊輸入用輕量的 dMel（mel 頻譜）嵌入層做最小預處理，視訊輸入把圖像切成 40×40 的 patch 後用 hMLP（階層化 MLP）編碼，文本用標準嵌入。所有組件和主 Transformer 用 Encoder-free Early Fusion（無編碼器早期融合）從零聯合訓練。

結果是所有模態從輸入到進入 Transformer 的路徑被壓到最短、延遲被壓到最均勻。

在這裡，統一名稱不是獨立的創新點，而是使能條件，它確保模態不互相拖慢，為下一步的時間錨定提供精準度基礎。

當然，在這之外，他們選擇從頭訓練模型的另一個理由是，Thinking Machine 認為互動能力本身就是會隨著模型能力增長的，但鷹架不行。

只有做一個統一模型來享受這一增長，互動才能 Scale Up 起來。

共時性，給模型一個連續的內部時鐘

共時性，是這個架構中最核心的點。

模型需要一個連續的內部時鐘，而不是被事件喚醒，它才可能一直「在場」。

當前的語言模型在時間維度上是被動的。它的時間觀是事件驅動的（event-driven）。有事才醒，沒事就睡。

Thinking Machines 把這個範式翻轉了。他們的 Interaction Model 運行在 200ms 的 micro-turn（微輪次）上。每 200ms，模型處理一組輸入 token，生成一組輸出 token。無論你是否在說話，無論是否有「事件」發生，這個 200ms 的心跳永不停止。

為什麼是 200ms？因為這是人類對話中最小的有意義回饋間隔。對話分析研究表明，200ms 大約是人產生一個 backchannel 回饋（「嗯」「對」「然後呢」）的最短時間。低於這個間隔，回饋顯得不自然；高於這個間隔，對方感覺你「沒在聽」。

每個 200ms micro-turn 裡，模型先讀入所有輸入 token（來自各個模態），然後生成應該輸出的 token。輸入和輸出交錯排列成連續序列。

沉默不是空白。如果某個 200ms 你什麼都沒說，模型依然處理這段沉默（音訊流中是靜默的 mel 特徵，視訊流中是你當前的畫面）。沉默、重疊、打斷，全部保留在上下文中。

這帶來了之前不可能實現的能力。

TimeSpeak 測試「用戶說在第 30 秒時提醒我」，Interaction Model 的宏準確率 64.7%，GPT-4o realtime 只有 4.3%。CueSpeak 測試「當你看到我舉手時說出答案」，Interaction Model 81.7%，GPT-4o realtime 2.9%。差距是數量級的，因為 GPT-4o realtime 根本沒有內部時鐘，它不知道「第 30 秒」在哪裡。

為了讓 200ms 心跳在工程層面跑起來，Thinking Machines 做了兩件事。

Trainer-sampler alignment（訓練-取樣對齊）。這個架構要求訓練時的時間解析度必須和推理時完全一致。如果訓練時模型看到的是不定長的 chunk（內容塊），但推理時必須嚴格每 200ms 輸出一次，模型學到的時間感會走形。為此，他們實現了訓練和推理之間的逐比特對齊（bitwise alignment）以解決這個問題。額外開銷不到 5%。

Streaming Sessions（流式會話）。傳統 LLM 推理框架為每個請求分配記憶體、做 prefill（預填充）。200ms 一個 chunk（內容塊）意味著每秒 5 次小預填充，傳統框架的讀取開銷會被放大到不可接受。所以他們重新設計了推理架構。客戶端每 200ms 發送一個 chunk（內容塊），推理伺服器把 chunk（內容塊）追加到 GPU 記憶體中的持久序列上，避免重複分配。這樣記憶體讀取的成本被壓縮到更低，讓它能真正跑起來。

併發性，讓輸入和輸出真正並行

併發性，要求系統必須能同時接收和發送。

標準的自迴歸 Transformer 每次只做一件事，要麼讀入 prompt（prefill），要麼逐 token 生成回覆（decode）。decode 階段不接受新輸入。結果就是，如果 AI 在說話，它就沒在聽你說話。兩者在時間上互斥。

Thinking Machine 把時間切成 200ms 的離散塊後，每個塊內部的執行順序是「先讀後寫」，模型先處理這 200ms 積累的所有輸入 token（你說了什麼、表情變了什麼），然後生成這 200ms 應輸出的 token。

從模型內部看，輸入和輸出仍是序列化的，和傳統模型一致。

但從人的感知尺度看，200ms 短到你感知不到這個「先讀後寫」的間隔。你覺得 AI 在你說話的同時就在回應。因為從你開口到 AI 回應最多只隔 200ms，而人在對話場景下的時間解析度約 200-300ms，所以你根本感覺不到中間有延遲。

這不是物理層的真並行，而是在人類感知閾值以下的快速交替，效果等同於併發。

這和 Seeduplex 的雙工架構不同。Seeduplex 的三流架構是在模型內部做真正的並行處理，聽流和說流同時運行。Thinking Machines 是把時間切到足夠細，讓序列執行在體驗層面等價於並行。

後者有一個額外好處，因為每個 micro-turn 裡模型是先讀完所有輸入再生成輸出的，它對「此刻的全局狀態」有完整感知。而 Seeduplex 的並行聽說流之間需要一個額外的控制流來仲裁衝突。micro-turn 結構天然避免了這個問題，因為每個時間塊只有一個決策點。

但併發性帶來一個工程張力。如果模型需要每 200ms 都產生意義的輸出來維持在場感，它就不能花太多時間去「想」。你不能讓一個人一邊時刻保持眼神接觸、一邊解微積分。保持存在感和深度思考對計算資源的需求天然衝突。

所以 Thinking Machines 選擇了雙模型架構。

Interaction Model（TML-Interaction-Small）是一個 276B 參數的 MoE（混合專家）模型，每次推理只啟動 12B 參數。它的職責是保心跳，每 200ms 回應，維持多模態連續雙向流，處理對話管理和即時回覆。它在標準 benchmark 上接近 GPT-4o 水準，但不做需要長時間思考的深度推理。

Background Model（後台模型）負責深度工作。當 Interaction Model 判斷「這個問題需要查資料或推理」時，把任務非同步交給後台模型。後台模型產出流式回傳，Interaction Model 在合適的間隙把結果自然織入對話中。兩個模型共享完整的對話上下文。

在 Interaction Model 裡，心跳是剛性的（每 200ms 必須回應），思考是彈性的（可以用 2 秒也可以用 20 秒）。拆開最佳化，比讓一個模型同時滿足兩者高效得多。

在這雙重架構的加持下，Interaction Model 取得了更高的對話品質。在 FD-bench V1.5 的對話品質評分上，Interaction Model 得分 77.8，GPT-4o realtime 46.8，GPT-4 48.3，Gemini 3 54.3。

為什麼「共在」是下一代的互動？

技術架構講完了，現在聊聊理念。

除了傳播學規定的「好的溝通」之外，「共在」還能帶來什麼，能讓 Thinking Machine 覺得這就是下一代的互動。

首先是「共在」本身的時序性，主動性前景。

一個一直在場的 AI 體驗會更好，因為它能記得我們之前說的事兒，能夠隨時回應，能夠 7*24 小時的從我們這裡蒐集資訊，並回應。

這些東西的重要性，在 OpenClaw 的爆紅中已經完全得以證明。它就是透過心跳製造了時序和主動，透過記憶獲得了自我進化和運行時積累的基礎。

而它蒐集讓它主動資訊的渠道，仍然很窄，需要你去 turn base 的激發。配上這個更寬幅的、更有時序鉚釘的互動系統，其便捷程度和能力象限也肯定會大幅提升。

但除此之外，還有什麼決定了它是下一代互動呢？

Thinking Machine 自己對此也有思考，它在引文中引用了兩位哲學家的著作。

Friedrich Hayek 在 1945 年的《知識在社會中的應用》裡指出，社會中最重要的知識不是可以寫成教科書的顯性知識，而是分散在每個個體手中的、關於特定時間和地點之具體情境的知識。這種知識是隱性的（tacit），無法被中央計劃者收集和匯總。

James Scott 在《國家的視角》裡把這個概念發展為 mētis（實踐智慧），這是一種只能透過親身在場、長期浸泡才能獲得的知識。老農對自己那塊地的理解，醫師走進病房時從患者表情中讀到的資訊。

這些知識無法被編碼成文本，只能在共在的情境中被觀察和吸收。

映射到人機互動上。當前的模式要求人把需求編碼成語言後「推送」給 AI，把模糊的意圖、複雜的情境壓縮成一段文字，發出去，等回應。

但人對自己需求的理解本身就是不完整的。你皺眉看著螢幕上的程式碼，知道「這裡有什麼不對」，但說不清到底哪裡不對。你和同事討論時的猶豫、停頓、盯著白板某個角落搖頭，這些都是資訊。

一個共在的 AI 能捕捉這些資訊。不是因為它能讀心，而是因為它持續存在於你的感知場中。它不需要你「說出來」才能感知你的狀態。它從你的沉默、視線和表情變化中獲取 Hayek 所說的那種情境性知識。

OpenAI 在 5月7日發表 GPT-Realtime-2 的部落格文章中坦承，當用戶以「互動式、同步、hands-on-keyboard」的方式使用模型時，模型的優勢不明顯，自主的 agent 系統才能更好發揮能力。

這暴露了當下的 AI 互動中，人被退出迴圈，不是因為人沒用，而是因為管道太窄了，人的隱性知識塞不進去。

「更快」只是最佳化管道效率。「共在」開闢的是一個全新的資訊通道。這個通道裡流動的是無法被主動編碼和發送、只能在同一時空中被感知到的資訊。

這也是為什麼 Thinking Machines 的路徑和當前主流 AI 公司分道揚鑣。

當 OpenAI、Anthropic、Google 都在把模型推向「後台非同步執行」的 agent 範式時，Thinking Machines 走了相反的方向，不是讓人退出迴圈把任務交給 AI，而是讓 AI 進入人的迴圈，持續在場。

當然，Thinking Machines 的系統不完美。276B MoE 模型的成本不是每個人都能負擔的。200ms micro-turn 對推理基礎設施的要求遠超當前主流方案。一切從零訓練意味著沒有現成的預訓練編碼器可複用。

但如果這一論斷確實成立的話，持續在場就不光是互動體驗的升級，而是 AI 智慧邊界的擴充。

在 AI 進入人的完整迴圈後，它也許第一次能獲得「真正的工作流」。

OpenAI 前技術長，帶來了永遠「在場」AI 的原型｜Hao 好聊論文

相關文章推薦

分享網址