如何評價 Thinking Machines 最新發布的 Interaction Model?

不能小看 TML 這間公司,他們去年發表的 On-Policy Distillation 目前基本上已經成為新的業界共識了。DeepSeek v4 …

不能小看 TML 這間公司,他們去年提出的 On-Policy Distillation 現在基本上已經成為新的業界共識了。DeepSeek v4 就採用了 OPD:Deepseek v4 導讀資料精選

這個剛發布的 Interaction Model 也很值得一說,它有可能開啟了 AI 模型的一個新典範。

首先,這個模型最大的革新是「串流式互動」。我們習慣的大語言模型,無論是基於文本的,還是語音端到端的模型,都是「回合制」(Turn-Based)的,我們發出請求,模型回覆。文本自不必說,語音的端到端模型,一般會依賴一個語音活動檢測(VAD)模型來檢測使用者是否停止說話,來切分回合。

回合制與串流式互動對比圖

而 TML 這個新模型,是串流(Streaming)的,使用者的 Token 源源不斷流向模型,模型的 Token 也不斷流回來:

模型串流互動示意動圖封面

一般 LLM 的互動模式像是傳統的 HTTP,一個 Request 對應一個 Response;而這個 Interaction Model 就像是 WebSocket,雙向的數據流都是連續不斷的。

這樣的好處是,模型可以對互動中發生的情況做出即時的反應。比如,TML 共同創辦人翁荔展示了這個模型即時地數故事中動物的數量:

若影片無法播放,請改看 來源頁

可以想像類似的應用場景還有很多,比如:

  • 「請在我說話的時候完成同步口譯」
  • 「即時解說一場體育比賽」
  • 「在我說錯的時候及時打斷我」

實現「串流式互動」的方式,並不是完全消滅了回合,而是把回合的粒度切得非常細,每個 Micro-Turn 只有 200ms 的數據:

200ms 微回合架構圖

但是,這種超頻繁的 Micro-turn 需要每個回合都涉及一個 Prefill 階段,而且對延遲有很高的要求。TML 設計了一個「串流會話」(streaming session),客戶端將每個 200 毫秒的數據塊作為單獨的請求發送,而推論伺服器則將這些數據塊追加到 GPU 記憶體中的一個持久序列中,這可以避免頻繁地操作顯存。

至少從部落格的風格來看,感覺更像是在強調工程上的組合,而不是特定演算法的優越性。具體包括但不限於以下幾點:

  1. 實現動態喚醒詞,也就是類似於 Siri 或 Alexa 喚醒功能的推理版本。
  2. 達到 Omni 層級的意圖辨識。
  3. 設置前端模型(front model)與後端模型(back model)的分離,實現背景推理會話(background reasoning session),包括後台思考、後台計時等功能。
  4. 透過 200 毫秒的資料塊,將使用者與模型的雙向串流互動轉化為標準的 Transformer 序列輸入。
  5. 藉由在固定的 GPU 記憶體中進行佇列等待,實現高效推論(2760 億參數,活躍參數 120 億,啟動比例 4.3%,與最大號的 Qwen3.5 屬於同一水準)。最終在 FD-bench 上的延遲降至 0.4 秒,與之前的結果相比,在實用性上跨出了非常大的一步。

這說明了在 Thinking Machines 看來,這些工程實作遠比單純的模型分數更具備核心競爭力。

以現有的語音全雙工模型來看,為了即時性,往往在智慧程度上做了些許讓步。例如,網路上有人用各種問題測試 ChatGPT 語音模型的智商,結果發現語音模型會犯下一些純文字模型不太會出現的低級錯誤。TM 這次提出的雙模型架構,很可能就是為了解決這個問題,讓前端模型負責快速回應,後端模型則專注於處理複雜的智慧任務。

另外一個讓我非常好奇的點是,TM 將會如何把這個模型打造成實際的產品?是把這個 Interaction Model 包裝成電影《雲端情人》裡 Samantha 那樣的個人 AI 伴侶?還是鎖定企業端,提供語音 AI Agent 的服務呢?相信答案很快就會揭曉。

相關文章推薦

分享網址
AINews·AI 新聞聚合平台
© 2026 AINews. All rights reserved.