如何評價 Thinking Machines 最新發布的 Interaction Model？

不能小看 TML 這間公司，他們去年發表的 On-Policy Distillation 目前基本上已經成為新的業界共識了。DeepSeek v4 …

不能小看 TML 這間公司，他們去年提出的 On-Policy Distillation 現在基本上已經成為新的業界共識了。DeepSeek v4 就採用了 OPD：Deepseek v4 導讀資料精選。

這個剛發布的 Interaction Model 也很值得一說，它有可能開啟了 AI 模型的一個新典範。

首先，這個模型最大的革新是「串流式互動」。我們習慣的大語言模型，無論是基於文本的，還是語音端到端的模型，都是「回合制」（Turn-Based）的，我們發出請求，模型回覆。文本自不必說，語音的端到端模型，一般會依賴一個語音活動檢測（VAD）模型來檢測使用者是否停止說話，來切分回合。

而 TML 這個新模型，是串流（Streaming）的，使用者的 Token 源源不斷流向模型，模型的 Token 也不斷流回來：

一般 LLM 的互動模式像是傳統的 HTTP，一個 Request 對應一個 Response；而這個 Interaction Model 就像是 WebSocket，雙向的數據流都是連續不斷的。

這樣的好處是，模型可以對互動中發生的情況做出即時的反應。比如，TML 共同創辦人翁荔展示了這個模型即時地數故事中動物的數量：

若影片無法播放，請改看來源頁。

可以想像類似的應用場景還有很多，比如：

「請在我說話的時候完成同步口譯」
「即時解說一場體育比賽」
「在我說錯的時候及時打斷我」

實現「串流式互動」的方式，並不是完全消滅了回合，而是把回合的粒度切得非常細，每個 Micro-Turn 只有 200ms 的數據：

但是，這種超頻繁的 Micro-turn 需要每個回合都涉及一個 Prefill 階段，而且對延遲有很高的要求。TML 設計了一個「串流會話」（streaming session），客戶端將每個 200 毫秒的數據塊作為單獨的請求發送，而推論伺服器則將這些數據塊追加到 GPU 記憶體中的一個持久序列中，這可以避免頻繁地操作顯存。

至少從部落格的風格來看，感覺更像是在強調工程上的組合，而不是特定演算法的優越性。具體包括但不限於以下幾點：

實現動態喚醒詞，也就是類似於 Siri 或 Alexa 喚醒功能的推理版本。
達到 Omni 層級的意圖辨識。
設置前端模型（front model）與後端模型（back model）的分離，實現背景推理會話（background reasoning session），包括後台思考、後台計時等功能。
透過 200 毫秒的資料塊，將使用者與模型的雙向串流互動轉化為標準的 Transformer 序列輸入。
藉由在固定的 GPU 記憶體中進行佇列等待，實現高效推論（2760 億參數，活躍參數 120 億，啟動比例 4.3%，與最大號的 Qwen3.5 屬於同一水準）。最終在 FD-bench 上的延遲降至 0.4 秒，與之前的結果相比，在實用性上跨出了非常大的一步。

這說明了在 Thinking Machines 看來，這些工程實作遠比單純的模型分數更具備核心競爭力。

以現有的語音全雙工模型來看，為了即時性，往往在智慧程度上做了些許讓步。例如，網路上有人用各種問題測試 ChatGPT 語音模型的智商，結果發現語音模型會犯下一些純文字模型不太會出現的低級錯誤。TM 這次提出的雙模型架構，很可能就是為了解決這個問題，讓前端模型負責快速回應，後端模型則專注於處理複雜的智慧任務。

另外一個讓我非常好奇的點是，TM 將會如何把這個模型打造成實際的產品？是把這個 Interaction Model 包裝成電影《雲端情人》裡 Samantha 那樣的個人 AI 伴侶？還是鎖定企業端，提供語音 AI Agent 的服務呢？相信答案很快就會揭曉。

如何評價 Thinking Machines 最新發布的 Interaction Model？

相關文章推薦

分享網址