OpenAI前CTO王者歸來宣布AI不再需要對話框

鉅亨網新聞中心2026年5月13號10點40分

0.4 秒能做什麼？眨一次眼大約需要 0.3 秒，而 Thinking Machines Labs 最新發布的 Interaction Model，把 AI 響應延遲壓到了 0.4 秒，比 OpenAI 的 GPT-realtime-2.0 快了將近三倍。

如果你以為 Interaction Model 只是一個「速度更快」的語音助手，那就完全搞錯了。真正的突破藏在互動方式裡：之前的 AI 模型，包括 GPT-4o 在內，都是「輪流對話」。使用者說話時 AI 聽不到別的，AI 說話時也不接收新訊息。一來一回，像發微信。

Thinking Machines 做的，就是把這種模式徹底翻了過來。它的模型可以邊聽邊說邊看，你講話時它能「嗯嗯」回應，你程式碼寫錯了它能直接插話，你影片裡做了個動作它能即時分析。

這不是 GPT-4o 的升級，這是對 GPT-4o 所在範式的降維打擊。而做這件事的人，正是當年在 OpenAI 主導 GPT-4o 路線的技術長 Mira Murati。

5 月 11 日，前 OpenAI CTO Mira Murati 創辦的 Thinking Machines Labs 放出了一段 demo 和一篇技術部落格文章，立刻點燃了整個 AI 社群。

swyx 的評價格外直白：「徹底碾壓了 GDM 和 OpenAI。」Nathan Lambert 稱之為「真正與眾不同的 demo」。

在技術架構上，Thinking Machines 放棄了標準的「輪流對話」模式，採用全雙工架構──同時處理輸入和輸出，模型可以一邊聽一邊說一邊看。具體來說，系統每 200 毫秒處理一次輸入輸出片段，所有感知和生成都在同一個 Transformer 內部完成，不需要專門的語音編碼器（如 Whisper）做預處理。

雙模型系統也很有趣：一個「前台」Interaction Model（276B 參數 MoE，12B 活躍參數）專門處理即時對話、上下文管理和即時回應；一個「後台」Background Model 異步處理持續推理、聯網搜尋和複雜工具調用，結果再串流回傳給前台。

基準測試提供了更硬核的證明──TML-Interaction-Small 在互動品質（FD-bench）上達到 77.8，幾乎是 GPT-realtime-2.0（46.8）的兩倍。延遲 0.40 秒對 1.18 秒，快了近三倍。而且在視覺互動測驗中，競爭對手面對影片提問「沉默了」或「回答錯誤」，Thinking Machines 的模型卻能準確回應。

要理解這個模型為什麼重要，得先理解對話框為什麼有問題。從 ChatGPT 到 GPT-4o，人機互動的核心模式一直沒有改變：使用者輸入→AI 等待→AI 回覆。使用者打字時 AI「眼盲耳聾」，AI 說話時使用者只能等它說完。Thinking Machines 在部落格裡用了一個絕妙的類比：「就像試圖透過電子郵件而不是當面解決關鍵分歧。」

對話本來應該是流暢的、雙向的、即時的。對話框把人類強行塞進了一個「發訊息等回應」的框架裡。

Interaction Model 要打破的，就是這個框架。它帶來的幾個新能力，每一個都在重新定義「什麼叫和 AI 對話」：同時聽說。你講話時 AI 能發出「嗯」「我看看」等回應──這在人類對話中叫 backchanneling，是「我在聽」的訊號。之前的 AI 做不到，因為它要等你講完才開始處理。

主動打斷。AI 看到你程式碼裡有 Bug，可以直接插話提醒。這在「輪流對話」模式裡是不可能的──AI 在生成回應時根本不接受外界輸入。

原生時間感知。普通 LLM 沒有「時鐘」概念──它們只能透過文字提示詞知道時間。Interaction Model 天然知道時間流逝，「每 4 分鐘提醒我檢查溫度」這種需求不需要額外程式設計。

視覺即時互動。AI 可以邊看使用者動作邊回應──你做深蹲它幫你數數，你寫程式它幫你盯著錯誤。

這些能力組合在一起，指向一個結論：對話框是 AI 的第一代 UI。Interaction Model 是第二代。它們的差別，就像命令列和圖形介面，像鍵盤手機和觸控手機。

2024 年 9 月，Mira Murati 宣布離開 OpenAI，隨後創立了 Thinking Machines Labs。與其他 AI 新創公司不同，Thinking Machines Labs 更像一次「OpenAI 分裂」。

公司創始團隊約 30 人，約三分之二來自 OpenAI，涵蓋了從 ChatGPT 創始團隊到 GPT-4o 核心開發者的完整班底。

當時外界對 Mira Murati 離職的猜測很多，但真正的原因其實藏在 OpenAI 的路線之爭中。

在 OpenAI 擔任 CTO 期間，Murati 一直推動的方向是「全模態即時互動」──這也是 GPT-4o 發布時的核心理念：一個能看、能聽、能說、能即時回應的 AI。

但 OpenAI 內部還有另一條路線在崛起，以後來主導 o1 系列的團隊為代表──「思維鏈、大規模推理、慢思考」。不是追求即時，而是追求「想得更久、想得更深」。

兩條路線的衝突在 2024 年達到頂點。上半年為了狙擊 Google 的 Google I/O 大會，Mira Murati 帶領團隊以極快速度推出了 GPT-4o。到了下半年，面對 Claude 3.5 Sonnet 在程式碼和邏輯上的壓制，Sam Altman 和管理階層又對 o1 團隊施加了極大的壓力，要求盡快將「Strawberry」專案產品化。

雖然 Murati 主導了 GPT-4o 的「看聽講」全能，但 9 月發布的 o1-preview 和 o1-mini 卻完全是「退化」的形態，它們不支援語音、不支援多模態，甚至不支援網路搜尋。

這種明顯的割裂說明，OpenAI 內部無法在短期內將「全模態即時互動」與「慢思考思維鏈」融合到一個統一架構中，兩條路線最終只能各自為戰、分道揚鑣。

因此，在 o1 模型剛發布不到兩週後，Murati 毫無預警地宣布辭任 CTO。有海外媒體統計，2024 年國外科技公司離職 CTO 的平均任期為 3.9 年，但 Mira 在 OpenAI 工作了 6.3 年。

出走的不只她一個人。她帶走了一群原 OpenAI 的核心研究人員。公司很快就拿到了 a16z 領投的約 20 億美元融資，估值 120 億美元。

但創業遠比想像中艱難。核心員工大量流失──7 人以上跳槽 Meta，也有人回流 OpenAI。唯一的好消息是 2025 年下半年，PyTorch 創始人 Soumith Chintala 加入擔任 CTO，為團隊注入了頂級的技術底盤。

如今 Thinking Machines 只有約 130 人。Interaction Model 的發布，是 Murati 出走一年多來拿出的最有力回擊──她證明了自己在 OpenAI 時堅持的方向，確實能走通，而且能走得更遠。

重新定義人機互動

Thinking Machines 在技術部落格裡寫了一句意味深長的話：「透過讓互動成為模型的原生能力，模型的規模成長將同時帶來更智慧和更有效的協作。」

翻譯成人話就是：以前的 AI，越大越聰明，但互動方式還是那個對話框；Thinking Machines 要讓 AI 越大越聰明的同時，也越「好聊」。

這是對整個 AI 產業趨勢的判斷──未來競爭的焦點不在模型規模本身，而在「互動深度」。

如果這個判斷是對的，那麼最快在未來三年裡，以下幾個產業將被重新定義：即時監控。AI 能 24 小時全天候盯著影像串流，看到安全違規時立刻插話提醒，而不是等巡檢人員發現異常再上報。

語音客服。0.4 秒延遲意味著客戶幾乎感受不到對面是 AI──聲音延遲已降到人耳感知閾值以下。

工業維護。AI 能在工程師拆設備時即時指導、即時警告、即時查閱手冊。

醫藥研發。原生時間感知讓 AI 能追蹤實驗進程、提醒關鍵時間節點、在異常發生時立即介入。

2 千億參數、12 億活躍、0.4 秒延遲──這些數字固然令人印象深刻。但 Thinking Machines 真正押注的是：當對話框被拆掉的那一天，人機互動將被重新定義。而她所選擇的路徑，最終會被證明是正確的那一條。

OpenAI前CTO王者歸來 宣布AI不再需要對話框

OpenAI前CTO王者歸來宣布AI不再需要對話框