OpenAI前CTO王者歸來 宣布AI不再需要對話框
0.4 秒能做什麼?眨一次眼大約需要 0.3 秒,而 Thinking Machines Labs 最新發布的 Interaction Model,把 AI 響應延遲壓到了 0.4 秒,比 OpenAI 的 GPT-realtime-2.0 快了將近三倍。
如果你以為 Interaction Model 只是一個「速度更快」的語音助手,那就完全搞錯了。真正的突破藏在互動方式裡:之前的 AI 模型,包括 GPT-4o 在內,都是「輪流對話」。使用者說話時 AI 聽不到別的,AI 說話時也不接收新訊息。一來一回,像發微信。
Thinking Machines 做的,就是把這種模式徹底翻了過來。它的模型可以邊聽邊說邊看,你講話時它能「嗯嗯」回應,你程式碼寫錯了它能直接插話,你影片裡做了個動作它能即時分析。
這不是 GPT-4o 的升級,這是對 GPT-4o 所在範式的降維打擊。而做這件事的人,正是當年在 OpenAI 主導 GPT-4o 路線的技術長 Mira Murati。
5 月 11 日,前 OpenAI CTO Mira Murati 創辦的 Thinking Machines Labs 放出了一段 demo 和一篇技術部落格文章,立刻點燃了整個 AI 社群。
swyx 的評價格外直白:「徹底碾壓了 GDM 和 OpenAI。」Nathan Lambert 稱之為「真正與眾不同的 demo」。
在技術架構上,Thinking Machines 放棄了標準的「輪流對話」模式,採用全雙工架構──同時處理輸入和輸出,模型可以一邊聽一邊說一邊看。具體來說,系統每 200 毫秒處理一次輸入輸出片段,所有感知和生成都在同一個 Transformer 內部完成,不需要專門的語音編碼器(如 Whisper)做預處理。
雙模型系統也很有趣:一個「前台」Interaction Model(276B 參數 MoE,12B 活躍參數)專門處理即時對話、上下文管理和即時回應;一個「後台」Background Model 異步處理持續推理、聯網搜尋和複雜工具調用,結果再串流回傳給前台。
基準測試提供了更硬核的證明──TML-Interaction-Small 在互動品質(FD-bench)上達到 77.8,幾乎是 GPT-realtime-2.0(46.8)的兩倍。延遲 0.40 秒對 1.18 秒,快了近三倍。而且在視覺互動測驗中,競爭對手面對影片提問「沉默了」或「回答錯誤」,Thinking Machines 的模型卻能準確回應。
要理解這個模型為什麼重要,得先理解對話框為什麼有問題。從 ChatGPT 到 GPT-4o,人機互動的核心模式一直沒有改變:使用者輸入→AI 等待→AI 回覆。使用者打字時 AI「眼盲耳聾」,AI 說話時使用者只能等它說完。Thinking Machines 在部落格裡用了一個絕妙的類比:「就像試圖透過電子郵件而不是當面解決關鍵分歧。」
對話本來應該是流暢的、雙向的、即時的。對話框把人類強行塞進了一個「發訊息等回應」的框架裡。
Interaction Model 要打破的,就是這個框架。它帶來的幾個新能力,每一個都在重新定義「什麼叫和 AI 對話」:同時聽說。你講話時 AI 能發出「嗯」「我看看」等回應──這在人類對話中叫 backchanneling,是「我在聽」的訊號。之前的 AI 做不到,因為它要等你講完才開始處理。
主動打斷。AI 看到你程式碼裡有 Bug,可以直接插話提醒。這在「輪流對話」模式裡是不可能的──AI 在生成回應時根本不接受外界輸入。
原生時間感知。普通 LLM 沒有「時鐘」概念──它們只能透過文字提示詞知道時間。Interaction Model 天然知道時間流逝,「每 4 分鐘提醒我檢查溫度」這種需求不需要額外程式設計。
視覺即時互動。AI 可以邊看使用者動作邊回應──你做深蹲它幫你數數,你寫程式它幫你盯著錯誤。
這些能力組合在一起,指向一個結論:對話框是 AI 的第一代 UI。Interaction Model 是第二代。它們的差別,就像命令列和圖形介面,像鍵盤手機和觸控手機。
2024 年 9 月,Mira Murati 宣布離開 OpenAI,隨後創立了 Thinking Machines Labs。與其他 AI 新創公司不同,Thinking Machines Labs 更像一次「OpenAI 分裂」。
公司創始團隊約 30 人,約三分之二來自 OpenAI,涵蓋了從 ChatGPT 創始團隊到 GPT-4o 核心開發者的完整班底。
當時外界對 Mira Murati 離職的猜測很多,但真正的原因其實藏在 OpenAI 的路線之爭中。
在 OpenAI 擔任 CTO 期間,Murati 一直推動的方向是「全模態即時互動」──這也是 GPT-4o 發布時的核心理念:一個能看、能聽、能說、能即時回應的 AI。
但 OpenAI 內部還有另一條路線在崛起,以後來主導 o1 系列的團隊為代表──「思維鏈、大規模推理、慢思考」。不是追求即時,而是追求「想得更久、想得更深」。
兩條路線的衝突在 2024 年達到頂點。上半年為了狙擊 Google 的 Google I/O 大會,Mira Murati 帶領團隊以極快速度推出了 GPT-4o。到了下半年,面對 Claude 3.5 Sonnet 在程式碼和邏輯上的壓制,Sam Altman 和管理階層又對 o1 團隊施加了極大的壓力,要求盡快將「Strawberry」專案產品化。
雖然 Murati 主導了 GPT-4o 的「看聽講」全能,但 9 月發布的 o1-preview 和 o1-mini 卻完全是「退化」的形態,它們不支援語音、不支援多模態,甚至不支援網路搜尋。
這種明顯的割裂說明,OpenAI 內部無法在短期內將「全模態即時互動」與「慢思考思維鏈」融合到一個統一架構中,兩條路線最終只能各自為戰、分道揚鑣。
因此,在 o1 模型剛發布不到兩週後,Murati 毫無預警地宣布辭任 CTO。有海外媒體統計,2024 年國外科技公司離職 CTO 的平均任期為 3.9 年,但 Mira 在 OpenAI 工作了 6.3 年。
出走的不只她一個人。她帶走了一群原 OpenAI 的核心研究人員。公司很快就拿到了 a16z 領投的約 20 億美元融資,估值 120 億美元。
但創業遠比想像中艱難。核心員工大量流失──7 人以上跳槽 Meta,也有人回流 OpenAI。唯一的好消息是 2025 年下半年,PyTorch 創始人 Soumith Chintala 加入擔任 CTO,為團隊注入了頂級的技術底盤。
如今 Thinking Machines 只有約 130 人。Interaction Model 的發布,是 Murati 出走一年多來拿出的最有力回擊──她證明了自己在 OpenAI 時堅持的方向,確實能走通,而且能走得更遠。
重新定義人機互動
Thinking Machines 在技術部落格裡寫了一句意味深長的話:「透過讓互動成為模型的原生能力,模型的規模成長將同時帶來更智慧和更有效的協作。」
翻譯成人話就是:以前的 AI,越大越聰明,但互動方式還是那個對話框;Thinking Machines 要讓 AI 越大越聰明的同時,也越「好聊」。
這是對整個 AI 產業趨勢的判斷──未來競爭的焦點不在模型規模本身,而在「互動深度」。
如果這個判斷是對的,那麼最快在未來三年裡,以下幾個產業將被重新定義:即時監控。AI 能 24 小時全天候盯著影像串流,看到安全違規時立刻插話提醒,而不是等巡檢人員發現異常再上報。
語音客服。0.4 秒延遲意味著客戶幾乎感受不到對面是 AI──聲音延遲已降到人耳感知閾值以下。
工業維護。AI 能在工程師拆設備時即時指導、即時警告、即時查閱手冊。
醫藥研發。原生時間感知讓 AI 能追蹤實驗進程、提醒關鍵時間節點、在異常發生時立即介入。
2 千億參數、12 億活躍、0.4 秒延遲──這些數字固然令人印象深刻。但 Thinking Machines 真正押注的是:當對話框被拆掉的那一天,人機互動將被重新定義。而她所選擇的路徑,最終會被證明是正確的那一條。