美東時間週五(26 日),OpenAI 正式推出新一代模型 GPT-5.6。然而,這次大家卻暫時無法使用。
若按過去幾年的慣例,這原本該是鎂光燈閃爍、執行長奧特曼(Sam Altman)微笑宣布「所有人現在都能使用」的時刻。但這一次,沒有 ChatGPT 直接上線,沒有全球開發者 API 開放,甚至沒有公開發布會。
取而代之的,是一份寄給約 20 家企業的邀請函,而每一家受邀企業,都必須先經過美國政府點頭同意。
兩週前,另一家 AI 巨頭 Anthropic 的最新模型 Fable 5 才剛上線 3 天,就被美國商務部一紙信函下令全球暫停供應。
分析人士指出,如今兩大 AI 巨頭走上截然不同的應對路線,卻撞上了同一道牆。GPT-5.6 的故事,既是一個模型有多強的故事,也是一道門正在如何關上的故事。
GPT-5.6 並非單一模型,而是一個家族。OpenAI 這次拋開過去 Pro、Mini 的命名方式,改以天文學概念命名出三款型號: Sol(太陽)、Terra(大地)、Luna(月亮),分別對應旗艙、均衡與輕量定位。
在最新公布的 Terminal-Bench 2.1 測試中(目前最能衡量 AI 端到端程式是機能力的基準),GPT-5.6 Sol 在「ultra 模式」下取得 91.9% 的成績,刷新所有已公開模型的最高紀錄。
這項測試不是單純寫程式,而是要求模型在指令列環境中理解問題、拆解步驟、呼叫工具、執行命令、檢查結果並反覆修正,更貼近真實開發流程。
作為對照,兩週前 Anthropic 發布的 Claude Mythos 5 僅取得 88.0%,Fable 5 則是 84.3。換言之,Mythos 5 的榜首位置僅僅維持了 17 天。
即便 Sol 關閉 ultra 模式、僅用一般的 max 模式,也能跑出 88.8%,單憑這個數字就已超越 Anthropic 兩款旗艙模型的全部成績。
但真正讓對手感到壓力的,並非分數本身,而是效率。在更貼近真實漏洞利用場景的 ExploitBench 網路安全測試中,Sol 的表現幾乎追平 Anthropic 此前「強到不敢公開發布」的 Mythos Preview,卻只消耗約三分之一的輸出 token。
在 CTF 奪旗賽中,Sol 的命中率更高達 96.7%,逼近滿分。OpenAI 反覆向外界傳遞一個訊息,其模型不僅跑得最快,而且跑得最省力。
這背後仰賴兩項新機制。其一是「max reasoning effort」(最大推理強度),讓模型對複雜任務投入更長的推理鏈;其二是「ultra mode」,讓 Sol 自動將任務拆分、啟動多個子代理並行處理再彙整結果。
關鍵差異在於,Anthropic 的代理隊需要人工設計協作方式,而 ultra 模式由模型自主完成任務拆解與協調,Terminal-Bench 的最佳成績正是由此而來。
定價方面同樣值得關注。Sol 沿用上一代 GPT-5.5 標準版的定價(輸入每百萬 token 5 美元、輸出 30 美元),能力卻躍升一個世代;Terra 價格砍半至 2.5 美元與 15 美元,在 Terminal-Bench 拿下 84.3%,與 Claude Fable 5 打平;Luna 則壓低至 1 美元與 6 美元,僅為 GPT-5.5 的五分之一,主攻大規模、低延遲的批量任務。
過去幾年,OpenAI 的策略向來是「做出一個最強模型,讓所有人使用」。這次跟進 Anthropic 的 Opus/Sonnet/Haiku 三層架構,本質上是承認:不同客戶需要不同模型,單一旗艙無法同時滿足追求極限性能的研究機構、精打細算的企業,以及只在乎速度與成本的大規模應用場景。
而隨著 OpenAI 已秘密提交 IPO 申請、外傳目標估值上看 1 兆美元,三層定價體系某種程度上也是一份提前寫好的營收成長腳本。
OpenAI 財務長 Sarah Friar 的目標時程是 2027 年,但部分顧問認為年內就可能啟動衝刺。
OpenAI 目前約有 9 億週活躍用戶、月營收約 20 億美元,在遞交招股書前,必須向華爾街證明兩件事:一是不依賴單一產品,而是具備可持續的產品矩陣;二是擁有清晰的收入分層與成長邏輯。三層模型架構恰好同時回應了這兩項訴求。
此外,自 7 月起 Sol 將透過晶片廠商 Cerebras (CBRS-US) 部署,生成速度最高可達每秒 750 個 token,比目前的旗艙模型快上一個數量級。
然而,所有精心設計的技術與商業敘事,最終都被「僅限約 20 家經審查企業使用」這條限制制約,即便紙面上的產品分層與成長故事再完美,一旦分發管道被政府掌控,定價權便不再完全屬於企業自己。
審查表:一封信函改寫的兩週
GPT-5.6 為何無法直接上線要回溯至 14 天前 Anthropic 的遭遇。
6 月 9 日,Anthropic 發布 Fable 5 與 Mythos 5,並認為兩款模型已具備完善安全機制。但僅 4 天後,美國商務部援引出口管制中的「視同出口」規定,要求立即停止向所有外國國民提供模型存取權限,包括在美工作的外籍員工,兩款模型不到 48 小時便全面下線。
所謂「視同出口」,是指受管制技術只要提供給美國境內的外國人士,在法律上就等同出口到其母國。這項原本適用於軍工與半導體的規定,首次被延伸至 AI 模型存取,限制的不再是晶片,而是「誰能使用 AI 模型」。
相較之下,OpenAI 採取與政府密切合作的策略。GPT-5.6 發布前便向白宮簡報模型能力,正式推出後僅開放約 20 家經政府核准的合作企業使用,合作名單也需與政府共享。奧特曼坦言,這並非 OpenAI 理想的長期模式,但目前只能配合。
分析指出,這顯示美國已逐步建立尖端 AI 的監管模式:對 Anthropic 採取「事後緊急關停」,對 OpenAI 則採取「事前審查」。
值得注意的是,這套機制沒有盟友豁免,加拿大、日本、韓國及歐盟企業同樣受到限制,各國政府也開始將「美國 AI API 可能中斷供應」納入風險評估。
此外,OpenAI 此次投入 210 萬美元進行史上最大規模的 AI 安全測試,但 GPT-5.6 仍被發現存在過度執行任務、擅自刪除檔案及嘗試繞過權限等問題,顯示即使投入大量安全資源,先進 AI 的不可預測性仍是政府加強監管的重要原因。
分叉路:技術上限,如今由政治劃定
過去十年,市場相信「技術決定一切」,誰的模型最強,誰就掌握競爭優勢;但如今,美國政府正逐步接手尖端 AI 模型的發布主導權。
Anthropic 的 Fable 5 並非輸給競爭對手,而是敗給一紙行政命令;OpenAI 的 GPT-5.6 雖完成開發,卻必須先通過政府審查才能有限度對外開放。尖端模型能否發布、向誰開放,開始不再由企業決定,而是由政府拍板。
這代表 AI 產業正從「自由發布」走向「政府許可」。模型的開發與商業化分發逐漸脫鉤,安全審查也可能從一次性的措施,演變為新的常態。
分析指出,美國的出口管制並不會阻止 AI 發展,只會加速全球技術分流。歐洲、日本等地已開始發展自主 AI 生態,例如義大利 AI 公司 Domyn 宣布打造 4000 億參數開源模型,日本 Sakana AI 則持續以開源模型為核心發展方向,希望降低對美國 API 的依賴。
從目前發展來看,全球 AI 產業正出現三項趨勢:
- AI 安全評測將成為新興產業,政府審查需要一套標準化的安全驗證機制。
- AI 供應鏈加速分裂,美國、歐洲與亞洲逐漸形成不同的技術生態與模型體系。
- 政府關係與合規能力成為企業新的競爭力,能否順利取得發布許可,將與模型性能同等重要。
OpenAI 也坦言,不希望政府審查成為長期制度,因為最好的 AI 工具若持續延後開放,開發者、企業與全球合作夥伴都將付出代價。
但從 2026 年 6 月開始,尖端 AI 已被視為具有國家安全層級的重要技術。未來決定 AI 發展速度的,不再只有演算法與算力,也包括各國政府的政策與監管。
