OpenAI 今 (12) 日正式發布其最新的 GPT-5.2 模型,被稱為「迄今為止功能最強大的專業知識工作模型系列」。根據官方文檔,GPT-5.2 的設計初衷是為了「創造更大的經濟價值」,在電子表格處理、演示文稿製作、代碼編寫、圖像感知、長文本理解及複雜多步項目執行等方面均實現了顯著的性能提升。
為了驗證 GPT-5.2 在真實業務環境中的價值,OpenAI 引入了 GDPval 基準測試,該測試涵蓋了 9 大行業和 44 類職業的 1320 個真實業務場景。官方數據顯示,GPT-5.2 Pro 在 74.1% 的任務中表現超越或持平於人類專家,這一結果引發了業界的廣泛關注。
多家早期合作企業,如 Notion、Databricks 和 Cognition,觀察到 GPT-5.2 在長鏈條推理、數據分析和代碼審查等任務中的錯誤率顯著下降,且一致性與穩定性得到明顯改善,使其更適合作為「公司級智能體」的核心引擎。這些改進使得 GPT-5.2 的應用潛力大幅提升,尤其是在專業知識工作場景中。
在發布前不久,OpenAI 首席執行官 Sam Altman 曾向員工發出「紅色警報」,暗示公司將調集更多資源投入 ChatGPT 的開發。業界對 GPT-5.2 的期待主要集中在其能否與 Google 的 Gemini 3 展開激烈競爭,奪回 SOTA(目前最佳技術)地位。然而,GPT-5.2 的發布並未展現出明顯的「應戰」氣氛,反而顯示出 OpenAI 在商業策略上的沉穩與定力。
GPT-5.2 的官方說明文檔強調了其在「創造更大的經濟價值」方面的核心定位。此次發布包含三款模型:GPT-5.2 Instant(優化響應速度)、GPT-5.2 Thinking(深度推理)和 GPT-5.2 Pro(高端版本),以滿足從日常輕量對話到複雜科研的不同需求。根據新推出的分層 API 定價策略,GPT-5.2 Instant 和 Thinking 的計費標準為每百萬 tokens 1.75 美元的輸入和 14 美元的輸出,而高端版本 Pro 的定價則更高,輸入為每百萬 tokens 21 美元,輸出達 168 美元。
儘管 Pro 版本的單次 token 單價較高,但 OpenAI 強調,GPT-5.2 系列在真實智能體任務中具備更高的 token 使用效率,這意味著在某些企業場景中,完成同等質量的任務整體成本可能會降低。此外,Pro 版本在實際使用中能顯著減少「推理廢話」,使得輸出內容更緊湊精煉,進一步幫助用戶控制使用費用。
在性能評估方面,GPT-5.2 在多項關鍵基準測試中取得了當前公開模型中的最高成績。特別是在數學能力方面,GPT-5.2 Pro 在 AIME 2025 中獲得滿分(100%),並在 ARC-AGI-1 抽象推理測試中首次突破 90%,顯示出其卓越的通用智能水平。此外,GPT-5.2 Thinking 在 SWE-Bench Pro 評測中取得 55.6% 的準確率,顯示其在自動化調試和理解複雜需求方面的潛力。
在長上下文推理能力上,GPT-5.2 Thinking 支持最高 256k tokens 的輸入,並在「四針」檢索任務中實現接近 100% 的準確率,超過了現有商用模型的水平。這一特性使其在長文檔問答、合同審查和多文件工程跨引用等任務中表現出更高的穩定性。
此外,GPT-5.2 在智能體工具調用與視覺理解方面也有顯著增強。在 Tau2-bench Telecom 多輪客服任務的工具調用測試中,GPT-5.2 Thinking 取得 98.7% 的完成度,顯示出其在跨系統複雜操作中的潛力。OpenAI 還強調,該模型在「多工具編排任務」中的表現更穩定,能夠在單次會話中處理二十多個工具調用步驟,並在簡化的系統提示下維持高一致性。
總體而言,GPT-5.2 的發布標誌著 OpenAI 在專業知識工作和企業級應用領域的一次重大進步。隨著這一技術的成熟,OpenAI 將面臨更多的商業期待和挑戰,尤其是在解決現實中的複雜問題時。
GPT-5.2 細節概覽表格
| 項目 | 內容 |
|---|---|
| 發布日期 | 2025 年 12 月 12 日 |
| 模型名稱 | GPT-5.2 |
| 核心定位 | 創造更大的經濟價值 |
| 主要功能 | 電子表格處理、演示文稿製作、代碼編寫、圖像感知、長文本理解、複雜多步項目執行 |
| 主要測試 | GDPval 基準測試 |
| 表現數據 | 74.1% 任務超越或持平人類專家 |
| 模型版本 | Instant、Thinking、Pro |
| 定價策略 | Instant 與 Thinking:每百萬 tokens 1.75 美元(輸入)、14 美元(輸出) Pro 版本:每百萬 tokens 21 美元(輸入)、168 美元(輸出) |
| 效率提升 | 整體成本可能降低 |
| 數學能力 | AIME 2025 滿分(100%),ARC-AGI-1 突破 90% |
| 長上下文推理能力 | 支持 256k tokens 輸入,四針檢索接近 100% 準確率 |
| 工具調用完成度 | Tau2-bench Telecom 多輪客服任務 98.7% |
