迎戰谷歌Gemini 3!OpenAI發布GPT-5.2-Codex強化AI程式設計能力 劍指軟體工程與網安
在發表 GPT-5.2 系列最新模型一周後乘勝追擊,OpenAI 周四 (18 日) 又推出新一代智能體編碼模型 GPT-5.2-Codex,該模型聚焦專業軟體工程與防禦性網路安全,在多項基準測試中刷新紀錄,被執行長奧特曼稱為「最先進的編碼智能體」,劍指谷歌 Gemini 在 AI 編程領域的領先地位。
GPT-5.2-Codex 基於 GPT-5.2 強化訓練而成,針對長週期編碼任務進行專案最佳化:在 SWE-Bench Pro 測試 (模擬真實軟體工程任務) 的準確率 56.4%,超越 GPT-5.2 的 55.6% 和上代 50.8%
Terminal-Bench 2.0 測試 (終端環境實戰),準確率達 64%,較上代提升 5.9 個百分點。
GPT-5.2-Codex 透過情境壓縮技術提升長任務處理能力,在程式碼重構、遷移等複雜場景中保持穩定,即使計畫變更或執行失敗仍能追蹤進度。視覺表現的增強使其可精準解讀設計稿,快速產生功能原型。
網路安全則成為本次升級核心亮點。OpenAI 揭露,GPT-5.2-Codex 在防禦性安全能力上實現「階梯式躍遷」。
一個真實案例凸顯了新模型的防禦性網路安全潛力。上周四 (11 日),React 團隊公佈了三個影響使用 React 伺服器零件建構的應用程式的安全漏洞。Stripe 旗下 Privy 公司首席安全工程師 Andrew MacPherson 在使用 GPT-5.1-Codex-Max 與 Codex CLI 研究另一個名為 React2Shell 的嚴重漏洞時,透過引導 Codex 執行標準防禦性安全工作流程,意外發現了這些此前未知的漏洞,並負責任地向 React 團隊披露。
奧特曼周四在 X 平台上說:「一名使用我們上一代 (Codex) 模型的安全研究人員上周發現並披露了 React 中可能導致源代碼暴露的漏洞。我相信這些模型對網路安全將產生淨收益,但隨著它們的改進,我們正處於『真實影響階段』。」
儘管尚未達到「高級別」安全標準,但 OpenAI 已啟動「可信任訪問計畫」,向審查通過的安全專家開放防禦性研究權限,支持合法紅隊測試和關鍵設施壓力測試。奧特曼在 X 上說:「我們正開始探索用於防禦性網路安全工作的可信訪問計畫。」
為平衡能力提升與安全風險,OpenAI 針對網路安全能力的增強在模型層面和產品層面都增加額外的保護措施,包括針對有害任務和提示注入的專門安全訓練、智能體沙箱及可配置的網路存取。同時,OpenAI 正在進行僅限邀請的可信存取計畫試點。
該計畫最初僅向經過審查的安全專業人員和具有明確專業網路安全用例的組織開放。符合條件的參與者將獲得使用 OpenAI 最強大模型進行防禦性工作的權限,使其能進行合法的雙重用途工作,例如漏洞研究或授權的紅隊測試,同時消除安全團隊在模擬威脅行為者、分析惡意軟體或壓力測試關鍵基礎設施時可能遇到的限制。
OpenAI 此次發布延續其對谷歌 Gemini 的壓制態勢。產業分析師指出,GPT-5.2-Codex 在長上下文理解與專案級任務的優勢,使其在大型程式碼庫重構場景顯著領先現有工具。
此外,奧特曼也在另一條推文中為 Codex 招聘打廣告。「Codex 變得極其出色,並將快速改進。如果你想幫助它在明年變得好 100 倍,團隊正在招人。保證有瘋狂的冒險,成功的可能性很大。
隨著 GPT-5.2-Codex 全面開放,AI 程式設計競賽進入白熱化階段。當開發者在終端環境中呼叫 GPT-5.2-Codex 時,他們握著的不僅是程式碼產生工具,更是撬動軟體工程模式的支點,而 OpenAI 與谷歌的 AI 霸權之爭,正從基準測試走向真實戰場。