Google(GOOGL-US) DeepMind 周四 (12 日) 宣布對其專門化推理模式 Gemini 3 Deep Think 進行重大升級,據官方部落格指出,這次更新象徵著人工智慧在解決現代科學、研究與工程挑戰方面進入了全新維度,不僅在多項頂尖基準測試中刷新世界紀錄 (SOTA),更在實際科研應用中展現出超越人類專家的洞察力。
全方位刷新基準:全球僅 7 人能贏的實力
升級後的 Gemini 3 Deep Think 在邏輯推理與演算法領域表現驚人。在知名的演算法競賽平台 Codeforces 上,其 Elo 評分達到了震撼的 3455 分,達到世界冠軍級別。這意味著在該平台上,全球僅有 7 位人類選手能擊敗它,遠超前代模型與競爭對手。
此外,Deep Think 在多項嚴苛的學術基準測試中樹立了新標竿:
• Humanity’s Last Exam (HLE): 在不使用工具的情況下,取得 48.4% 的成績,挑戰了現代前沿模型的極限。
• ARC-AGI-2: 以 84.6% 的前所未有高分讓該基準測試趨於飽和,並獲得 ARC 獎項基金會驗證。
• 學科奧林匹克: 在 2025 年國際數學奧林匹克 (IMO)、物理奧林匹克及化學奧林匹克的筆試部分,均展現出金牌水準的性能。
糾正人類專家疏漏
Deep Think 的價值不僅限於測試分數,它已開始推動實際的科學發現。羅格斯大學數學家 Lisa Carbone 在研究高能物理論文時,利用 Deep Think 進行審查,結果模型成功發現了一個連人類同行評審都未能察覺的微小邏輯漏洞。這顯示 AI 已從「輔助工具」演變為能與頂尖科學家協作的深度夥伴。
在硬核工程領域,Deep Think 同樣展現了強大實力:
• 材料科學: 杜克大學 Wang Lab 利用其優化複雜晶體生長方法,成功設計出大於 100 μm 的薄膜配方,攻克了以往難以達成的精確目標。
• 物理建模: Google 研發主管 Anupam Pathak 指出,Deep Think 能將手繪草圖直接轉化為可 3D 打印的實體模型文件,使物理零部件建模速度提升十倍。
技術背後的推手
值得注意的是,此次重大更新由包含前 Anthropic 華人學者姚順宇在內的團隊參與研發,展現了技術人才流動對 AI 推理能力的關鍵影響。
目前,這項強大的推理功能已開放給 Google AI Ultra 訂閱用戶在 Gemini App 中使用。同時,Google 首次透過 Gemini API 向特定研究人員、工程師及企業開放早期測試申請,旨在讓 Deep Think 進入更多專業的工作流程中。
