Google(GOOGL-US) 周四 (19 日) 透過官方部落格,突然宣布推出其最新的人工智慧核心模型 Gemini 3.1 Pro。這款模型被定位為處理最複雜任務的「智慧升級版」,象徵著 Google 在 AI 核心推理能力上取得了重大突破。
隨著 Gemini 3.1 Pro 的發布,Google 旨在將更強大的智慧應用於日常開發與消費級產品中,幫助使用者解決那些「簡單回答已不足夠」的艱難挑戰。
核心推理能力的飛躍:基準測試表現驚人
Gemini 3.1 Pro 最受矚目的改進在於其邏輯推理能力的提升。根據 Google 發布的數據,該模型在評估邏輯模式解決能力的關鍵基準測試 ARC-AGI-2 中,獲得了 77.1% 的驗證分數。與前代 Gemini 3 Pro 的 31.1% 相比,其推理性能提升超過兩倍,也遠高於 Gemini 3 Deep Think 的 45.1%。
在與競爭對手的橫向對比中,Gemini 3.1 Pro 在多項指標上領先於 Anthropic 的 Claude Opus 4.6 以及 OpenAI 的 GPT-5.2。例如:
• Humanity"s Last Exam(人類最後的考驗):Gemini 3.1 Pro 分數為 44.4%,優於 Claude Opus 4.6 的 40.0% 與 GPT-5.2 的 34.5%。
• MMLU(大規模多任務語言理解):達到 92.6%,領先競爭對手。
• GPQA Diamond:得分 94.3%,展現出極高水平的專業知識理解。
儘管如此,報導也指出在特定領域中,競爭對手仍保有優勢。例如,Claude Opus 4.6 在部分 SWE-Bench 驗證中仍位居榜首,而 OpenAI 的 GPT-5.3-Codex 則在特定的編程測試中表現較佳。
多樣化的實務應用
Google 強調,Gemini 3.1 Pro 不僅是數據上的進步,更在於能將高級推理轉化為實用的功能。
1. 純程式碼動畫生成:該模型能直接根據文字指令生成網頁適用的 SVG 動畫。由於這些動畫是基於純程式碼而非像素構建,因此在任何比例下都能保持清晰,且檔案體積遠小於傳統影片。
2. 複雜系統整合:Gemini 3.1 Pro 展現了連接複雜 API 與使用者介面的能力。在官方展示中,它成功構建了一個即時航太儀表板,利用公開遙測數據視覺化國際太空站 (ISS) 的軌道運行。
3. 沉浸式互動設計:該模型能編寫複雜的 3D 動態視覺效果 (如鳥群飛翔模擬),並結合手部追蹤功能,讓使用者能操控視覺效果,甚至產生隨動作變化的生成式配樂。
4. 創意編碼與文學轉化:Gemini 3.1 Pro 展現了理解文學主題並將其轉化為功能性程式碼的能力。例如,它能根據艾蜜莉 · 勃朗特的經典小說《咆哮山莊》的大氣色調,設計出富有現代感的個人作品集網站,而非僅僅是摘要文字。
全方位布局:如何體驗 Gemini 3.1 Pro
Google 目前已在多個平台上陸續推送 Gemini 3.1 Pro,涵蓋開發者、企業及一般消費者:
• 一般消費者:可透過 Gemini App 使用。訂閱 Google AI Pro 與 Ultra 方案的用戶將享有更高的使用限制。此外,NotebookLM 也已開放 Pro 與 Ultra 用戶專屬體驗。
• 開發者與企業:可透過 Gemini API (Google AI Studio)、Vertex AI、Gemini Enterprise 以及 Google 的代理式開發平台 Antigravity 進行訪問。
• 開發工具整合:該模型也將整合進 Gemini CLI、Android Studio,甚至延伸至微軟的服務,如 GitHub Copilot 和 Visual Studio Code。
AI 賽賽升溫:Google 的市場防禦與進攻
這次發布正值 AI 市場競爭最激烈的時刻。市場分析指出,Gemini 3 Pro 在去年 11 月發布後曾引發 OpenAI 的「紅色警報 (code red)」,並導致部分用戶從 ChatGPT 流向 Gemini。Google 執行長 Sundar Pichai 在最近的財報中提到,Gemini App 的月活躍用戶已超過 7.5 億,且其模型透過 API 每分鐘處理超過 100 億個 token。
Gemini 3.1 Pro 的推出被視為 Google 快速迭代策略的一部分。Google 表示,目前發布的是預覽版,目的是為了在正式全面開放 (GA) 之前,驗證更新並進一步推進代理式工作流 (agentic workflows) 等雄心勃勃的研發領域。
Karpathy:應用商店模式正在過時
Gemini 3.1 Pro 發布之際,OpenAI 共同創辦人 Andrej Karpathy 提出「應用商店模式正在過時」的觀點,他指出,隨著如 Gemini 3.1 Pro 等具備強大推理能力的模型出現,模型已能從單純回答問題延伸到完成一整套專業工作流。
Karpathy 預見一個由「AI 原生傳感器」和「執行器」構成的時代,屆時將由 LLM 負責編排、即興生成高度定制的應用。這種「即時生成、用完即棄」或「個人專屬」的軟體邏輯,將從根本上取代傳統應用商店的發布與下載機制。
總結來說,Karpathy 認為,AI 讓軟體開發的門檻與成本降到極低,未來的趨勢是 AI 根據用戶需求直接生成解決方案,而非用戶去適配應用商店中既有的 App。
