Google出手了!不只拚晶片還要拆輝達軟體護城河

《路透》周三 (17 日) 援引知情人士消息報導,Google(GOOGL-US)正展開一項全新行動,試圖從軟體層面削弱輝達 (NVDA-US) 在人工智慧 (AI) 運算市場的長期優勢。據悉,Google 正在推動一項內部稱為「TorchTPU」的新計畫,目標是讓自家 AI 晶片 Tensor Processing Units(TPU)能更順暢地執行全球最廣泛使用的 AI 軟體框架 PyTorch,藉此降低開發者轉向輝達 GPU 以外選項的門檻。

這項行動被視為 Google 積極強化 TPU 競爭力的重要一環。隨著 TPU 銷售逐漸成為 Google 雲端事業的重要成長動能,Google 也面臨投資人檢視其 AI 投資是否能轉化為實際營收的壓力。然而,單靠硬體性能並不足以改變市場結構,軟體生態系才是影響晶片採用度的關鍵。

補齊軟體短板 TorchTPU 直指輝達護城河

知情人士指出,「TorchTPU」計畫的核心目標,在於消除 TPU 長期以來的一大障礙——與 PyTorch 的相容性不足。多數 AI 開發者的技術架構早已建立在 PyTorch 之上,若要改用 TPU,往往必須額外投入時間與成本,將程式改寫為 Google 偏好的 Jax 框架,這也成為 TPU 推廣的主要瓶頸。

Google 過去曾嘗試改善 TPU 對 PyTorch 的支援,但此次在組織層級、資源投入與策略重要性上,明顯高於以往。隨著企業對 AI 運算需求快速成長,愈來愈多潛在客戶向 Google 反映,軟體堆疊而非硬體性能,才是阻礙 TPU 採用的最大問題。

PyTorch 是一個由 Meta(META-US)大力支持的開源專案,自 2016 年推出以來,已成為 AI 模型開發的主流工具。矽谷多數工程師並不會直接為輝達、超微 (AMD-US) 或 Google 的晶片撰寫底層程式碼,而是透過 PyTorch 這類框架,利用既有函式庫與工具來加速 AI 開發流程。

輝達多年來持續優化 CUDA 軟體,確保 PyTorch 在其 GPU 上能以最高效率運行,這也被華爾街分析師視為輝達最難以撼動的競爭優勢之一。相較之下,Google 長期仰賴自家 Jax 框架與 XLA 編譯工具,導致內部使用情境與客戶需求之間出現落差。

TPU 走向商業化 Google 雲端承擔成長壓力

Alphabet 過去多將 TPU 保留給內部使用,直到 2022 年,Google 雲端部門成功爭取接手 TPU 銷售權限,才開始大規模對外供應。隨著 AI 熱潮推升算力需求,Google 持續擴大 TPU 產能,並將其定位為輝達 GPU 的替代方案之一。

不過,PyTorch 與 Jax 之間的差異,使得多數企業客戶即使有意採用 TPU,也難以在不進行額外工程調整的情況下,達到與輝達 GPU 相近的效能。這樣的轉換成本,在競爭激烈、節奏快速的 AI 市場中,成為企業卻步的重要因素。

若 TorchTPU 計畫順利推進,將有助於大幅降低企業轉換晶片平台的成本,削弱輝達在軟體層面的鎖定效應。長期以來,輝達不僅在硬體上領先,更透過深度整合 CUDA 與 PyTorch,建立起高度黏著的生態系。

Google 雲端發言人未對計畫細節發表評論,但向《路透》表示,Google 正同時看到 TPU 與 GPU 基礎設施需求快速成長,公司的重點在於提供客戶彈性選擇,而非綁定單一硬體架構。

攜手 Meta 合作 加速挑戰輝達主導地位

為加快開發進度,Google 正與 PyTorch 的主要推手 Meta 密切合作。知情人士指出,雙方已就 Meta 取得更多 TPU 資源展開討論,相關消息先前已由《The Information》披露。

Meta 對改善 TPU 軟體支援具高度戰略興趣。透過降低推論成本並分散對輝達 GPU 的依賴,Meta 可在 AI 基礎設施談判中取得更大彈性與籌碼。早期合作模式多為 Google 代管服務,由 Google 負責營運與維護 TPU 系統。

今年以來,Google 已開始將 TPU 直接銷售至客戶自有資料中心,而非僅限於 Google 雲端平台。與此同時,Google 任命資深工程主管 Amin Vahdat 出任 AI 基礎設施負責人,直接向執行長皮查伊 (Sundar Pichai) 報告,凸顯 AI 算力在公司戰略中的地位。

Google 需要這套基礎設施,不僅是為了支撐自家 Gemini 聊天機器人與 AI 搜尋等產品,也為了滿足 Google 雲端客戶需求,包括 Anthropic 等 AI 公司。隨著軟體相容性問題逐步改善,TPU 能否真正撼動輝達在 AI 運算市場的主導地位,將成為市場關注焦點。