儘管谷歌 (GOOGL-US) 是無晶圓廠設計公司,不向第三方公司出售晶片,但卻是資料中心處理器業務中真正的巨頭,擁有重要的市占且由於最近人工智慧的爆炸式增長,其市占預計將進一步擴大。
半導體調研公司 Tech Insights 發布的新研究報告,將谷歌評為資料中心領域最大的晶片設計公司之一。 Tech Insights 表示,憑藉其在半導體供應鏈和 ASIC 市場等多個領域的獨特專業知識,谷歌的市占可與英特爾 (INTC-US) 和 AMD (AMD-US) 等更知名的晶片製造商相媲美。
Tech Insights 強調,谷歌在 2015 年推出的張量處理單元 (TPU) 開創了客製化人工智慧加速器的先河,這使得該公司超越了雲端競爭對手微軟 (MSFT-US) 和亞馬遜 (AMZN-US)。 就市占而言,只有輝達 (NVDA-US) 和英特爾超越谷歌。
Tech Insights 指出,谷歌去年向其全球資料中心運送了 200 萬個 TPU。 隨著 TPU v4 的推出,該業務在 2021 年實現了顯著增長,恰逢大型語言模型的興起。 博通 (AVGO-US) 是谷歌在 ASIC 設計方面的主要合作夥伴,它可能從 TPU v4 的推出中受益最多。
谷歌使用 TPU 來加速內部工作負載,而輝達 (NVDA-US) GPU 則處理雲端運算任務。 Tech Insights 報告稱,到 2023 年,谷歌將擁有最大的 AI 加速器安裝基數和最大的 AI 計算基礎設施。 該公司最近推出了第六代 TPU,稱為 Trillium,旨在增強 AI 超級電腦架構。
TI 也指出,隨著雲端超大規模企業投資新的加速器和輝達 AI GPU,去年伺服器市場的庫存出現了重大調整。 微軟和亞馬遜也分別使用 Azure Cobalt 和 Graviton 開發客製化人工智慧加速器。
Azure Cobalt 和 Graviton 都是以 Arm 為基礎的客製化處理器。 谷歌最近推出了基於 Arm 的 Axion 處理器來補充其 TPU。 根據 Bernstein Research 的報告,Arm 架構目前已用於全球 10% 的伺服器,其中超過 50% 安裝在亞馬遜的 AWS 資料中心。
谷歌的第六代 TPU
5 月 14 日星期二,谷歌發布了名為 Trillium 的第六代 TPU(張量處理單元)。
該晶片本質上是 TPU v6,是該公司在與 GPU 製造商輝達以及雲端提供商微軟和亞馬遜(擁有自己的人工智慧晶片)的人工智慧戰鬥中的最新武器。
TPU v6 將繼承 TPUv5 晶片,TPUv5 晶片有兩種版本:TPUv5e 和 TPUv5p。 該公司表示,Trillium 晶片是「迄今為止性能最高、最節能的 TPU」 。
谷歌在其 IO 會議上表示,Trillium 晶片將運行的人工智慧模型將取代目前的 Gemini 大語言模型。
谷歌對該晶片進行了全方位的改進,令其峰值算力提高 4.7 倍並加快其高頻寬記憶體、內部頻寬和晶片間的互連速度。
谷歌發言人表示:「通過比較 Trillium TPU 與 Cloud TPU v5e 的每晶片峰值算力 (bf16),我們得到了 4.7 倍的數字。」
BF16 在 TPU v5e 上的表現為 197 teraflops,如果提高 4.7 倍,BF16 在 Trillium 上的峰值效能將達到 925.9 teraflops。
谷歌的 TPU 早就應該有大幅的效能提升,TPU v5e 的 197 兆次浮點 BF16 效能實際上比 TPU v4 的 275 兆次浮點有所下降。
Trillium 晶片具有下一代 HBM 內存,但沒有具體說明它是 HBM3 還是 HBM3e,輝達在其 H200 和 Blackwell GPU 中使用了 HBM3e。
TPU v5e 上的 HBM2 容量為 16GB,因此 Trillium 將擁有 32GB 的容量,HBM3 和 HBM3e 均有提供。 HBM3e 提供最大的頻寬。
伺服器 Pod 中最多可配對 256 個 Trillium 晶片,與 TPU v5e 相比,晶片間通訊提高了一倍。 谷歌並未透露晶片間通訊速度,但可能是 3200 Gbps,是 TPU v5e 1600 Gbps 的兩倍。
谷歌表示,Trillium TPU 的節能效果也比 TPU v5e 高出 67%。
Trillium 正在取代 TPU 品牌名稱,並將成為未來幾代晶片背後的品牌。 Trillium 是根據花的名字命名的,不要與 AWS 的 Trainium 混淆,Trainium 是一種人工智慧訓練晶片。
谷歌很快就發布了其第六代 TPU——距離該公司發布 TPU v5 晶片還不到一年。
TPU v4 於 2020 年推出 ,拖了 三年才發布 TPU v5,因 TPU v5 本身的開發也陷入了爭議,根據《自然》雜誌的調查,與 TPU v5 AI 設計專案相關的研究人員相繼被解僱或離職,該說法正驗證中。
谷歌聲稱,人工智慧代理幫助 TPU v5 晶片進行平面規劃,速度比人類專家快約六個小時。
伺服器 Pod 將託管 256 個 Trillium 晶片, AI 晶片的通訊速度是類似 TPU v5 Pod 設定的兩倍。
這些 Pod 可以組合成更大的集群, 並透過光纖網路 進行通訊。 艙體之間的通訊速度 也將提高兩倍,從而提供更大的 AI 模型所需的可擴展 性 。
谷歌表示:「Trillium TPU 可以擴展到數百個 Pod,透過每秒數拍比特的資料中心網路互連建築級超級電腦中的數萬個晶片。」
一項名為 Multislice 的技術將大型 AI 工作負載串聯到大型叢集中的數千個 TPU 上。 這確保了 TPU 的高正常運作時間和能源效率。
該晶片具有第三代 SparseCores,這是一種更接近高頻寬記憶體的中間晶片, 大多數 AI 運算都在這裡進行。
SparseCores 讓處理更接近記憶體中的數據, 支援 AMD、英特爾和高通 (QCOM-US) 正在研究的新興運算架構。
通常,資料必須從記憶體移動到處理單元,這會消耗頻寬並產生阻塞點。 稀疏計算模型試圖透過將處理單元移近記憶體集群來釋放網路頻寬。
谷歌表示:「Trillium TPU 可以更快地訓練下一波基礎模型,並以更少的延遲和更低的成本為這些模型提供服務。」
Trillium 還具有用於矩陣數學的 TensorCore。 Trillium 晶片是為人工智慧設計的,不會運行科學應用程式。
該公司最近發布了首款 CPU Axion,它將與 Trillium 搭配使用。
Trillium 晶片將成為谷歌自主研發的 Hypercomputer AI 超級電腦設計的一部分,該設計針對其 TPU 進行了最佳化。
該設計融合了運算、網路、儲存和軟體,以滿足不同的 AI 消費和調度模型。 「日曆」系統滿足任務何時開始的嚴格期限,而「彈性啟動」模型則保證任務何時結束並交付結果。
超級電腦包含一個軟體堆疊和其他工具,用於開發、最佳化、部署和編排用於推理和訓練的 AI 模型。 其中 包括 JAX、PyTorch/XLA 和 Kubernetes。
超級電腦將繼續使用針對 GPU 最佳化的互連技術,例如基於輝達 H100 GPU 的 Titanium 卸載系統和技術。
預計 Trillium 晶片將在谷歌雲端 (Google Cloud) 中提供,但谷歌沒有公布提供日期,預計 Trillium 將成為頂級產品,成本高於 TPU v5 產品。
雲端中 GPU 的高價可能會讓 Trillium 對客戶有吸引力。 已經使用 Vertex(Google Cloud 中的 AI 平台)中提供的 AI 模型的客戶也可能會轉向 Trillium。
AWS 的 Trainium 晶片也可用,而微軟的 Azure Maia 晶片主要用於推理。
谷歌一直將其 TPU 作為輝達 GPU 的 AI 替代品,並發布研究論文,將 TPU 的效能與同類輝達 GPU 進行比較。
谷歌最近宣布將搭載輝達的新 GPU、B200 和帶有 Blackwell GPU 的專用 DGX 盒。
輝達最近也宣布將以 7 億美元收購 Run.ai。 收購 Run.ai 將使輝達在運行 AI 模型時能夠使其軟體堆疊獨立於谷歌的堆疊。
TPU 最初是為谷歌的本土模型設計的,但該公司正在努力更好地映射到開源模型,其中包括 Gemini 的分支 Gemma。