〈CES 2026〉今年下半年正式上市!輝達首款HBM4 GPU發表 黃仁勳:全面投產

今年下半年正式上市!輝達首款HBM4 GPU發表 黃仁勳:全面投產(圖:Shutterstock)
今年下半年正式上市!輝達首款HBM4 GPU發表 黃仁勳:全面投產(圖:Shutterstock)

輝達 (NVDA-US) 周一 (5 日) 在 CES 2026 大展上宣布,下一代 Rubin AI 晶片已全面投入生產,並打算今年下半年正式上市。這次發布的最大亮點在於,Rubin GPU 將成為業界首款整合 HBM4 高頻寬記憶體的處理器,標誌著 AI 運算基礎設施邁入新的技術階段。

在黃仁勳描繪的「物理 AI 時代」藍圖中,高性能記憶體已成為支撐智能體長期運作、多輪推理的關鍵技術基石。

輝達執行長黃仁勳在主題演講中強調,HBM4 記憶體的引進是提升 AI 運算效率的關鍵突破。根據官方數據顯示,Rubin GPU 搭載的 HBM4 記憶體頻寬達到每秒 22TB,較上一代 Blackwell 的 8TB/s 提升 2.8 倍。這項飛躍使得單一 Rubin GPU 能同時處理更多推理任務,並支援更長的上下文記憶,為大規模 AI 模型的即時推理奠定硬體基礎。

HBM4 記憶體技術的突破不僅體現在頻寬提升上,更在系統架構層面帶來革新。每個 Rubin GPU 整合 8 個 HBM4 堆棧,總容量達 288GB,配合 NVLink 6 互聯技術實現 3.6TB/s 的 GPU 間通訊頻寬。這種設計使得 72 個 GPU 組成的 Vera Rubin NVL72 機架能提供 1.6PB/s 的總記憶體頻寬,較 Blackwell 平台提升近兩倍。

在具體效能表現上,HBM4 的高頻寬特性直接助推運算效能躍升。Rubin GPU 的 NVFP4 推理性能達 50 PFLOPS,訓練性能達 35 PFLOPS,分別是 Blackwell 的 5 倍和 3.5 倍。實際應用中,這種提升使得 AI 推理成本最高降低 10 倍,訓練混合專家模型的 GPU 需求減少至四分之一。

技術實現層面,HBM4 與 Rubin 架構的深度協同設計成為亮點。透過新一代 NVLink-C2C 互連技術,Vera CPU 與 Rubin GPU 間的資料傳輸頻寬提升至 1.8TB/s,確保 HBM4 記憶體與 1.5TB 系統記憶體間的高效能合作。這種架構尤其提升了 AI 推理場景中的資料調度,使「讓 AI 多想一會兒」的技術概念成為可能。

產業分析指出,HBM4 的部署時機恰逢 AI 運算需求爆發期。隨著模型參數規模成長和 Agentic AI 應用普及,傳統記憶體架構面臨瓶頸。輝達提前量產 Rubin 系列的決定,反映出市場對高效能記憶體解決方案的迫切需求。微軟 Azure 和 CoreWeave 等雲端服務商將於今年下半年首批提供基於 Rubin 的雲端運算執行個體。

在系統級解決方案方面,輝達推出搭載 HBM4 的 DGX SuperPOD 集群,透過 8 個 Vera Rubin NVL72 機架實現 576 個 GPU 的協同工作。新架構採用 Spectrum-6 乙太網路交換器和共封裝光學技術,解決多機架資料交換瓶頸,使 HBM4 的高頻寬特性能在資料中心規模完全釋放。

儘管技術指標亮眼,資本市場反應相對保守。輝達股價在周一 (5 日) 發表會後盤微跌 0.13%,反映出市場對 AI 晶片競爭加劇的擔憂。

但業內人士認為,HBM4 的記憶體優勢將鞏固輝達在 AI 訓練領域的領先地位,特別是在需要處理百萬 token 上下文的複雜推理場景中。

隨著 Rubin 晶片量產計畫公佈,AI 產業基礎建設競賽進入新階段。 HBM4 技術的規模化應用不僅關乎運算效能提升,更將決定下一代 AI 應用 (如自駕、機器人等物理 AI 場景) 的落地速度。


相關貼文

prev icon
next icon