輝達與亞馬遜聯手顛覆AI架構!GPU將直接控制SSD、HBF有望取代部分HBM需求
據悉,輝達 (NVDA-US) 與亞馬遜 (AMZN-US) 正積極推進新一代儲存架構研發,該架構將允許 GPU 直接操控 SSD 等儲存設備,繞過傳統 CPU 調度環節,大幅提升 AI 運算效能。輝達計劃率先在其 Vera Rubin 平台上導入「GPU 發起直接儲存訪問」(GIDS)技術,此舉也將加速高頻寬快閃記憶體(HBF)的產業普及。
據外媒報導,隨著 AI 大型語言模型參數規模持續膨脹,現行高頻寬記憶體(HBM)已暴露出兩大關鍵缺陷:
- HBM 受限於物理堆疊上限,容量擴充難度高、成本居高不下,難以支撐兆級參數的超大規模模型;
- GPU 與 HBM 之間的資料傳輸耗電量,已佔 AI 伺服器整機系統總功耗近 50%,算力能效嚴重失衡。
與此同時,傳統馮紐曼架構(Von Neumann architecture)存在先天性資料搬運瓶頸:資料必須經由 CPU 中轉、DRAM 緩存,才能傳輸至 GPU。
CPU 線程調度存在結構性上限,卻要服務擁有數萬級並行算力的 GPU,兩者之間的效能錯配,已成為 AI 推理與訓練提速的核心枷鎖。
事實上,GPU 直連儲存技術歷經兩代演進,差異顯著。第一代 GPU 直接儲存(GDS)雖嘗試縮短資料路徑,但仍須依賴 CPU 下發請求,存在明顯的調度延遲,屬於過渡性方案。
新一代 GIDS 技術則實現革命性突破,允許 GPU 直接操控 SSD 或高速快閃記憶體,全程繞過 CPU 與 DRAM,徹底剔除中間調度層級,使 GPU 算力不再受 CPU 數據調度拖累。
兩代技術的核心目標一致,均是為克服傳統馮諾依曼架構的資料傳輸瓶頸,但 GIDS 在架構層面更為徹底。
值得注意的是,GIDS 落地需搭配高性能快閃記憶體以適配頻寬需求。
HBF 成最優解 容量可達 HBM 十六倍
為配合 GIDS 技術落地並解決 HBM 容量不足的痛點,HBF 被視為當前最優解決方案。
HBF 借鑒 HBM 的垂直堆疊思路,將 NAND 快閃記憶體透過矽穿孔技術進行垂直互聯,並將高速快閃記憶體物理貼近 GPU 布局,以最大化提升資料傳輸效率。
從性能指標來看,NAND 快閃記憶體的位元密度是 DRAM 的 30 倍,同等體積下可實現更大儲存容量。
業界實測數據顯示,採用 6 顆 HBF 單元搭配 2 顆 HBM 單元的組合,可將 GPU 記憶體從 192GB 提升至 3,120GB,容量提升超過 16 倍,理論上可支撐參數規模為現有架構 16 倍的超大型 AI 模型部署。
不過,HBF 的定位是與 HBM 互補,而非全面取代。由於 NAND 快閃記憶體耐久性有限,通常僅支援約 10 萬次的寫入與抹除循環,遠低於 DRAM 近乎無限制的抹寫能力,因此 HBF 最適合 AI 推理場景,推理過程中模型參數基本不變,屬於唯讀工作負載,可充分發揮 HBF 的容量優勢;至於高頻率訓練場景,仍需仰賴 HBM,兩者各司其職。
科技巨頭競相布局 三星搶佔快閃記憶體高地
在產業布局方面,輝達作為行業主導者,藉由 Vera Rubin 平台主導 GIDS 技術標準制定,力圖掌握 AI 算力架構的話語權;亞馬遜則與輝達深度合作,優先將 GPU 直連儲存架構落地於雲端 AI 算力集群。
微軟 (MSFT-US) 與超微半導體 (AMD-US) 亦同步跟進,積極布局自研替代方案,以制衡輝達的生態壟斷。
硬體端方面,三星電子採取雙線布局策略,一方面自研次世代高性能 Z-NAND 快閃記憶體,另一方面同步開發 GIDS 技術,打造快閃記憶體硬體與架構協議一體化方案,搶佔 AI 高階快閃記憶體市場。
學術層面,南韓延世大學系統半導體工程系宋基煥教授研究團隊已完成相關理論論證,從能效提升與容量擴充邏輯兩大維度,為該架構的產業落地提供了堅實的技術理論基礎。