隨著輝達 (NVDA-US) 陸續在微軟 (MSFT-US) 資料中心部署最新一代人工智慧(AI)晶片,一名輝達員工於今年初秋指出,微軟在其中一處設施採用的冷卻方式似乎顯得「有些浪費」。
根據《Business Insider》報導,在生成式 AI 熱潮推動下,各大科技公司對運算能力的需求急遽攀升,輝達正加快在微軟等雲端巨頭部署 GB200 Blackwell 架構晶片。
Blackwell 於 2024 年 3 月發表,輝達執行長黃仁勳當時表示,其效能約為前一代 Hopper 的兩倍。GB200 屬於 Blackwell 早期部署的一環,目前更新一代的 GB300 也已問世。
根據輝達基礎設施專家團隊一名員工於初秋發出的內部郵件,該團隊曾為 OpenAI 安裝 Blackwell 伺服器機櫃,而微軟正是 OpenAI 的雲端合作夥伴與最大投資人。
郵件指出,現場共部署兩組 GB200 NVL72 機櫃,每一組包含 72 顆輝達 GPU。由於多顆 GPU 高密度同時運作會產生大量熱能,伺服器本身採用了液冷技術。
不過,該名員工在郵件中寫道,微軟在這項 GB200 部署所採用的「冷卻系統與資料中心整體冷卻方式,因設施規模與用水量偏低而顯得有些浪費,但確實提供了高度彈性與容錯能力」。
加州大學電機與電腦工程副教授 Shaolei Ren 指出,即便伺服器層級使用液冷,資料中心仍需在建築層級透過第二套系統將熱量排出設施外。
他推測,輝達員工所指的,可能是微軟在建築層級採用以空氣為主、而非用水的冷卻系統。
Ren 長期研究資料中心的能源與水資源使用,他表示,這類空氣冷卻系統通常會「消耗較多電力,但幾乎不使用水資源。」
微軟發言人則對此說法作出回應,並描述了一套與 Ren 所說的相符的設計。微軟表示,其液冷熱交換系統屬於封閉循環,主要部署於既有、以空氣冷卻為主的資料中心,用以提升第一方與第三方平台的散熱能力。
該名發言人補充表示:「這些系統能讓我們在既有的全球資料中心布局下最大化擴充規模,同時促進高效率的散熱,並優化電力傳輸,以滿足 AI 與超大型系統的需求。」
AI 資料中心擴張 能源與用水問題浮上檯面
隨著 AI 基礎設施快速擴張,資料中心冷卻所需的能源與水資源,已在全球多地引發爭議,部分地區甚至出現對新建資料中心的反對聲浪。
Ren 指出,資料中心在建築層級可選擇空氣冷卻、水冷或混合式系統,本質上就是一種資源取捨。
他表示,空氣冷卻雖然耗能較高,卻能回應外界對用水量的疑慮,因為水資源的消耗往往更容易被公眾直接感知。
他直言,科技公司本質上仍是以獲利為導向,會在水費、電費以及公關形象成本之間進行權衡。
微軟則重申,其目標是在 2030 年前達成「碳負排放、水資源正效益與零廢棄物」。公司也已宣布,下一代資料中心將採用「零用水冷卻」設計,並在晶片層級冷卻技術上取得突破。
該封輝達內部郵件也提到,Blackwell 初期部署過程中曾出現一些物流與流程上的卡關,這在新一代資料中心硬體導入初期並不罕見。
內部郵件指出,現場支援對整體作業至關重要,團隊花費大量時間撰寫驗證流程文件,並確保相關步驟對不熟悉叢集與系統驗證的人員而言也能順利執行。
此外,輝達與微軟之間的交接流程,也需要比以往更明確的規範。
不過,郵件同時指出,與早期送交客戶測試的樣品相比,GB200 NVL72 的量產硬體品質已有明顯改善,兩組機櫃在特定運算效能測試中均達到 100% 通過率。
輝達發言人則表示,Blackwell 系統在效能、可靠性與能源效率方面皆表現出色,能支援各類運算應用。
輝達還強調,包括微軟在內的客戶,已成功部署數十萬套 Blackwell GB200 與 GB300 NVL72 系統,以因應全球日益成長的 AI 需求。
