輝達員工質疑微軟AI資料中心冷卻設計「浪費」！Blackwell 晶片部署引爆能源取捨爭議

隨著輝達 (NVDA-US) 陸續在微軟 (MSFT-US) 資料中心部署最新一代人工智慧（AI）晶片，一名輝達員工於今年初秋指出，微軟在其中一處設施採用的冷卻方式似乎顯得「有些浪費」。

根據《Business Insider》報導，在生成式 AI 熱潮推動下，各大科技公司對運算能力的需求急遽攀升，輝達正加快在微軟等雲端巨頭部署 GB200 Blackwell 架構晶片。

Blackwell 於 2024 年 3 月發表，輝達執行長黃仁勳當時表示，其效能約為前一代 Hopper 的兩倍。GB200 屬於 Blackwell 早期部署的一環，目前更新一代的 GB300 也已問世。

根據輝達基礎設施專家團隊一名員工於初秋發出的內部郵件，該團隊曾為 OpenAI 安裝 Blackwell 伺服器機櫃，而微軟正是 OpenAI 的雲端合作夥伴與最大投資人。

郵件指出，現場共部署兩組 GB200 NVL72 機櫃，每一組包含 72 顆輝達 GPU。由於多顆 GPU 高密度同時運作會產生大量熱能，伺服器本身採用了液冷技術。

不過，該名員工在郵件中寫道，微軟在這項 GB200 部署所採用的「冷卻系統與資料中心整體冷卻方式，因設施規模與用水量偏低而顯得有些浪費，但確實提供了高度彈性與容錯能力」。

加州大學電機與電腦工程副教授 Shaolei Ren 指出，即便伺服器層級使用液冷，資料中心仍需在建築層級透過第二套系統將熱量排出設施外。

他推測，輝達員工所指的，可能是微軟在建築層級採用以空氣為主、而非用水的冷卻系統。

Ren 長期研究資料中心的能源與水資源使用，他表示，這類空氣冷卻系統通常會「消耗較多電力，但幾乎不使用水資源。」

微軟發言人則對此說法作出回應，並描述了一套與 Ren 所說的相符的設計。微軟表示，其液冷熱交換系統屬於封閉循環，主要部署於既有、以空氣冷卻為主的資料中心，用以提升第一方與第三方平台的散熱能力。

該名發言人補充表示：「這些系統能讓我們在既有的全球資料中心布局下最大化擴充規模，同時促進高效率的散熱，並優化電力傳輸，以滿足 AI 與超大型系統的需求。」

隨著 AI 基礎設施快速擴張，資料中心冷卻所需的能源與水資源，已在全球多地引發爭議，部分地區甚至出現對新建資料中心的反對聲浪。

Ren 指出，資料中心在建築層級可選擇空氣冷卻、水冷或混合式系統，本質上就是一種資源取捨。

他表示，空氣冷卻雖然耗能較高，卻能回應外界對用水量的疑慮，因為水資源的消耗往往更容易被公眾直接感知。

他直言，科技公司本質上仍是以獲利為導向，會在水費、電費以及公關形象成本之間進行權衡。

微軟則重申，其目標是在 2030 年前達成「碳負排放、水資源正效益與零廢棄物」。公司也已宣布，下一代資料中心將採用「零用水冷卻」設計，並在晶片層級冷卻技術上取得突破。

該封輝達內部郵件也提到，Blackwell 初期部署過程中曾出現一些物流與流程上的卡關，這在新一代資料中心硬體導入初期並不罕見。

內部郵件指出，現場支援對整體作業至關重要，團隊花費大量時間撰寫驗證流程文件，並確保相關步驟對不熟悉叢集與系統驗證的人員而言也能順利執行。

此外，輝達與微軟之間的交接流程，也需要比以往更明確的規範。

不過，郵件同時指出，與早期送交客戶測試的樣品相比，GB200 NVL72 的量產硬體品質已有明顯改善，兩組機櫃在特定運算效能測試中均達到 100% 通過率。

輝達發言人則表示，Blackwell 系統在效能、可靠性與能源效率方面皆表現出色，能支援各類運算應用。

輝達還強調，包括微軟在內的客戶，已成功部署數十萬套 Blackwell GB200 與 GB300 NVL72 系統，以因應全球日益成長的 AI 需求。

相關貼文