輝達黃仁勳200億美元神操作!Groq的LPU架構為何可能成為稱霸「推理」領域的關鍵?

輝達黃仁勳200億美元神操作。(圖:Shutterstock)
輝達黃仁勳200億美元神操作。(圖:Shutterstock)

《Wccftech》指出,輝達 (NVDA-US) 執行長黃仁勳與人工智慧(AI)推理硬體開發商 Groq 達成一項價值 200 億美元的協議可以說是一場「大師級示範」。黃仁勳不但成功運用了監管漏洞,更是還牢牢掌握了硬體主導地位。

根據《Wccftech》報導,輝達已與 Groq 公司達成一項價值 200 億美元的協議。這項交易不僅是黃仁勳任內規模最大的收購案,更被業界視為輝達統治 AI 「推理」市場的關鍵一步。

這份最初由《CNBC》揭露的這筆交易一度引發業界震撼,許多人擔憂如此龐大的收購案將面臨嚴格的反壟斷審查。

然而,Groq 隨後發布官方聲明澄清,雙方簽署的是「非獨家授權協議」,輝達藉此獲得其推理技術的使用權,而非直接消滅 Groq 實體。

黃仁勳在內部郵件中明確表示:「我們計畫將 Groq 的低延遲處理器整合至輝達的 AI 工廠架構中,進一步擴展該平台,以支援更廣泛的 AI 推理與即時運算工作負載。」

他還指出:「同時,我們也將延攬部分優秀人才加入團隊,並授權使用 Groq 的智慧財產,但並非收購 Groq 這家公司。」

《Wccftech》指出,這種手法被分析師稱為「反向收購招聘」(Reverse Acqui-hire),與微軟在 2024 年吸收 Inflection AI 核心成員 Mustafa Suleyman 和 Karén Simonya 等 AI 領域領導者的策略如出一轍。

透過這種方式,輝達成功聘用了包括 Google(GOOGL-US) TPU 工程師、Groq 前執行長 Jonathan Ross 在內的核心人才,並取得關鍵智慧財產權,同時讓 Groq 僅維持基本的公司運作。

分析指出,這也讓該交易繞過了《哈特—斯各特— 羅迪諾反托拉斯改進法》(HSR Act)的範疇,成功規避了美國聯邦貿易委員會(FTC)長達數月的監管調查,僅用數天時間便完成交易。

Groq 的 LPU 架構及其何可能成為輝達稱霸推理領域的關鍵

分析指出,Groq 已經建立起一套硬體生態系統,有潛力複製輝達在「訓練時代」的成功。

過去幾個月,AI 產業在運算需求方面出現了劇烈變化。像 OpenAI、Meta(META-US) 、Google 等公司,除了持續訓練最尖端的模型之外,也同樣積極打造穩健的推理架構,因為這正是多數超大型雲端服務商實際賺錢的地方。

當 Google 發表 Ironwood TPU 時,市場將其視為專注於「推理」的選項而大肆炒作,這類 ASIC 甚至被宣稱可取代輝達,主要原因在於當時外界認為黃仁勳尚未推出一款能在推理吞吐量上占據主導地位的解決方案。

談到推理時,運算需求會出現根本性的改變:在訓練階段,產業更重視吞吐量而非延遲,並且需要高算術密集度,這也是為何現代加速器會配備 HBM 與大量 Tensor Core。

隨著超大型雲端服務商逐步轉向推理,他們如今需要的是快速、可預測、且以前饋為核心的執行引擎,因為回應延遲才是最大的瓶頸。

為了提供高速運算,輝達針對大上下文推理推出 Rubin CPX;而 Google 則主打 TPU 具備更高的能源效率。

然而,在「解碼」階段,市場上其實可選方案並不多。

所謂解碼,是指 Transformer 模型推理過程中的「token 生成」階段,而這個階段正日益成為 AI 工作負載分類中的關鍵環節。

解碼需要具備確定性與極低延遲的行為表現;再加上在推理環境中使用 HBM 所帶來的延遲與功耗限制,Groq 提出了一項相當獨特的做法,使用靜態隨機存取記憶體(SRAM)。

Groq 的 LPU:結合高延遲解碼需求,並在每個 token 的可預測性上勝過對手

語言處理單元(Language Processing Unit、LPU)是 Groq 前執行長 Jonathan Ross 的創作。Ross 在近期相關安排後即將加入輝達。

他因參與 Google TPU 的開發而聞名,因此可以確定的是,輝達正把一項關鍵人才與技術資產納入體系。

LPU 是 Groq 為推理型工作負載所打造的解決方案,而其與眾不同之處,建立在兩個核心賭注之上:第一是確定性執行,第二是以晶片內 SRAM 作為主要權重儲存方式。這正是 Groq 透過「可預測性」來換取速度的關鍵策略。

Groq 過去已展示兩項主要產品:自家的 GroqChip 以及與夥伴合作推出的 GroqCard。

根據官方文件,這些晶片具備 230MB 的晶片內 SRAM,且晶片內記憶體頻寬高達 80TB/s。

使用 SRAM 是 LPU 的核心優勢之一,因為其延遲可低上數個數量級。若將 DRAM 存取延遲與記憶體控制器佇列一併納入考量,SRAM 的表現可說是大幅勝出。

晶片內 SRAM 讓 Groq 能實現每秒數十 TB 的內部頻寬,進而提供領先業界的吞吐量。

此外,SRAM 也讓 Groq 能提供更具能源效率的平台,因為 SRAM 每位元的存取能耗顯著更低,且不需要 PHY 開銷。

在解碼階段,LPU 每個 token 的能耗表現大幅改善,這點尤其重要,因為解碼工作負載高度依賴記憶體。

這些是 LPU 在架構層面的優勢,但即便如此,這仍只是其效能表現的一部分。另一個關鍵在於「確定性週期」,也就是透過編譯階段排程來消除不同核心之間的時間變異。

編譯期排程可確保解碼管線中幾乎不存在任何「延遲」,這一點至關重要,因為它能讓管線利用率達到近乎完美,使整體吞吐量遠高於現今多數加速器。

總結來說,LPU 是完全為超大型雲端服務商的推理需求而生的硬體,但產業目前往往忽略了一個但書:LPU 的確是真實且有效的推理硬體,卻高度專用,尚未成為主流的預設平台,而這正是輝達可以介入的地方。

分析指出,目前仍不清楚 LPU 將如何被整合進輝達的產品線,但其中一種可能性,是將其納入機櫃等級的推理系統中(類似 Rubin CPX),並搭配網路基礎架構。

如此一來,GPU 可負責預先填充與長上下文處理,而 LPU 則專注於解碼,等於在推理任務中,輝達能提供完整的一條龍解決方案。

這將使 LPU 從「實驗性選項」轉變為標準推理方法,並確保其在超大型雲端服務商之間獲得廣泛採用。

毫無疑問,這筆交易是輝達在擴展其產品版圖方面的重大里程碑之一,因為各種跡象都顯示,「推理」將成為輝達接下來著墨的重點,而 LPU 也將成為其 AI 工作負載策略中的核心要角。


延伸閱讀

相關貼文

prev icon
next icon