META:Llama 3模型訓練平均每3小時故障一次 GPU問題占最大類

據科技媒體 tomshardware 報導,Meta (META-US) 最近發布了一項研究,詳細介紹了在包含 16,384 個 Nvidia(NVDA-US) H100 80GB GPU 的叢集上運行的 Llama 3 405B 模型訓練。訓練運行持續了 54 天,在此期間群集遇到了 419 個意外組件故障,平均每 3 個小時發生一次故障。

報導稱,GPU 或其板載 HBM3 記憶體占了近一半的故障案例,凸顯 GPU 的重要性與脆弱性。多達 16,384 個 GPU 訓練的規模和同步特性,使其容易發生故障。如果未能正確緩解故障,單一 GPU 故障可能會中斷整個訓練作業,從而需要重新啟動。

正如古老的超級計算格言所說,大規模系統唯一確定的就是失敗。超級電腦是極其複雜的設備,每隔幾個小時就會出現故障,這是很正常的,開發人員的主要技巧是確保系統保持運行。

Llama 3 團隊表示,他們維持了 90% 以上的有效訓練時間。

在為期 54 天的預訓練快照中,出現了 466 次工作中斷,其中 47 次是計畫中斷,419 次是意外中斷。計畫內的中斷是由於自動化維護造成的,而意外的中斷則主要源自於硬體問題。 GPU 問題是最大的一類,占意外中斷的 58.7%。只有三起事件需要大量人工干預,其餘的由自動化管理。

在 419 個意外中斷中,148 個 (30.1%) 是由各種 GPU 故障 (包括 NVLink 故障) 引起的,而 72 個 (17.2%) 是由 HBM3 記憶體故障引起的。

雖然 GPU 是最重要的組件,但也很脆弱,但 41.3% 的意外中斷是由多種因素造成的,包括軟體錯誤、網路電纜和網路適配器。