META：Llama 3模型訓練平均每3小時故障一次 GPU問題占最大類

鉅亨網新聞中心2024年7月29號15點40分

據科技媒體 tomshardware 報導，Meta (META-US) 最近發布了一項研究，詳細介紹了在包含 16,384 個 Nvidia(NVDA-US) H100 80GB GPU 的叢集上運行的 Llama 3 405B 模型訓練。訓練運行持續了 54 天，在此期間群集遇到了 419 個意外組件故障，平均每 3 個小時發生一次故障。

報導稱，GPU 或其板載 HBM3 記憶體占了近一半的故障案例，凸顯 GPU 的重要性與脆弱性。多達 16,384 個 GPU 訓練的規模和同步特性，使其容易發生故障。如果未能正確緩解故障，單一 GPU 故障可能會中斷整個訓練作業，從而需要重新啟動。

正如古老的超級計算格言所說，大規模系統唯一確定的就是失敗。超級電腦是極其複雜的設備，每隔幾個小時就會出現故障，這是很正常的，開發人員的主要技巧是確保系統保持運行。

Llama 3 團隊表示，他們維持了 90% 以上的有效訓練時間。

在為期 54 天的預訓練快照中，出現了 466 次工作中斷，其中 47 次是計畫中斷，419 次是意外中斷。計畫內的中斷是由於自動化維護造成的，而意外的中斷則主要源自於硬體問題。 GPU 問題是最大的一類，占意外中斷的 58.7%。只有三起事件需要大量人工干預，其餘的由自動化管理。

在 419 個意外中斷中，148 個 (30.1%) 是由各種 GPU 故障 (包括 NVLink 故障) 引起的，而 72 個 (17.2%) 是由 HBM3 記憶體故障引起的。

雖然 GPU 是最重要的組件，但也很脆弱，但 41.3% 的意外中斷是由多種因素造成的，包括軟體錯誤、網路電纜和網路適配器。