無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

投稿用戶 ? 2024年5月17日上午8:29 ? 科研百科 ? 閱讀 38

機器之心報道

作者：杜偉、陳萍

繼1.0.0 版本推出不到兩個月的時間，grid.ai CEO、紐約大學博士 William Falcon 創(chuàng)建的 PyTorch Lightning 于近日宣布推出 1.1 版本。新版本新增了 sharded training 功能，在多 GPU 上訓練深度學習（DL）模型時可以節(jié)省 50% 以上的內(nèi)存，并且沒有性能損失，也不需要更改代碼。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

與 Facebook Research 的 FairScale 團隊一道，PyTorch Lightning 團隊在 1.1 版本中推出了 Sharded Training beta 版。在下面的博客文章中，PyTorch Lightning 團隊的研究工程師 Sean Narenthiran 展示了只需要在 Lightning 訓練器中增加單一的 flag，則在多 GPU 上訓練 DL 模型時就會實現(xiàn)內(nèi)存的大幅度降低。

此外，作者還介紹了如何使用 NeMo 來預訓練 Transformer LM，并實現(xiàn) 55% 的內(nèi)存提升，以及訓練其他 PyTorch Lightning 賦能模型時進一步的內(nèi)存降低。除了給出使用 NeMO Transformer LM 時 NLP 中的結(jié)果之外，作者還分別展示了語音識別中使用 DeepSpeech 2 以及計算機視覺中訓練 SwAV ResNet 和 iGPT 的結(jié)果。

PyTorch Lightning 團隊正努力增添新的模型并行化技術(shù)并保證魯棒性，并且與 FairScale 團隊展開合作提升所有 PyTorch Lightning 研究中的模型擴展性能。

更多使用技巧參考：https://pytorch-lightning.readthedocs.io/en/stable/multi_gpu.html#multi-gpu-training

更大的模型，更高的準確率

語言建模趨向于更大的預訓練模型，這種模型在下游任務中表現(xiàn)得更好。OpenAI 的 GPT-3 就是一個很好的例子，該模型有 1750 億個參數(shù)，在訓練時需要大量的計算與優(yōu)化技巧。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

比較了語言模型參數(shù)隨時間變化的曲線，GPT-3 繼續(xù)在規(guī)模上超越。（圖源：Microsoft）

訓練大型模型時，內(nèi)存很寶貴。當擴展模型大小時，GPU 的內(nèi)存會被耗盡，而這又限制了訓練模型的大小。這使得團隊不斷嘗試更智能的內(nèi)存管理技術(shù)。

Lightning 的 Sharded Training

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

傳統(tǒng)分布式訓練 VS Sharded Training。參數(shù)（P）在 GPU 之間拆分，以減少每個 GPU 的內(nèi)存開銷。Sharded Training 則拆分了優(yōu)化器狀態(tài)和梯度。

受微軟 Zero Redundancy Optimizer (ZeRO) 的啟發(fā)，Sharded Training 可以減少在多個 GPU 上訓練大型模型所需的內(nèi)存，訓練過程中在 GPU 之間「切分」模型。Sharding 包括將參數(shù)分割到不同的設備上，減少每個設備所需的內(nèi)存。特別地，優(yōu)化器狀態(tài)和梯度可以獨立于模型進行切分，并且可以減少所有架構(gòu)所需的內(nèi)存。

Sharded Training 是在 FairScale 基礎上構(gòu)建的，與 PyTorch 兼容并得到優(yōu)化。FairScale 是一個 PyTorch 擴展庫，用于高性能以及大規(guī)模訓練模型和數(shù)據(jù)并行。除了切分技術(shù)之外，它具有層間和層內(nèi)并行性以及跨多個 GPU 和主機拆分模型。

通過在 GPU 上進行智能梯度和優(yōu)化器狀態(tài) sharding，可以分別將內(nèi)存成本（基于微軟論文《ZeRO: Memory Optimizations Toward Training Trillion Parameter Models》的數(shù)據(jù)）降低大約 4 倍和 8 倍。這有利于所有模型，在所有模型架構(gòu)以及訓練過程中提供較低的內(nèi)存使用率。需要注意的是，由于節(jié)點之間所需通信量的增加以及缺乏并行性，「naive implementations」導致運行速度急劇下降。

通過與 FairScale 的緊密合作，現(xiàn)在可以在所有 lightning 模塊上實現(xiàn) 55% 以上的內(nèi)存減少，只需通過一個單一的 flag，這意味著更大的機型可以適應內(nèi)存有限的多張 GPU。

在不更改代碼的情況下啟用 Sharded Training

為了展示在 Lightning 中使用 Sharded Training 有多簡單，使用 NVIDIA 的一個流行庫 NeMo 來訓練 Lightning 支持的對話 AI 模型。使用 NeMo 中提供的 vanilla Transformer LM 模型，有 12 億個參數(shù)，該模型對訓練內(nèi)存要求很高。在訓練大型語言模型時，內(nèi)存是提高模型大小或提升 GPU 飽和度的寶貴資源。此外使用 WikiText 數(shù)據(jù)集訓練模型。

首先下載數(shù)據(jù)集并使用 NVIDIA NeMo 提供的處理腳本進行提取，然后在 NeMo 中找到預配置文件定義模型配置，修改數(shù)據(jù)輸入指向自定義數(shù)據(jù)集。為了進行基準測試，還構(gòu)建了一個簡單的基于單詞的詞匯表。

在設置模型參數(shù)之后，用戶只需要將 Sharded 插件 flag 傳遞給支持 Sharded Traing 的訓練器就可以了。用戶還可以通過增加 GPU 數(shù)量和啟用本地混合精度（native mixed precision）來實現(xiàn)內(nèi)存和速度的進一步提升。分區(qū)優(yōu)化器和 GPU 之間的通信可以在后臺自動處理。

下面介紹了使用 Lightning 內(nèi)置 Sharding 與普通 GPU 擴展時每臺設備的內(nèi)存提升情況，每臺設備的內(nèi)存分配保持不變。不僅如此，Lightning 團隊還給出了 SwAW、DeepSpeech 2 和 iGPT 等其他 PyTorch Lightning 支持模型的測試結(jié)果。

結(jié)果表明，每個 GPU 上最高節(jié)省內(nèi)存 15GiB，從而可以增加模型能力。例如，在硬件一樣的情況下，訓練 Transformer LM 時模型參數(shù)量可以從 12 億增至 20 億。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

使用 8 個 A100s 時訓練 Transformer LM、SwAV Wide ResNet、DeepSpeech2 和 iGPT 時的平均峰值內(nèi)存比較。

隨著 GPU 之間通信的優(yōu)化，與標準分布式加速器相比，節(jié)點內(nèi)性能的擴展效果更好。請注意，隨著向很多節(jié)點的擴展，內(nèi)存降低的效果開始減弱，這是因為其他因素成為了瓶頸。但是，Sharded training 依然帶來良好的 throughout 擴展。

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

在 8 個具有相同超參數(shù)和批大小的 A100s 上的平均 Epoch time 比較，越低越好。

博客地址：https://seannaren.medium.com/introducing-pytorch-lightning-sharded-train-sota-models-with-half-the-memory-7bcc8b4484f

版權(quán)聲明：本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻，該文觀點僅代表作者本人。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容，請發(fā)送郵件至舉報，一經(jīng)查實，本站將立刻刪除。

贊 (0)

投稿用戶

it項目管理系統(tǒng)的主要功能模塊(it 項目管理系統(tǒng))

上一篇 2024年5月17日上午8:23

ssm的項目(ssm項目管理)

下一篇 2024年5月17日上午8:35

政府信息化系統(tǒng)項目管理

政府信息化系統(tǒng)項目管理隨著信息技術(shù)的不斷發(fā)展，政府信息化系統(tǒng)已經(jīng)成為政府管理中不可或缺的一部分。政府信息化系統(tǒng)的建設和管理對于提高政府工作效率、提升政府服務水平、促進政府民主化建…

投稿用戶
科研百科 2025年1月16日
90
研究生做什么科研項目

研究生做什么科研項目作為一名研究生，做什么科研項目是一個重要的課題。科研項目可以是任何感興趣的領域，例如生物學，化學，物理學，計算機科學等等。在研究生期間，學生通常會花費大量的時…

投稿用戶
科研百科 2025年5月21日
10
注冊生化技術(shù)研究院的流程（注冊生化技術(shù)研究院的流程是什么）

在繼續(xù)探討注冊生化技術(shù)研究院的流程時，我們需要考慮從初步籌備到最終獲得運營許可的各個環(huán)節(jié)。這些步驟不僅涉及到法律和行政程序，還涵蓋了科研、財務和人事等多個方面。首先，在籌備階段，…

投稿用戶
科研百科 2024年4月20日
710
軟件項目管理關鍵點

軟件項目管理關鍵點隨著計算機技術(shù)的不斷發(fā)展，軟件項目已經(jīng)成為現(xiàn)代社會中不可或缺的一部分。一個好的軟件項目需要嚴格的計劃、組織和控制，以確保項目按時完成，并且達到預期的質(zhì)量和成本目…

投稿用戶
科研百科 2025年1月12日
100
數(shù)字化OA辦公系統(tǒng)產(chǎn)品服務全景圖（數(shù)字化oa辦公系統(tǒng)產(chǎn)品服務全景圖）

數(shù)字化服務全景圖：向您展示數(shù)字化基礎能力、數(shù)字化基礎底座、數(shù)字化數(shù)據(jù)倉庫、數(shù)字化數(shù)據(jù)中臺、數(shù)據(jù)集成4A平臺、數(shù)字化流程平臺、人工智能AI技術(shù)、數(shù)據(jù)RPA機器人、數(shù)據(jù)管理中臺。業(yè)務經(jīng)…

投稿用戶
科研百科 2024年6月14日
540
延安黨建信息化進入倒計時?。ㄑ影彩谢ヂ?lián)網(wǎng)黨建云平臺）

6月5日，“延安黨建云平臺”信息錄入和功能使用培訓會（第一期）在延安職業(yè)技術(shù)學院舉行，本次培訓會分兩期進行，會期2天，先后對市委直屬機關黨工委直屬各機關及其直屬黨委、黨總支和各縣區(qū)…

投稿用戶
科研百科 2023年2月6日
3920
低代碼在制造業(yè)的應用前景（低代碼在制造業(yè)的應用前景如何）

引言數(shù)字化轉(zhuǎn)型已經(jīng)成為制造業(yè)的必然趨勢，為了應對市場的快速變化、提高效率、降低成本，制造業(yè)企業(yè)不得不追求更智能、更敏捷的生產(chǎn)方式。在這一轉(zhuǎn)型過程中，低代碼技術(shù)嶄露頭角，成為了一種…

投稿用戶
科研百科 2024年1月11日
1050
參與別人的科研項目

參與別人的科研項目是一種很有意義的活動，不僅可以提高個人技能，還可以為科學研究做出貢獻。本文將介紹參與科研項目的一些基本步驟和注意事項，以及如何提高自己的參與度。首先，參與科研項…

投稿用戶
科研百科 2025年2月23日
80
日本項目管理系統(tǒng)網(wǎng)站

日本項目管理系統(tǒng)網(wǎng)站隨著數(shù)字化時代的到來，項目管理系統(tǒng)在軟件開發(fā)和項目管理中變得越來越重要。其中，日本項目管理系統(tǒng)網(wǎng)站成為了一個非常受歡迎的選擇。日本項目管理系統(tǒng)網(wǎng)站是一個專門…

投稿用戶
科研百科 2025年8月24日
10
申報科研項目流程

申報科研項目流程申報科研項目流程是進行科研項目申報的重要步驟，這個過程涉及到多個部門和機構(gòu)，包括科研管理部門、技術(shù)部門、財務部門等。以下是一般的申報科研項目流程： 1. 確定科研…

投稿用戶
科研百科 2025年2月13日
140

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）

相關推薦

無性能損失，不用更改代碼，Lightning 1.1版本發(fā)布（lightning系統(tǒng)）