91无码高清视频在线播放|亚洲最大成人在线资源|日本黄色免费调教网站|亚洲春色一区二区三区|国产一级一区二区三区|成人免费 做受电影无码

歡迎訪問(wèn)漢海網(wǎng),帶你進(jìn)入知識(shí)的海洋!

清華發(fā)布SmartMoE:支持用戶一鍵實(shí)現(xiàn) MoE 模型分布式訓(xùn)練

方應(yīng) 分享 時(shí)間: 瀏覽:0

8月8日 消息:清華大學(xué)計(jì)算機(jī)系 PACMAN 實(shí)驗(yàn)室發(fā)布了一種稀疏大模型訓(xùn)練系統(tǒng) SmartMoE,該系統(tǒng)支持用戶一鍵實(shí)現(xiàn) Mixture-of-Experts(MoE)模型的分布式訓(xùn)練,并通過(guò)自動(dòng)搜索并行策略來(lái)提高訓(xùn)練性能。

論文地址:https://www.usenix.org/system/files/atc23-zhai.pdf

項(xiàng)目地址:https://github.com/zms1999/SmartMoE

MoE 是一種模型稀疏化技術(shù),通過(guò)將小模型轉(zhuǎn)化為多個(gè)稀疏激活的小模型來(lái)擴(kuò)展模型參數(shù)量。然而,傳統(tǒng)的專家并行技術(shù)在訓(xùn)練 MoE 模型時(shí)存在性能問(wèn)題,因?yàn)橄∈杓せ钅J綄?dǎo)致節(jié)點(diǎn)間不規(guī)則的 all-to-all 通信增加延遲和計(jì)算負(fù)載不均。

為了解決這些問(wèn)題,SmartMoE 系統(tǒng)設(shè)計(jì)了專家放置策略和自動(dòng)并行算法。通過(guò)對(duì)常用并行策略的支持和動(dòng)態(tài)負(fù)載均衡,SmartMoE 系統(tǒng)在性能測(cè)試中表現(xiàn)出較高的加速比。

該系統(tǒng)的特點(diǎn)包括:

  • 支持常用并行策略:SmartMoE 系統(tǒng)對(duì)數(shù)據(jù)并行、流水線并行、模型并行和專家并行等四種并行策略進(jìn)行了全面的支持,并允許用戶任意組合這些策略。

  • 專家放置策略:為了處理 MoE 模型的動(dòng)態(tài)計(jì)算負(fù)載,SmartMoE 系統(tǒng)設(shè)計(jì)了專家放置策略,根據(jù)當(dāng)前負(fù)載調(diào)整專家的放置順序,實(shí)現(xiàn)節(jié)點(diǎn)間的負(fù)載均衡。

  • 兩階段自動(dòng)并行算法:為了提高 MoE 模型復(fù)雜混合并行策略的易用性,SmartMoE 系統(tǒng)設(shè)計(jì)了一套輕量級(jí)且有效的兩階段自動(dòng)并行算法。這個(gè)算法將自動(dòng)并行搜索過(guò)程分為訓(xùn)練開(kāi)始前的搜索和訓(xùn)練過(guò)程中的動(dòng)態(tài)調(diào)整兩個(gè)階段,以減少搜索的開(kāi)銷。

  • 高性能:在性能測(cè)試中,SmartMoE 在不同模型結(jié)構(gòu)、集群環(huán)境和規(guī)模下都表現(xiàn)出優(yōu)異的性能。相較于之前的 FasterMoE 系統(tǒng),SmartMoE 能夠?qū)崿F(xiàn)高達(dá)1.88倍的加速比。

總之,SmartMoE 是一種可以一鍵實(shí)現(xiàn)高性能 MoE 稀疏大模型分布式訓(xùn)練的系統(tǒng),具有支持多種并行策略、專家放置策略和兩階段自動(dòng)并行算法的特點(diǎn)。通過(guò)這些特點(diǎn),SmartMoE 系統(tǒng)能夠提高 MoE 模型的易用性和訓(xùn)練性能,助力 MoE 大模型的發(fā)展。

本文來(lái)源于站長(zhǎng)之家,如有侵權(quán)請(qǐng)聯(lián)系刪除

本站部分文章來(lái)自網(wǎng)絡(luò)或用戶投稿。涉及到的言論觀點(diǎn)不代表本站立場(chǎng)。閱讀前請(qǐng)查看【免責(zé)聲明】發(fā)布者:方應(yīng),如若本篇文章侵犯了原著者的合法權(quán)益,可聯(lián)系我們進(jìn)行處理。本文鏈接:http://www.gdyuanyu.cn/tougao/95062.html

221381