
字節(jié)跳動豆包大模型團(tuán)隊宣布開源一項針對混合專家模型(MoE)架構(gòu)的關(guān)鍵優(yōu)化技術(shù)——COMET。這項創(chuàng)新技術(shù)能夠?qū)⒋竽P陀?xùn)練效率提升1.7倍,同時節(jié)省40%的成本,已經(jīng)在字節(jié)跳動的萬卡集群訓(xùn)練中得到應(yīng)用,累計節(jié)省了數(shù)百萬GPU小時的訓(xùn)練算力。?
MoE架構(gòu)作為當(dāng)前大模型的主流架構(gòu),通過將模型劃分為多個專家子網(wǎng)絡(luò),每個輸入僅動態(tài)激活部分專家,從而顯著減少計算量,實現(xiàn)了“大模型容量、小計算開銷”。然而,在分布式訓(xùn)練過程中,MoE架構(gòu)面臨著大量跨設(shè)備通信開銷的問題,嚴(yán)重制約了訓(xùn)練效率和成本。以海外主流模型 Mixtral-8x7B為例,其訓(xùn)練過程中通信時間占比可高達(dá)40%。?
字節(jié)跳動COMET計算-通信重疊技術(shù)通過多項創(chuàng)新,有效壓縮了MoE專家通信的空轉(zhuǎn)時間,大幅降低了MoE流水線上的通信延遲。這一技術(shù)使得計算和通信能夠更加緊密協(xié)同工作,顯著提高了訓(xùn)練效率。同時,COMET技術(shù)的應(yīng)用成功將大模型訓(xùn)練成本降低了40%,為大模型研發(fā)帶來了顯著的經(jīng)濟(jì)效益。?
與DeepSeek近期開源的DualPipe等MoE優(yōu)化方案相比,COMET具有更好的兼容性和易用性。可以像插件一樣直接接入已有的MoE訓(xùn)練框架,支持業(yè)界絕大部分主流大模型,無需對訓(xùn)練框架進(jìn)行侵入式改動。此外,COMET還可以與DualPipe方案聯(lián)合使用,進(jìn)一步壓縮模型訓(xùn)練成本。?
COMET技術(shù)的優(yōu)勢不僅體現(xiàn)在訓(xùn)練效率和成本的優(yōu)化上,還在于其靈活的部署方式。該技術(shù)支持多種MoE并行模式,能夠適應(yīng)不同的訓(xùn)練需求。目前,COMET的核心代碼已經(jīng)開源,并向開發(fā)者提供了一套友好的Python API,方便開發(fā)者集成和使用。未來,COMET還計劃兼容Triton等編譯生態(tài),進(jìn)一步提升其性能和應(yīng)用范圍。?








