螞蟻集團(tuán)發(fā)布百靈系列開源MoE模型,計(jì)算成本顯著降低

?? 由 文心大模型 生成的文章摘要

近日,螞蟻集團(tuán)在人工智能領(lǐng)域取得重大突破。由集團(tuán)CTO、平臺(tái)技術(shù)事業(yè)群總裁何征宇帶領(lǐng)的Ling Team團(tuán)隊(duì),成功開發(fā)出兩個(gè)百靈系列開源MoE(混合專家模型)模型——Ling – Lite和Ling – Plus。其中,Ling – Lite參數(shù)規(guī)模為 168 億,而 Ling – Plus 的基座模型參數(shù)規(guī)模更是高達(dá)2900億。這一成果在AI行業(yè)引發(fā)廣泛關(guān)注,對(duì)比當(dāng)下熱門模型,AI行業(yè)估計(jì)GPT – 4.5參數(shù)量為1.8萬億,DeepSeek – R1參數(shù)規(guī)模達(dá)6710億,螞蟻集團(tuán)的新模型在參數(shù)規(guī)模上已具備相當(dāng)?shù)母偁幜Α?

值得一提的是,螞蟻團(tuán)隊(duì)在模型預(yù)訓(xùn)練階段展現(xiàn)出卓越的成本控制能力。他們創(chuàng)新性地使用較低規(guī)格的硬件系統(tǒng),成功將計(jì)算成本降低約20%,最終計(jì)算成本僅為508萬元人民幣。而在性能方面,經(jīng)過嚴(yán)格測試,該模型實(shí)現(xiàn)了與阿里通義Qwen2.5 – 72B – Instruct和DeepSeek – V2.5 – 1210 – Chat相當(dāng)?shù)乃?。目前,相關(guān)技術(shù)成果論文已發(fā)表在預(yù)印版Arxiv平臺(tái)上,向全球科研人員展示了螞蟻集團(tuán)在 AI 領(lǐng)域的深厚技術(shù)積累和創(chuàng)新能力。?

根據(jù)彭博社消息,該模型在訓(xùn)練階段使用的是國產(chǎn)AI/GPGPU芯片產(chǎn)品,并非完全依賴英偉達(dá)芯片,卻獲得了與英偉達(dá)芯片(如H800)相似的結(jié)果。這不僅證明了國產(chǎn)芯片在AI計(jì)算領(lǐng)域的實(shí)力,也為國內(nèi)AI產(chǎn)業(yè)的發(fā)展注入了一針強(qiáng)心劑。?

這是螞蟻集團(tuán)首次全面且詳細(xì)地披露其在 AI 算力層面的進(jìn)展。一直以來,大語言模型的發(fā)展迅猛,特別是 DeepSeek 引發(fā)的熱潮,使得學(xué)界和業(yè)界對(duì)通用人工智能(AGI)展開了廣泛且深入的討論。其中,混合專家(MoE)模型在特定任務(wù)中展現(xiàn)出優(yōu)異性能,但因其訓(xùn)練高度依賴高性能計(jì)算資源,導(dǎo)致成本居高不下,這極大地限制了其在資源受限環(huán)境中的推廣應(yīng)用。?

螞蟻Ling團(tuán)隊(duì)深入分析行業(yè)現(xiàn)狀后認(rèn)為,盡管 MoE 模型訓(xùn)練對(duì)高性能 AI 芯片(如 H100 和 H800)需求巨大,且資源供應(yīng)存在一定挑戰(zhàn),但低性能加速器反而更易獲取,并且從單位成本效益來看頗具優(yōu)勢。因此,研發(fā)一款能夠在異構(gòu)計(jì)算單元和分布式集群間靈活切換的技術(shù)框架成為當(dāng)務(wù)之急。同時(shí),在 AI Infra 部分,團(tuán)隊(duì)著重在跨集群、跨設(shè)備的兼容和可靠性層面進(jìn)行性能優(yōu)化,明確設(shè)定了 “不使用高級(jí) GPU” 來擴(kuò)展模型的目標(biāo)。

在具體實(shí)踐過程中,螞蟻 Ling 團(tuán)隊(duì)在模型訓(xùn)練的各個(gè)關(guān)鍵環(huán)節(jié),包括訓(xùn)練環(huán)境、優(yōu)化策略、基礎(chǔ)設(shè)施、訓(xùn)練過程、評(píng)估結(jié)果以及推理等方面,都進(jìn)行了全面且深入的優(yōu)化與落地實(shí)施。?

預(yù)訓(xùn)練層面堪稱整個(gè)模型研發(fā)的基石,螞蟻團(tuán)隊(duì)在此投入了大量精力并取得了顯著成果。他們精心構(gòu)建了規(guī)模約9萬億token的高質(zhì)量語料庫,為模型的學(xué)習(xí)提供了豐富且優(yōu)質(zhì)的素材。在架構(gòu)設(shè)計(jì)上,采用了創(chuàng)新的MoE架構(gòu),并通過嚴(yán)謹(jǐn)?shù)姆治隹s放規(guī)律來精準(zhǔn)確定超參數(shù),同時(shí)采用多階段訓(xùn)練策略,有效應(yīng)對(duì)訓(xùn)練過程中出現(xiàn)的瞬時(shí)尖峰問題。此外,團(tuán)隊(duì)通過優(yōu)化模型架構(gòu)和訓(xùn)練策略,如選擇匹配架構(gòu)、集成訓(xùn)練框架、開發(fā)XPUTimer和EDiT策略等,大幅提高了訓(xùn)練效率。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」