最近免费字幕中文大全,www天堂网 http://pinmang.cn 93913成立于2015年9月13日,是目前國內最早且最具知名度和影響力的元宇宙&AI產業(yè)服務商,通過93913為用戶提供信息服務以及元宇宙&AI領域相關廠商提供整體品牌傳播、發(fā)布會、開發(fā)者大賽、連接商業(yè)項目以及FA投融資顧問等服務。 Mon, 24 Mar 2025 16:16:05 +0000 zh-CN hourly 1 https://wordpress.org/?v=6.6.2 螞蟻集團發(fā)布百靈系列開源MoE模型,計算成本顯著降低 http://pinmang.cn/109426.html http://pinmang.cn/109426.html#respond Mon, 24 Mar 2025 16:16:05 +0000 http://pinmang.cn/?p=109426

近日,螞蟻集團在人工智能領域取得重大突破。由集團CTO、平臺技術事業(yè)群總裁何征宇帶領的Ling Team團隊,成功開發(fā)出兩個百靈系列開源MoE(混合專家模型)模型——Ling – Lite和Ling – Plus。其中,Ling – Lite參數(shù)規(guī)模為 168 億,而 Ling – Plus 的基座模型參數(shù)規(guī)模更是高達2900億。這一成果在AI行業(yè)引發(fā)廣泛關注,對比當下熱門模型,AI行業(yè)估計GPT – 4.5參數(shù)量為1.8萬億,DeepSeek – R1參數(shù)規(guī)模達6710億,螞蟻集團的新模型在參數(shù)規(guī)模上已具備相當?shù)母偁幜Α?

值得一提的是,螞蟻團隊在模型預訓練階段展現(xiàn)出卓越的成本控制能力。他們創(chuàng)新性地使用較低規(guī)格的硬件系統(tǒng),成功將計算成本降低約20%,最終計算成本僅為508萬元人民幣。而在性能方面,經過嚴格測試,該模型實現(xiàn)了與阿里通義Qwen2.5 – 72B – Instruct和DeepSeek – V2.5 – 1210 – Chat相當?shù)乃?。目前,相關技術成果論文已發(fā)表在預印版Arxiv平臺上,向全球科研人員展示了螞蟻集團在 AI 領域的深厚技術積累和創(chuàng)新能力。?

根據(jù)彭博社消息,該模型在訓練階段使用的是國產AI/GPGPU芯片產品,并非完全依賴英偉達芯片,卻獲得了與英偉達芯片(如H800)相似的結果。這不僅證明了國產芯片在AI計算領域的實力,也為國內AI產業(yè)的發(fā)展注入了一針強心劑。?

這是螞蟻集團首次全面且詳細地披露其在 AI 算力層面的進展。一直以來,大語言模型的發(fā)展迅猛,特別是 DeepSeek 引發(fā)的熱潮,使得學界和業(yè)界對通用人工智能(AGI)展開了廣泛且深入的討論。其中,混合專家(MoE)模型在特定任務中展現(xiàn)出優(yōu)異性能,但因其訓練高度依賴高性能計算資源,導致成本居高不下,這極大地限制了其在資源受限環(huán)境中的推廣應用。?

螞蟻Ling團隊深入分析行業(yè)現(xiàn)狀后認為,盡管 MoE 模型訓練對高性能 AI 芯片(如 H100 和 H800)需求巨大,且資源供應存在一定挑戰(zhàn),但低性能加速器反而更易獲取,并且從單位成本效益來看頗具優(yōu)勢。因此,研發(fā)一款能夠在異構計算單元和分布式集群間靈活切換的技術框架成為當務之急。同時,在 AI Infra 部分,團隊著重在跨集群、跨設備的兼容和可靠性層面進行性能優(yōu)化,明確設定了 “不使用高級 GPU” 來擴展模型的目標。

在具體實踐過程中,螞蟻 Ling 團隊在模型訓練的各個關鍵環(huán)節(jié),包括訓練環(huán)境、優(yōu)化策略、基礎設施、訓練過程、評估結果以及推理等方面,都進行了全面且深入的優(yōu)化與落地實施。?

預訓練層面堪稱整個模型研發(fā)的基石,螞蟻團隊在此投入了大量精力并取得了顯著成果。他們精心構建了規(guī)模約9萬億token的高質量語料庫,為模型的學習提供了豐富且優(yōu)質的素材。在架構設計上,采用了創(chuàng)新的MoE架構,并通過嚴謹?shù)姆治隹s放規(guī)律來精準確定超參數(shù),同時采用多階段訓練策略,有效應對訓練過程中出現(xiàn)的瞬時尖峰問題。此外,團隊通過優(yōu)化模型架構和訓練策略,如選擇匹配架構、集成訓練框架、開發(fā)XPUTimer和EDiT策略等,大幅提高了訓練效率。

「93913原創(chuàng)內容,轉載請注明出處」
]]>
http://pinmang.cn/109426.html/feed 0