
9月12日,上海創(chuàng)智學(xué)院正式對(duì)外發(fā)布兩項(xiàng)重磅成果——自主可控的強(qiáng)化學(xué)習(xí)框架siiRL 2.0與低比特訓(xùn)練技術(shù)Metis,為我國(guó)大模型產(chǎn)業(yè)發(fā)展注入關(guān)鍵動(dòng)力,標(biāo)志著國(guó)內(nèi)在AI基礎(chǔ)設(shè)施核心技術(shù)領(lǐng)域?qū)崿F(xiàn)重要突破。?
作為此次發(fā)布的核心成果之一,siiRL 2.0強(qiáng)化學(xué)習(xí)框架憑借其卓越的性能與兼容性,被業(yè)內(nèi)專家譽(yù)為“下一代AI模型的動(dòng)力引擎”。該框架從底層架構(gòu)設(shè)計(jì)階段便充分考慮國(guó)產(chǎn)芯片適配需求,原生支持華為昇騰910、沐曦MX1等多款主流國(guó)產(chǎn)AI芯片,徹底打破了此前部分國(guó)外框架對(duì)國(guó)產(chǎn)硬件的適配壁壘。更值得關(guān)注的是,siiRL 2.0成功實(shí)現(xiàn)千卡級(jí)強(qiáng)化學(xué)習(xí)集群訓(xùn)練能力,這一突破在國(guó)內(nèi)尚屬首次——此前國(guó)內(nèi)同類框架普遍局限于百卡級(jí)訓(xùn)練規(guī)模,千卡級(jí)訓(xùn)練的實(shí)現(xiàn)意味著我國(guó)在大模型并行計(jì)算技術(shù)上邁出關(guān)鍵一步,可支撐更復(fù)雜、更大規(guī)模的AI模型研發(fā),如千億參數(shù)級(jí)多模態(tài)大模型、工業(yè)級(jí)智能決策系統(tǒng)等。?
不僅如此,siiRL 2.0采用完全分布式架構(gòu)設(shè)計(jì),具備極強(qiáng)的擴(kuò)展性,未來(lái)可平滑擴(kuò)展至萬(wàn)卡級(jí)集群,為超大規(guī)模AI模型訓(xùn)練提供充足算力支撐。在實(shí)際應(yīng)用場(chǎng)景測(cè)試中,該框架展現(xiàn)出驚人的效率優(yōu)勢(shì):在多模態(tài)內(nèi)容生成(如圖文跨模態(tài)理解、視頻語(yǔ)義分析)和長(zhǎng)上下文處理(如百萬(wàn)字級(jí)文檔摘要、超長(zhǎng)對(duì)話生成)場(chǎng)景下,其運(yùn)算效率較當(dāng)前國(guó)際主流的強(qiáng)化學(xué)習(xí)框架(如Ray RLlib、Stable Baselines3)提升2-7倍,能有效縮短大模型研發(fā)周期,降低企業(yè)算力成本。針對(duì)當(dāng)前全球TOP50大模型中80%未開(kāi)源、技術(shù)壁壘高企的現(xiàn)狀,siiRL 2.0堅(jiān)持開(kāi)源生態(tài)路線,已在GitHub等平臺(tái)開(kāi)放核心代碼與開(kāi)發(fā)文檔,將推動(dòng)多智能體協(xié)同控制、深度認(rèn)知推理等前沿技術(shù)的普惠化發(fā)展,助力中小科技企業(yè)與科研機(jī)構(gòu)快速切入大模型研發(fā)領(lǐng)域,加速AGI(通用人工智能)技術(shù)落地。?
與此同時(shí),上海創(chuàng)智學(xué)院研發(fā)團(tuán)隊(duì)同步推出的Metis低比特訓(xùn)練技術(shù),為國(guó)產(chǎn)芯片性能優(yōu)化與成本控制提供了全新解決方案。在傳統(tǒng)大模型訓(xùn)練中,行業(yè)普遍采用fp32(32位浮點(diǎn)數(shù))精度進(jìn)行計(jì)算,雖能保證訓(xùn)練精度,但對(duì)芯片存儲(chǔ)帶寬、算力資源需求極高,導(dǎo)致訓(xùn)練成本居高不下。Metis技術(shù)通過(guò)創(chuàng)新的精度補(bǔ)償算法與梯度優(yōu)化策略,實(shí)現(xiàn)了訓(xùn)練精度的“接近無(wú)損壓縮”——將計(jì)算精度從fp32降至fp4(4位浮點(diǎn)數(shù))的同時(shí),模型訓(xùn)練后的任務(wù)準(zhǔn)確率損失不足1%,遠(yuǎn)低于行業(yè)平均5%-8%的損失水平。?
研發(fā)團(tuán)隊(duì)負(fù)責(zé)人在發(fā)布會(huì)上介紹,Metis技術(shù)的核心突破在于首次揭示了大模型低精度訓(xùn)練中“梯度離散”“權(quán)重漂移”等問(wèn)題的根本成因,并針對(duì)性提出“動(dòng)態(tài)精度補(bǔ)償機(jī)制”與“分層量化訓(xùn)練策略”,從算法層面解決了低比特訓(xùn)練的精度瓶頸。這一技術(shù)不僅為國(guó)產(chǎn)芯片的架構(gòu)優(yōu)化指明方向——未來(lái)芯片可針對(duì)fp4低比特高吞吐計(jì)算場(chǎng)景,優(yōu)化存儲(chǔ)單元與計(jì)算單元設(shè)計(jì),大幅提升算力密度;還能顯著降低AI訓(xùn)練的硬件成本與能耗:據(jù)測(cè)算,采用Metis技術(shù)后,大模型訓(xùn)練的硬件采購(gòu)成本可降低60%以上,服務(wù)器能耗減少50%,為AI技術(shù)在工業(yè)、醫(yī)療、教育等傳統(tǒng)行業(yè)的規(guī)?;瘧?yīng)用掃清成本障礙。








