
9月12日,上海創(chuàng)智學(xué)院正式對外發(fā)布兩項重磅成果——自主可控的強化學(xué)習(xí)框架siiRL 2.0與低比特訓(xùn)練技術(shù)Metis,為我國大模型產(chǎn)業(yè)發(fā)展注入關(guān)鍵動力,標志著國內(nèi)在AI基礎(chǔ)設(shè)施核心技術(shù)領(lǐng)域?qū)崿F(xiàn)重要突破。?
作為此次發(fā)布的核心成果之一,siiRL 2.0強化學(xué)習(xí)框架憑借其卓越的性能與兼容性,被業(yè)內(nèi)專家譽為“下一代AI模型的動力引擎”。該框架從底層架構(gòu)設(shè)計階段便充分考慮國產(chǎn)芯片適配需求,原生支持華為昇騰910、沐曦MX1等多款主流國產(chǎn)AI芯片,徹底打破了此前部分國外框架對國產(chǎn)硬件的適配壁壘。更值得關(guān)注的是,siiRL 2.0成功實現(xiàn)千卡級強化學(xué)習(xí)集群訓(xùn)練能力,這一突破在國內(nèi)尚屬首次——此前國內(nèi)同類框架普遍局限于百卡級訓(xùn)練規(guī)模,千卡級訓(xùn)練的實現(xiàn)意味著我國在大模型并行計算技術(shù)上邁出關(guān)鍵一步,可支撐更復(fù)雜、更大規(guī)模的AI模型研發(fā),如千億參數(shù)級多模態(tài)大模型、工業(yè)級智能決策系統(tǒng)等。?
不僅如此,siiRL 2.0采用完全分布式架構(gòu)設(shè)計,具備極強的擴展性,未來可平滑擴展至萬卡級集群,為超大規(guī)模AI模型訓(xùn)練提供充足算力支撐。在實際應(yīng)用場景測試中,該框架展現(xiàn)出驚人的效率優(yōu)勢:在多模態(tài)內(nèi)容生成(如圖文跨模態(tài)理解、視頻語義分析)和長上下文處理(如百萬字級文檔摘要、超長對話生成)場景下,其運算效率較當(dāng)前國際主流的強化學(xué)習(xí)框架(如Ray RLlib、Stable Baselines3)提升2-7倍,能有效縮短大模型研發(fā)周期,降低企業(yè)算力成本。針對當(dāng)前全球TOP50大模型中80%未開源、技術(shù)壁壘高企的現(xiàn)狀,siiRL 2.0堅持開源生態(tài)路線,已在GitHub等平臺開放核心代碼與開發(fā)文檔,將推動多智能體協(xié)同控制、深度認知推理等前沿技術(shù)的普惠化發(fā)展,助力中小科技企業(yè)與科研機構(gòu)快速切入大模型研發(fā)領(lǐng)域,加速AGI(通用人工智能)技術(shù)落地。?
與此同時,上海創(chuàng)智學(xué)院研發(fā)團隊同步推出的Metis低比特訓(xùn)練技術(shù),為國產(chǎn)芯片性能優(yōu)化與成本控制提供了全新解決方案。在傳統(tǒng)大模型訓(xùn)練中,行業(yè)普遍采用fp32(32位浮點數(shù))精度進行計算,雖能保證訓(xùn)練精度,但對芯片存儲帶寬、算力資源需求極高,導(dǎo)致訓(xùn)練成本居高不下。Metis技術(shù)通過創(chuàng)新的精度補償算法與梯度優(yōu)化策略,實現(xiàn)了訓(xùn)練精度的“接近無損壓縮”——將計算精度從fp32降至fp4(4位浮點數(shù))的同時,模型訓(xùn)練后的任務(wù)準確率損失不足1%,遠低于行業(yè)平均5%-8%的損失水平。?
研發(fā)團隊負責(zé)人在發(fā)布會上介紹,Metis技術(shù)的核心突破在于首次揭示了大模型低精度訓(xùn)練中“梯度離散”“權(quán)重漂移”等問題的根本成因,并針對性提出“動態(tài)精度補償機制”與“分層量化訓(xùn)練策略”,從算法層面解決了低比特訓(xùn)練的精度瓶頸。這一技術(shù)不僅為國產(chǎn)芯片的架構(gòu)優(yōu)化指明方向——未來芯片可針對fp4低比特高吞吐計算場景,優(yōu)化存儲單元與計算單元設(shè)計,大幅提升算力密度;還能顯著降低AI訓(xùn)練的硬件成本與能耗:據(jù)測算,采用Metis技術(shù)后,大模型訓(xùn)練的硬件采購成本可降低60%以上,服務(wù)器能耗減少50%,為AI技術(shù)在工業(yè)、醫(yī)療、教育等傳統(tǒng)行業(yè)的規(guī)?;瘧?yīng)用掃清成本障礙。








