國產(chǎn)算力基座上的科研革命:OneScience平臺震撼亮相2025中國計算機大會

?? 由 文心大模型 生成的文章摘要

2025年中國計算機大會現(xiàn)場傳來重磅消息——中科曙光正式發(fā)布國內(nèi)首個科學(xué)大模型一站式開發(fā)平臺OneScience,以國產(chǎn)GPU為核心算力基座,通過開放架構(gòu)打破科學(xué)大模型開發(fā)的”三座大山”,標(biāo)志著我國AI for Science(人工智能賦能科學(xué)研究)領(lǐng)域邁入工程化量產(chǎn)新階段。?

“過去實驗室里復(fù)現(xiàn)一篇頂刊論文的模型,光環(huán)境配置就要一周,優(yōu)化調(diào)參更是無底洞。”中科曙光高級副總裁李斌在發(fā)布會上直言,當(dāng)前科學(xué)大模型正從”任務(wù)化”向”通用化”跨越,參數(shù)量激增導(dǎo)致的算力門檻與工程復(fù)雜度,已成為科研創(chuàng)新的主要障礙。針對這一痛點,OneScience平臺整合曙光30年高性能計算積累,構(gòu)建起覆蓋全流程的科研智能體系:?

預(yù)置場景化模板:內(nèi)置地球科學(xué)、生物信息、流體仿真等六大領(lǐng)域數(shù)十個熱點模型,氣象預(yù)報、分子動力學(xué)等場景可直接調(diào)用啟動訓(xùn)練;?

自動化工具鏈:自研”SciOpt”引擎實現(xiàn)算子融合、通信壓縮等策略自動匹配,性能平均提升3-5倍,配合可視化拖拽界面,調(diào)參過程如制作PPT般直觀;?

彈性算力支撐:無縫對接曙光AI超集群,千卡級任務(wù)一鍵提交,超30天穩(wěn)定性測試驗證的集群系統(tǒng)可實現(xiàn)百萬級部件故障秒級隔離。?

這些功能共同造就了”3小時造模”的行業(yè)突破:從數(shù)據(jù)準(zhǔn)備到模型訓(xùn)練、優(yōu)化部署的全流程耗時較傳統(tǒng)模式縮短百倍,昌平實驗室已借助該平臺實現(xiàn)生物分子設(shè)計效率的跨越式提升。?

OneScience的核心競爭力源于對國產(chǎn)GPU生態(tài)的深度適配。針對國外模型在國產(chǎn)硬件上”跑不通、跑不快”的痛點,研發(fā)團(tuán)隊歷經(jīng)三年攻堅,形成三大技術(shù)突破:?

全棧優(yōu)化方案:通過算子庫重構(gòu)、內(nèi)存分配策略優(yōu)化等技術(shù),解決了國產(chǎn)GPU顯存不足、通信延遲高等問題,支撐十億級參數(shù)量模型穩(wěn)定運行;?

貫通式架構(gòu)設(shè)計:遵循20余家企業(yè)聯(lián)合發(fā)布的AI計算開放架構(gòu),實現(xiàn)從芯片指令集到應(yīng)用框架的縱向優(yōu)化,讓千卡集群協(xié)同效率提升40%以上;?

故障自愈機制:依托曙光AI超集群的”算存網(wǎng)管電冷”一體化設(shè)計,訓(xùn)練任務(wù)可自動規(guī)避故障節(jié)點,單機位故障對整體進(jìn)度影響控制在1%以內(nèi)。?

國家高性能計算機工程技術(shù)研究中心總工程師劉冠川評價:”這種軟硬件協(xié)同的創(chuàng)新模式,為AI動蕩期的科研人員提供了穩(wěn)定可靠的技術(shù)底座。”

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」