
近日,全球計算機(jī)系統(tǒng)領(lǐng)域的頂級學(xué)術(shù)會議SOSP 2025公布入選名單,阿里云自主研發(fā)的計算池化解決方案“Aegaeon”憑借其在AI算力優(yōu)化領(lǐng)域的突破性創(chuàng)新成功入選,這一成果不僅標(biāo)志著中國在分布式計算系統(tǒng)研究領(lǐng)域達(dá)到國際領(lǐng)先水平,更為AI產(chǎn)業(yè)解決算力資源浪費(fèi)的核心痛點(diǎn)提供了切實(shí)可行的技術(shù)路徑。
在AI模型服務(wù)的實(shí)際落地過程中,GPU資源浪費(fèi)是行業(yè)長期面臨的共性難題。隨著大語言模型、生成式AI等技術(shù)的快速迭代,各類AI應(yīng)用對GPU算力的需求呈指數(shù)級增長,但傳統(tǒng)的算力分配模式存在諸多局限:一方面,不同AI模型的算力需求波動較大,峰值時段算力緊張與閑時資源閑置的矛盾突出;另一方面,單一GPU通常僅能承載單個模型運(yùn)行,導(dǎo)致硬件資源的利用率長期處于低位,既增加了企業(yè)的技術(shù)部署成本,也制約了AI服務(wù)的規(guī)?;瘮U(kuò)張。
針對這一行業(yè)痛點(diǎn),阿里云技術(shù)團(tuán)隊歷經(jīng)長期研發(fā),打造了Aegaeon計算池化解決方案。該方案的核心創(chuàng)新在于通過精細(xì)化的資源調(diào)度與池化管理技術(shù),對GPU算力進(jìn)行動態(tài)拆分與智能分配,打破了傳統(tǒng)算力分配模式的剛性限制。其核心技術(shù)已率先應(yīng)用于阿里云百煉大模型平臺,為平臺上的各類AI模型服務(wù)提供底層算力支撐。
在嚴(yán)格的實(shí)測環(huán)境中,Aegaeon方案展現(xiàn)出了卓越的性能表現(xiàn):相較于傳統(tǒng)方案,該系統(tǒng)可實(shí)現(xiàn)82%的GPU用量削減,這意味著企業(yè)在維持同等AI服務(wù)質(zhì)量的前提下,能夠大幅降低硬件采購與運(yùn)維成本,顯著提升技術(shù)投入的性價比。與此同時,該方案突破性地支持單GPU同時服務(wù)多個不同類型的AI模型,通過高效的資源復(fù)用機(jī)制,在降低成本的基礎(chǔ)上進(jìn)一步提升了算力吞吐量,有效緩解了高并發(fā)場景下的算力供給壓力。
作為計算機(jī)系統(tǒng)領(lǐng)域的旗艦級學(xué)術(shù)會議,SOSP自1967年創(chuàng)辦以來,始終聚焦于操作系統(tǒng)原理及相關(guān)領(lǐng)域的前沿研究與技術(shù)突破,其入選標(biāo)準(zhǔn)以創(chuàng)新性、技術(shù)深度和實(shí)際應(yīng)用價值為核心,被譽(yù)為該領(lǐng)域的“學(xué)術(shù)風(fēng)向標(biāo)”。此次Aegaeon方案成功入選,不僅是國際學(xué)術(shù)界對阿里云技術(shù)實(shí)力的高度認(rèn)可,也彰顯了中國科技企業(yè)在AI基礎(chǔ)設(shè)施領(lǐng)域從技術(shù)跟隨到自主創(chuàng)新的轉(zhuǎn)型成果。
阿里云相關(guān)技術(shù)負(fù)責(zé)人表示,未來將持續(xù)推進(jìn)計算池化技術(shù)的迭代優(yōu)化,進(jìn)一步拓展其在更多AI應(yīng)用場景的落地范圍,同時通過開源合作、學(xué)術(shù)交流等方式,與全球行業(yè)伙伴共同推動AI算力資源的高效利用,為AI產(chǎn)業(yè)的可持續(xù)發(fā)展注入源源不斷的技術(shù)動力。業(yè)內(nèi)專家認(rèn)為,Aegaeon方案的規(guī)?;瘧?yīng)用有望重塑AI算力的分配格局,助力AI技術(shù)更快地從實(shí)驗(yàn)室走向產(chǎn)業(yè)實(shí)踐,為數(shù)字經(jīng)濟(jì)的高質(zhì)量發(fā)展提供堅實(shí)的算力支撐。








