亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)推出了一系列新的數(shù)據(jù)中心組件,使其數(shù)據(jù)中心能更好處理下一代人工智能(AI)工作負載。
該項創(chuàng)新在AWS re:Invent大會上發(fā)布,涵蓋電源、冷卻和硬件設(shè)計,旨在提高AWS設(shè)施的能源效率。
新功能最終將通過AWS新數(shù)據(jù)中心在全球范圍內(nèi)實施,其中部分組件已在現(xiàn)有設(shè)施中實施。
AWS基礎(chǔ)設(shè)施服務(wù)副總裁Prasad Kalyanaraman表示:“AWS不斷創(chuàng)新其基礎(chǔ)設(shè)施,為全球客戶構(gòu)建性能最高、彈性最大、最安全、最可持續(xù)的云。這些數(shù)據(jù)中心功能代表著向前邁出的重要一步,提高了能源效率,并為新興工作負載提供了靈活的支持。但更令人興奮的是,數(shù)據(jù)中心被設(shè)計為模塊化,因此我們能改造現(xiàn)有基礎(chǔ)設(shè)施,實現(xiàn)液體冷卻和能源效率,為生成性AI應(yīng)用提供動力,并降低碳足跡?!?/p>
AWS簡化電氣和機械設(shè)計
AWS簡化了電氣和機械設(shè)計,使數(shù)據(jù)中心更易于維護并提高可靠性。
據(jù)該公司稱,這些更新使基礎(chǔ)設(shè)施的可用性達到99.9999%,同時將受電氣問題影響的機架數(shù)量減少了89%。
其中之一就是通過更簡化的能源分配設(shè)計將數(shù)據(jù)中心的電氣轉(zhuǎn)換次數(shù)減少20%。
AWS還將備用電源放到更靠近機架的位置,并減少用于排出熱氣的風扇數(shù)量,而是基于自然壓差來提高服務(wù)器可用的電量。
液體冷卻、機架設(shè)計和控制系統(tǒng)
由于新的AI服務(wù)器目前每芯片需要高達850W的功率,預(yù)計很快將達到每芯片1kW,因此液體冷卻已成為必需品。AWS在其新建和現(xiàn)有數(shù)據(jù)中心開發(fā)了一種“新型機械冷卻解決方案”,采用直接芯片冷卻。
這家云計算巨頭指出,有些技術(shù)不需要液體冷卻,因此已經(jīng)使其液體到芯片冷卻系統(tǒng)能夠“無縫集成”空氣和液體冷卻,用于AWS Tranium2和NVIDIA GB200 NVL72等電源芯片組。
AWS還使用數(shù)據(jù)和生成性AI來研究在其數(shù)據(jù)中心中定位機架的最有效方法,并且減少閑置電量,從而為每個站點提供12%以上的算力。


