
谷歌云計算正進行重大升級,準備明年將NVIDIA Blackwell GPU納入旗下。
10月下旬宣布的升級包括其名為Trillium的新TPU、自主研發(fā)的Axion CPU和NVIDIA H200 GPU預(yù)覽版。
新硬件將被納入谷歌“超級計算機”,這是一臺遍布谷歌云基礎(chǔ)設(shè)施的大型超級計算機。它包括一套適用于多種工作負載的多樣化軟件和芯片產(chǎn)品。
谷歌在系統(tǒng)和軟件層面重新考慮了其基礎(chǔ)設(shè)施,為硬件和軟件提供了一個通用層。
這也催生了谷歌超級計算機,它支持傳統(tǒng)計算和現(xiàn)代計算;融合了計算、網(wǎng)絡(luò)、存儲和軟件,以滿足不同的AI和HPC消費模式。
谷歌副總裁兼計算和人工智能基礎(chǔ)設(shè)施總經(jīng)理Mark Lohmeyer表示,公司在10月下旬還分享了人工智能超級計算機概念,“集成了工作負載優(yōu)化的硬件(TPU、GPU和CPU)、開放軟件和靈活的消費模型,為最先進人工智能模型提供支持”。
一款名為Hypercompute Cluster的新產(chǎn)品是一種高度可擴展的集群系統(tǒng)。超級計算領(lǐng)域正在努力平衡傳統(tǒng)的高精度計算和人工智能,因此Hypercompute Cluster處理各種工作負載的能力可以彌補模擬和科學(xué)計算之間的差距。
Lohmeyer表示,該集群將結(jié)合谷歌的人工智能基礎(chǔ)設(shè)施技術(shù),“無縫部署和管理大量加速器作為一個單元”。
密集托管功能將多個資源聚集在一起,吞吐量高,因此工作負載可以快速可靠地完成。此功能對于科學(xué)計算和AI都很重要。
谷歌的目標是為超級計算機所執(zhí)行的任務(wù)提供保障。例如,谷歌希望通過其消費模型為時間和結(jié)果帶來可靠性和靈活性。
在軟件和硬件層構(gòu)建硬件和虛擬化層可能很復(fù)雜,但谷歌可以通過在谷歌云上進行預(yù)配置部署的單一API調(diào)用使其變得簡單。








