谷歌云計(jì)算正進(jìn)行重大升級(jí),準(zhǔn)備明年將NVIDIA Blackwell GPU納入旗下。
10月下旬宣布的升級(jí)包括其名為Trillium的新TPU、自主研發(fā)的Axion CPU和NVIDIA H200 GPU預(yù)覽版。
新硬件將被納入谷歌“超級(jí)計(jì)算機(jī)”,這是一臺(tái)遍布谷歌云基礎(chǔ)設(shè)施的大型超級(jí)計(jì)算機(jī)。它包括一套適用于多種工作負(fù)載的多樣化軟件和芯片產(chǎn)品。
谷歌在系統(tǒng)和軟件層面重新考慮了其基礎(chǔ)設(shè)施,為硬件和軟件提供了一個(gè)通用層。
這也催生了谷歌超級(jí)計(jì)算機(jī),它支持傳統(tǒng)計(jì)算和現(xiàn)代計(jì)算;融合了計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)和軟件,以滿足不同的AI和HPC消費(fèi)模式。
谷歌副總裁兼計(jì)算和人工智能基礎(chǔ)設(shè)施總經(jīng)理Mark Lohmeyer表示,公司在10月下旬還分享了人工智能超級(jí)計(jì)算機(jī)概念,“集成了工作負(fù)載優(yōu)化的硬件(TPU、GPU和CPU)、開放軟件和靈活的消費(fèi)模型,為最先進(jìn)人工智能模型提供支持”。
一款名為Hypercompute Cluster的新產(chǎn)品是一種高度可擴(kuò)展的集群系統(tǒng)。超級(jí)計(jì)算領(lǐng)域正在努力平衡傳統(tǒng)的高精度計(jì)算和人工智能,因此Hypercompute Cluster處理各種工作負(fù)載的能力可以彌補(bǔ)模擬和科學(xué)計(jì)算之間的差距。
Lohmeyer表示,該集群將結(jié)合谷歌的人工智能基礎(chǔ)設(shè)施技術(shù),“無(wú)縫部署和管理大量加速器作為一個(gè)單元”。
密集托管功能將多個(gè)資源聚集在一起,吞吐量高,因此工作負(fù)載可以快速可靠地完成。此功能對(duì)于科學(xué)計(jì)算和AI都很重要。
谷歌的目標(biāo)是為超級(jí)計(jì)算機(jī)所執(zhí)行的任務(wù)提供保障。例如,谷歌希望通過(guò)其消費(fèi)模型為時(shí)間和結(jié)果帶來(lái)可靠性和靈活性。
在軟件和硬件層構(gòu)建硬件和虛擬化層可能很復(fù)雜,但谷歌可以通過(guò)在谷歌云上進(jìn)行預(yù)配置部署的單一API調(diào)用使其變得簡(jiǎn)單。