xAI推出搭載10萬塊NVIDIA芯片的“Colossus”AI訓練系統(tǒng)

?? 由 文心大模型 生成的文章摘要

馬斯克旗下人工智能公司xAI已完成了一個擁有100000張顯卡的人工智能訓練系統(tǒng)的組裝。

馬斯克周一宣布了這一里程碑,該系統(tǒng)被xAI稱為Colossus,并于上周末上線。

馬斯克去年創(chuàng)辦了xAI,旨在與OpenAI競爭,這家初創(chuàng)公司開發(fā)了一系列名為Grok的大型語言模型。今年5月,xAI以240億美元的估值融資了60億美元。

馬斯克將新推出的Colossus描述為“世界上最強大的AI訓練系統(tǒng)”。這意味著該系統(tǒng)比美國能源部的Aurora系統(tǒng)更快,后者是世界上最快的AI超級計算機。在5月份的基準測試中,Aurora在87%的硬件處于活動狀態(tài)時達到了10.6 exaflops的最高速度。

馬斯克詳細介紹,Colossus配備了10萬塊NVIDIA H100顯卡。H100于2022年亮相,并在一年多的時間里被評為英偉達最強大的AI處理器,其運行語言模型的速度比英偉達上一代顯卡快30倍。

H100性能基于Transformer Engine模塊,這是一組經(jīng)過優(yōu)化的電路,用于運行基于 Transformer神經(jīng)網(wǎng)絡架構的AI模型。該架構是GPT-4o、Llama 3.1 405B和許多其他前沿LLM 的基礎。

馬斯克詳細介紹了xAI計劃在幾個月內(nèi)將Colossus的芯片數(shù)量翻一番,達到20萬片。他說,新處理器中5萬片將是H200。H200是H100的升級版,速度明顯更快。

與許多其他工作負載相比,AI模型更頻繁在運行芯片的邏輯電路和內(nèi)存之間移動信息。因此,加速內(nèi)存和邏輯模塊之間的數(shù)據(jù)移動可以提高AI模型的性能。NVIDIA H200執(zhí)行此類數(shù)據(jù)傳輸?shù)乃俣让黠@快于H100。

H200的速度優(yōu)勢得益于兩項架構升級。首先,NVIDIA將H100 HBM3內(nèi)存換成了新型RAM“HBM3e”,這有助于加快芯片邏輯電路之間的數(shù)據(jù)傳輸速度。其次,該公司將板載內(nèi)存容量增加了近一倍,達到141GB,這使得H200能夠?qū)⒏郃I模型的數(shù)據(jù)保存在靠近邏輯電路的位置。

Grok-2是xAI的旗艦LLM,在15000個GPU上進行訓練。Colossus的100000個芯片可能有助于開發(fā)功能更強大的語言模型。據(jù)報道,xAI希望在年底前發(fā)布Grok-2的后續(xù)產(chǎn)品。

Colossus的部分服務器可能采用原本為特斯拉公司預留的芯片。今年1月,CNBC報道稱,馬斯克已要求NVIDIA將價值超過5億美元的12000臺H100從特斯拉轉(zhuǎn)移到xAI。同月,馬斯克估計特斯拉將在年底前在NVIDIA硬件上花費30億至40億美元。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」