英偉達(dá)和谷歌最新芯片加速AI訓(xùn)練

?? 由 文心大模型 生成的文章摘要

NVIDIA、甲骨文、谷歌、戴爾和其他13家公司報(bào)告了計(jì)算機(jī)訓(xùn)練當(dāng)今使用的關(guān)鍵神經(jīng)網(wǎng)絡(luò)所需的時(shí)間。這些結(jié)果包括NVIDIA下一代GPU B200和谷歌即將推出的加速器Trillium。B200在某些測試中的表現(xiàn)比當(dāng)今的主力NVIDIA芯片H100提高了一倍。而且Trillium的性能比谷歌在2023年測試的芯片提高了近四倍。

該基準(zhǔn)測試稱為MLPerf v4.1,包括六項(xiàng)任務(wù):推薦、大型語言模型(LLM)GPT-3和BERT-large 的預(yù)訓(xùn)練、Llama 2 70B大型語言模型的微調(diào)、對(duì)象檢測、圖形節(jié)點(diǎn)分類和圖像生成。

訓(xùn)練GPT-3是一項(xiàng)艱巨的任務(wù),如果只是為了提供一個(gè)基準(zhǔn)而完成整個(gè)任務(wù)是不切實(shí)際的。相反,測試是將其訓(xùn)練到專家認(rèn)為的水平,這意味著如果你繼續(xù)訓(xùn)練,它很可能會(huì)達(dá)到目標(biāo)。對(duì)于Llama 2 70B來說,目標(biāo)不是從頭開始訓(xùn)練LLM,而是采用已經(jīng)訓(xùn)練過的模型并對(duì)其進(jìn)行微調(diào),使其專注于某一特定專業(yè)知識(shí)。

隨著人工智能的重要性不斷演變,主要轉(zhuǎn)向使用生成式人工智能,測試集也發(fā)生了變化。MLPerf的最新版本標(biāo)志著自基準(zhǔn)測試工作開始以來測試內(nèi)容的徹底轉(zhuǎn)變。“目前,所有原始基準(zhǔn)測試都已逐步淘汰?!保I(lǐng)導(dǎo)MLCommons基準(zhǔn)測試工作的David Kanter表示,在上一輪測試中,執(zhí)行某些基準(zhǔn)測試僅需幾秒鐘。

根據(jù)MLPerf的計(jì)算,新基準(zhǔn)套件AI訓(xùn)練正以摩爾定律預(yù)期速度的兩倍左右的速度改進(jìn)。隨著時(shí)間的推移,結(jié)果比MLPerf統(tǒng)治時(shí)期開始時(shí)更快趨于穩(wěn)定。隨著時(shí)間的推移,NVIDIA、G谷歌和其他公司已經(jīng)開發(fā)出允許近乎線性擴(kuò)展的軟件和網(wǎng)絡(luò)技術(shù)——將處理器數(shù)量增加一倍可以將訓(xùn)練時(shí)間縮短大約一半。

NVIDIA B200 GPU所采用的Blackwell架構(gòu)延續(xù)了使用越來越低精度數(shù)字來加速AI的趨勢(shì),對(duì)于Transformer神經(jīng)網(wǎng)絡(luò)的某些部分(例如ChatGPT、Llama2 和Stable Diffusion),NVIDIA H100和H200使用8位浮點(diǎn)數(shù),B200將其降至僅4位。

谷歌展示了其第六代TPU Trillium的首批結(jié)果(上個(gè)月才發(fā)布),以及第五代變體Cloud TPU v5p的第二輪結(jié)果。在2023年版本中,這家搜索巨頭推出了第五代TPU的另一個(gè)變體v5e,其設(shè)計(jì)更注重效率而非性能。與后者相比,Trillium在GPT-3訓(xùn)練任務(wù)上的性能提升高達(dá)3.8倍。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」