
NVIDIA、甲骨文、谷歌、戴爾和其他13家公司報告了計算機訓練當今使用的關鍵神經(jīng)網(wǎng)絡所需的時間。這些結果包括NVIDIA下一代GPU B200和谷歌即將推出的加速器Trillium。B200在某些測試中的表現(xiàn)比當今的主力NVIDIA芯片H100提高了一倍。而且Trillium的性能比谷歌在2023年測試的芯片提高了近四倍。
該基準測試稱為MLPerf v4.1,包括六項任務:推薦、大型語言模型(LLM)GPT-3和BERT-large 的預訓練、Llama 2 70B大型語言模型的微調(diào)、對象檢測、圖形節(jié)點分類和圖像生成。
訓練GPT-3是一項艱巨的任務,如果只是為了提供一個基準而完成整個任務是不切實際的。相反,測試是將其訓練到專家認為的水平,這意味著如果你繼續(xù)訓練,它很可能會達到目標。對于Llama 2 70B來說,目標不是從頭開始訓練LLM,而是采用已經(jīng)訓練過的模型并對其進行微調(diào),使其專注于某一特定專業(yè)知識。
隨著人工智能的重要性不斷演變,主要轉(zhuǎn)向使用生成式人工智能,測試集也發(fā)生了變化。MLPerf的最新版本標志著自基準測試工作開始以來測試內(nèi)容的徹底轉(zhuǎn)變?!澳壳?,所有原始基準測試都已逐步淘汰?!?,領導MLCommons基準測試工作的David Kanter表示,在上一輪測試中,執(zhí)行某些基準測試僅需幾秒鐘。
根據(jù)MLPerf的計算,新基準套件AI訓練正以摩爾定律預期速度的兩倍左右的速度改進。隨著時間的推移,結果比MLPerf統(tǒng)治時期開始時更快趨于穩(wěn)定。隨著時間的推移,NVIDIA、G谷歌和其他公司已經(jīng)開發(fā)出允許近乎線性擴展的軟件和網(wǎng)絡技術——將處理器數(shù)量增加一倍可以將訓練時間縮短大約一半。
NVIDIA B200 GPU所采用的Blackwell架構延續(xù)了使用越來越低精度數(shù)字來加速AI的趨勢,對于Transformer神經(jīng)網(wǎng)絡的某些部分(例如ChatGPT、Llama2 和Stable Diffusion),NVIDIA H100和H200使用8位浮點數(shù),B200將其降至僅4位。
谷歌展示了其第六代TPU Trillium的首批結果(上個月才發(fā)布),以及第五代變體Cloud TPU v5p的第二輪結果。在2023年版本中,這家搜索巨頭推出了第五代TPU的另一個變體v5e,其設計更注重效率而非性能。與后者相比,Trillium在GPT-3訓練任務上的性能提升高達3.8倍。








