Google AI研究實驗室Google DeepMind發(fā)布了一項關(guān)于訓(xùn)練AI模型的新研究,聲稱該研究將大大提高模型訓(xùn)練速度和能效,比其他方案的性能高出13倍,能效高出10倍。隨著有關(guān) AI數(shù)據(jù)中心對環(huán)境影響的討論日益升溫,新的JEST訓(xùn)練方法的出現(xiàn)可謂恰逢其時。
DeepMind方案被稱為JEST或聯(lián)合示例選擇,以一種簡單的方式打破了傳統(tǒng)AI模型訓(xùn)練技術(shù)。典型的訓(xùn)練方案側(cè)重于單個數(shù)據(jù)點進行訓(xùn)練和學(xué)習(xí),而JEST則基于整個批次進行訓(xùn)練。JEST方案首先創(chuàng)建一個較小的AI模型,該模型將對來自極高質(zhì)量來源的數(shù)據(jù)質(zhì)量進行評級,并按質(zhì)量對批次進行排序;然后,將該評級與較大、質(zhì)量較低的數(shù)據(jù)集進行比較;小型JEST 模型確定最適合訓(xùn)練的批次,然后根據(jù)較小模型的結(jié)果訓(xùn)練大型模型。
DeepMind研究人員在論文中明確指出,這種“引導(dǎo)數(shù)據(jù)選擇過程向較小、精心策劃的數(shù)據(jù)集分布的能力”對于JEST方案的成功至關(guān)重要。谷歌聲稱“我們的方案超越了最先進的模型,迭代次數(shù)減少了13 倍,計算量減少了10倍?!?/p>

當(dāng)然,該系統(tǒng)完全依賴于其訓(xùn)練數(shù)據(jù)的質(zhì)量,因為如果沒有最高質(zhì)量的人工數(shù)據(jù)集,引導(dǎo)技術(shù)就會失效。這使得業(yè)余愛好者或業(yè)余人工智能開發(fā)者的大多數(shù)其他方案更難與JEST相媲美,因為他們可能需要專家級的研究技能來策劃最初的最高等級的訓(xùn)練數(shù)據(jù)。
JEST研究可謂趕上好時機,如今科技行業(yè)和世界各國政府已經(jīng)開始討論人工智能的極端電力需求。2023年,人工智能工作負(fù)載約占4.3 GW,幾乎與塞浦路斯全國的年電力消耗相當(dāng)。而且,電力消耗速度絕對不會減緩:單個ChatGPT請求的耗電量是谷歌搜索的10倍,Arm首席執(zhí)行官估計,到2030年,人工智能耗電量將占據(jù)美國電網(wǎng)的四分之一。
至于JEST方案是否會被AI領(lǐng)域的主要參與者采用以及如何采用還有待觀察。據(jù)報道,GPT-4o 的訓(xùn)練成本為1億美元,未來更大的模型可能很快就會達到10億美元訓(xùn)練成本大關(guān),為些各大企業(yè)都在尋找在節(jié)省開支的方案。有行業(yè)人士認(rèn)為,JEST方案致力于在更低的功耗下保持當(dāng)前的訓(xùn)練生產(chǎn)率,從而降低AI成本。然而,更有可能的是,資本機器將保持全速,采用JEST方案將功耗保持在最大水平,以實現(xiàn)超快速的訓(xùn)練輸出。成本節(jié)約與產(chǎn)出規(guī)模,誰會贏?