縮放定律推動(dòng)更智能、更強(qiáng)大的人工智能

?? 由 文心大模型 生成的文章摘要

隨著人工智能的迅猛發(fā)展,如今已需要三條不同的定律來(lái)闡釋以不同方式運(yùn)用計(jì)算資源對(duì)模型性能產(chǎn)生的影響。這三條人工智能擴(kuò)展定律,即訓(xùn)練前擴(kuò)展、訓(xùn)練后擴(kuò)展以及測(cè)試時(shí)擴(kuò)展(也被稱作長(zhǎng)期思考),它們充分反映出人工智能領(lǐng)域如何伴隨著技術(shù)的進(jìn)步而不斷演變,以便在各類愈發(fā)復(fù)雜的人工智能應(yīng)用場(chǎng)景中有效利用額外的計(jì)算資源。

近期,測(cè)試時(shí)間擴(kuò)展(即在推理階段投入更多計(jì)算資源以提升準(zhǔn)確性)的興起,使得人工智能推理模型得以實(shí)現(xiàn)。這是一種新型的大型語(yǔ)言模型(LLM),它能夠通過(guò)執(zhí)行多次推理來(lái)解決復(fù)雜問(wèn)題,并且在解決過(guò)程中詳細(xì)描述完成任務(wù)所需的步驟。然而,測(cè)試時(shí)間擴(kuò)展需要大量的計(jì)算資源來(lái)支撐人工智能推理,這無(wú)疑會(huì)進(jìn)一步加大對(duì)加速計(jì)算的需求。

預(yù)訓(xùn)練擴(kuò)展是人工智能發(fā)展最初遵循的規(guī)律。該定律指出,通過(guò)增加訓(xùn)練數(shù)據(jù)集的規(guī)模、模型參數(shù)的數(shù)量以及計(jì)算資源的投入,開(kāi)發(fā)人員可以預(yù)期模型的智能程度和準(zhǔn)確性將獲得可預(yù)測(cè)的提升。

這三個(gè)要素,即數(shù)據(jù)、模型大小以及計(jì)算,它們之間相互關(guān)聯(lián)。依據(jù)本研究論文所概述的預(yù)訓(xùn)練擴(kuò)展定律,當(dāng)更大規(guī)模的模型輸入更多的數(shù)據(jù)時(shí),模型的整體性能將會(huì)得到提高。為了達(dá)成這一目標(biāo),開(kāi)發(fā)人員必須擴(kuò)充自身的計(jì)算能力,這就迫切需要強(qiáng)大的加速計(jì)算資源來(lái)運(yùn)行那些更為龐大的訓(xùn)練任務(wù)。

正是這種預(yù)訓(xùn)練擴(kuò)展原則催生出了具備突破性能力的大型模型。同時(shí),它也有力地推動(dòng)了模型架構(gòu)的重大創(chuàng)新,其中包括擁有十億乃至萬(wàn)億參數(shù)的轉(zhuǎn)換器模型的興起、專家模型的混合運(yùn)用以及全新的分布式訓(xùn)練技術(shù)。而所有這些創(chuàng)新,都對(duì)計(jì)算資源有著極大的需求。

預(yù)訓(xùn)練縮放定律的重要性依舊在持續(xù)顯現(xiàn)。隨著人類持續(xù)產(chǎn)生數(shù)量越來(lái)越多的多模態(tài)數(shù)據(jù),這些由文本、圖像、音頻、視頻和傳感器信息構(gòu)成的豐富資源,未來(lái)將被用于訓(xùn)練更為強(qiáng)大的人工智能模型。

不過(guò),預(yù)訓(xùn)練大型基礎(chǔ)模型并非適用于所有組織或個(gè)人。它需要巨額的投資、專業(yè)熟練的專家以及優(yōu)質(zhì)的數(shù)據(jù)集。但是,一旦某個(gè)組織完成預(yù)訓(xùn)練并發(fā)布模型,便會(huì)降低人工智能的應(yīng)用門檻,使得其他組織或個(gè)人能夠?qū)⑵漕A(yù)訓(xùn)練模型作為基礎(chǔ),來(lái)適配自身的應(yīng)用場(chǎng)景。

這一訓(xùn)練后過(guò)程,在企業(yè)以及更廣泛的開(kāi)發(fā)者社區(qū)中,引發(fā)了對(duì)加速計(jì)算額外的累積性需求。熱門的開(kāi)源模型或許會(huì)衍生出數(shù)百甚至數(shù)千個(gè)不同的衍生模型,這些衍生模型會(huì)在眾多領(lǐng)域展開(kāi)訓(xùn)練。據(jù)估算,為各類用例開(kāi)發(fā)這種衍生模型生態(tài)系統(tǒng)所需的計(jì)算量,大概要比預(yù)訓(xùn)練原始基礎(chǔ)模型多30倍左右。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」