
Meta表示,將發(fā)布包括“自學(xué)評(píng)估器”在內(nèi)的一批新的人工智能模型,該模型或能減少人工智能開發(fā)過程中的人類參與。
Meta在8月份的一篇論文中介紹了該模型,論文詳細(xì)介紹了此模型如何依賴OpenAI最近發(fā)布的o1模型所使用的相同“思路鏈”技術(shù)來對(duì)模型的反應(yīng)做出可靠的判斷。
該技術(shù)涉及將復(fù)雜問題分解為更小的邏輯步驟,并且可以提高對(duì)科學(xué)、編碼和數(shù)學(xué)等學(xué)科的挑戰(zhàn)性問題的回答準(zhǔn)確性。
Meta研究人員使用完全由人工智能生成的數(shù)據(jù)來訓(xùn)練評(píng)估模型,從而消除了該階段的人工輸入。
該項(xiàng)目的兩位Meta研究人員告訴路透社,基于人工智能來可靠評(píng)估人工智能的能力,為我們提供了一條可能的途徑,即打造能夠從錯(cuò)誤中學(xué)習(xí)的自主人工智能代理。
在人工智能領(lǐng)域,人類將此類代理設(shè)想為數(shù)字助理,其智能程度足以在無需人工干預(yù)的情況下執(zhí)行大量任務(wù)。
自我改進(jìn)的模型可以消除目前使用的一種通常昂貴且低效過程的需要,該過程稱為從人類反饋中進(jìn)行強(qiáng)化學(xué)習(xí),需要人類注釋者的輸入,注釋者必須具備專業(yè)知識(shí)才能準(zhǔn)確標(biāo)記數(shù)據(jù)并驗(yàn)證復(fù)雜數(shù)學(xué)和寫作查詢的答案是否正確。
研究人員之一Jason Weston表示:“我們希望,隨著人工智能變得越來越超越人類,它將越來越善于檢查工作,以便實(shí)際上比普通人類更優(yōu)秀?!?/p>
他說:“自學(xué)和自我評(píng)估的能力對(duì)于實(shí)現(xiàn)超越人類水平的人工智能來說至關(guān)重要?!?/p>
另外,包括谷歌和Anthropic在內(nèi)的其他公司也發(fā)表了關(guān)于RLAIF(即基于人工智能反饋的強(qiáng)化學(xué)習(xí))概念的研究。然而,與Meta不同的是,這些公司往往不會(huì)將模型發(fā)布給公眾使用。
此外,Meta發(fā)布的其他AI工具包括圖像識(shí)別Segment Anything模型的更新,該模型可加快 LLM響應(yīng)生成時(shí)間,以及可用于幫助發(fā)現(xiàn)新無機(jī)材料的數(shù)據(jù)集。








