一家創(chuàng)業(yè)公司正在嘗試評(píng)測(cè)AI大模型實(shí)際的工作效果

?? 由 文心大模型 生成的文章摘要

隨著科技行業(yè)的迅速發(fā)展,人工智能(AI)技術(shù)已成為推動(dòng)行業(yè)進(jìn)步的關(guān)鍵力量。然而,盡管市場(chǎng)上涌現(xiàn)出眾多聲稱性能匹敵甚至超越市場(chǎng)領(lǐng)導(dǎo)者OpenAI的AI產(chǎn)品,如何公正、準(zhǔn)確地評(píng)估這些AI服務(wù)的性能仍然是一個(gè)待解的難題。

目前,盡管對(duì)AI公司的投資額高達(dá)數(shù)十億美元,但業(yè)界尚未建立一個(gè)統(tǒng)一的、獨(dú)立的標(biāo)準(zhǔn)測(cè)試,以比較不同AI應(yīng)用的性能。Anthropic等OpenAI的競(jìng)爭(zhēng)對(duì)手表示,現(xiàn)有的許多評(píng)估方法在衡量AI模型的安全性和能力方面存在局限性。Cohere公司的首席執(zhí)行官Aiden Gomez甚至將目前對(duì)模型的公開(kāi)評(píng)估系統(tǒng)稱為“破碎”的體系。因此,AI公司通常自行設(shè)計(jì)基準(zhǔn)測(cè)試,以展示其服務(wù)在代數(shù)、閱讀理解和Python編程等方面的解題能力。

為了尋求更好的解決方案,23歲的Rayan Krishnan和Langston Nashold中斷了斯坦福大學(xué)的碩士課程,與另一位軟件工程師Rez Havaei共同創(chuàng)立了Vals.ai。這家創(chuàng)業(yè)公司與斯坦福大學(xué)的研究人員以及會(huì)計(jì)、法律和金融等特定領(lǐng)域的行業(yè)專(zhuān)家合作,致力于構(gòu)建一個(gè)中立的、第三方的大語(yǔ)言模型審查系統(tǒng)。Vals.ai還使用學(xué)術(shù)和行業(yè)特定的數(shù)據(jù)集來(lái)設(shè)計(jì)測(cè)試問(wèn)題。

在年初進(jìn)行小范圍內(nèi)測(cè)之后,Vals.ai現(xiàn)已正式發(fā)布,并宣布已從Pear VC獲得一筆未公開(kāi)數(shù)額的種子輪投資,Sequoia的一名早期投資者也參與了投資。這一投資行為反映了市場(chǎng)對(duì)無(wú)偏見(jiàn)測(cè)試的迫切需求,尤其是隨著越來(lái)越多的公司考慮將AI用于特定的工作場(chǎng)所任務(wù)。

Krishnan表示:“我們實(shí)際上并不清楚這些模型是否可以在醫(yī)療保健的生產(chǎn)環(huán)境中使用,或者它們是否可以在法律領(lǐng)域發(fā)揮作用?!眴?wèn)題的復(fù)雜性在于,大語(yǔ)言模型是基于大量在線數(shù)據(jù)構(gòu)建的,它們可能已經(jīng)預(yù)先遇到了基準(zhǔn)問(wèn)題和回答。這就像是“在考試前就看到了答案”。

盡管一批研究人員、行業(yè)分析師和AI影響者嘗試拼湊不同的基準(zhǔn)測(cè)試和非正式評(píng)估,但業(yè)界尚未就最佳測(cè)試方法或最值得信賴的評(píng)估者達(dá)成共識(shí)。例如,沃頓商學(xué)院教授Ethan Mollick已成為AI聊天機(jī)器人的新型科技產(chǎn)品評(píng)測(cè)者,而AI初創(chuàng)公司HuggingFace也推出了流行的“排行榜”,供開(kāi)發(fā)者提交自己的模型進(jìn)行評(píng)估。

尋找解決方案的緊迫性正日益增加。一年前,OpenAI還是無(wú)可爭(zhēng)議的領(lǐng)導(dǎo)者。如今,Anthropic、谷歌和Cohere等公司正與它展開(kāi)激烈競(jìng)爭(zhēng)。AI公司也在對(duì)技術(shù)提出更大膽的聲明,這些聲明值得外部審查。Meta表示其下一個(gè)模型將具備先進(jìn)的推理能力,而Anthropic聲稱其模型在某些測(cè)試中與人類(lèi)一樣有說(shuō)服力。

Krishnan的公司已經(jīng)在AI模型中發(fā)現(xiàn)了可能的不足之處。在其首份報(bào)告中,Vals.ai顯示,根據(jù)創(chuàng)業(yè)公司聘請(qǐng)的會(huì)計(jì)師的建議,領(lǐng)先的模型在稅務(wù)問(wèn)題上表現(xiàn)不佳。性能最強(qiáng)模型OpenAI的GPT-4準(zhǔn)確率僅為54.5%。谷歌Gemini Pro準(zhǔn)確率僅為31.3%。換句話說(shuō),對(duì)于老板來(lái)說(shuō),現(xiàn)在解雇你的會(huì)計(jì)師還為時(shí)過(guò)早。

Krishnan表示:“還有很多工作要做,才能將一個(gè)模型應(yīng)用到特定領(lǐng)域或任務(wù)中。這些模型非常有能力。它們有點(diǎn)像是上過(guò)優(yōu)秀文理學(xué)院的孩子。你不會(huì)期望他們?nèi)?bào)稅,但他們已經(jīng)準(zhǔn)備好接受一點(diǎn)必要的培訓(xùn),然后成為稅務(wù)專(zhuān)家?!?/p>

Pear VC的合伙人Arash Afrakhteh表示,企業(yè)需要更多的“細(xì)微差別”來(lái)理解特定的AI模型是否“表現(xiàn)更好”,或者“能否以更低的成本處理我需要的所有任務(wù)”。

Vals.ai的數(shù)據(jù)還暗示了AI系統(tǒng)的性能可能因行業(yè)而異。例如,Anthropic的Claude 3 Opus和OpenAI的GPT-4在法律推理任務(wù)上的回應(yīng)準(zhǔn)確率約為77%,遠(yuǎn)高于稅務(wù)問(wèn)題。Krishnan表示,在他們最近在一個(gè)法律會(huì)議上展示了一些初步發(fā)現(xiàn)后,法律界對(duì)這家初創(chuàng)公司的測(cè)試結(jié)果“非常感興趣”。

Krishnan說(shuō):“人們認(rèn)為這是一個(gè)未解決的問(wèn)題。他們對(duì)我們這樣的研究者采取的新方法感到興奮?!?/p>

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」