
隨著快速發(fā)展的技術(shù)超越了當(dāng)前的基準(zhǔn),科技團(tuán)隊(duì)正在爭相重新設(shè)計(jì)測試和評估人工智能模型的方式。
OpenAI、微軟、Meta和Anthropic最近都宣布計(jì)劃打造可代表人類自主執(zhí)行任務(wù)的人工智能代理。為了有效做到這一點(diǎn),系統(tǒng)必須能夠使用推理和規(guī)劃來執(zhí)行越來越復(fù)雜的操作。
公司通過員工團(tuán)隊(duì)和外部研究人員對人工智能模型進(jìn)行“評估”。這些是標(biāo)準(zhǔn)化測試,稱為基準(zhǔn),用于評估模型的能力以及不同團(tuán)隊(duì)系統(tǒng)或舊版本的性能。
然而,人工智能技術(shù)的最新進(jìn)展意味著許多最新模型在現(xiàn)有測試中的準(zhǔn)確率已經(jīng)接近或超過90%,這凸顯了對新基準(zhǔn)的需求。
“這個(gè)行業(yè)的發(fā)展速度非常快,我們現(xiàn)在開始飽和了衡量這些系統(tǒng)的能力,[作為一個(gè)行業(yè)]評估[它們]變得越來越困難?!盡eta生成AI負(fù)責(zé)人Ahmad Al-Dahle表示。
為了解決這個(gè)問題,包括Meta、OpenAI和微軟在內(nèi)的多個(gè)技術(shù)團(tuán)體都創(chuàng)建了內(nèi)部智能基準(zhǔn)和測試。但這引起了業(yè)內(nèi)人士的擔(dān)憂,他們擔(dān)心在沒有公開測試的情況下,無法對技術(shù)進(jìn)行比較。
“許多基準(zhǔn)測試讓我們知道,我們距離任務(wù)和工作自動(dòng)化還有多遠(yuǎn)。如果不公開這些測試,企業(yè)和社會(huì)就很難判斷。”人工智能安全中心執(zhí)行主任、馬斯克xAI顧問Dan Hendrycks表示。
當(dāng)前的公共基準(zhǔn)——Hellaswag和MMLU——使用多項(xiàng)選擇題來評估各種主題的常識和知識。然而,研究人員認(rèn)為這種方法現(xiàn)在變得多余,模型需要更復(fù)雜的問題。
OpenAI研究部高級副總裁Mark Chen表示:“我們正進(jìn)入這樣一個(gè)時(shí)代:大量人工編寫的測試已不足以作為衡量模型能力的良好標(biāo)準(zhǔn),這給我們研究界帶來了新的挑戰(zhàn)?!?/p>
一項(xiàng)公共基準(zhǔn)測試SWE-bench Verified于8月進(jìn)行了更新,以便根據(jù)包括OpenAI在內(nèi)的公司的反饋更好評估自主系統(tǒng)。
其使用來自開發(fā)者平臺GitHub的真實(shí)軟件問題,并向AI代理提供代碼存儲(chǔ)庫和工程問題,以要求修復(fù),這些任務(wù)需要推理才能完成。
根據(jù)這一衡量標(biāo)準(zhǔn),OpenAI最新模型GPT-4o預(yù)覽版解決了41.4%的問題,而Anthropic Claude 3.5 Sonnet解決了49%的問題。
Anthropic首席科學(xué)官Jared Kaplan表示:“使用代理系統(tǒng)要困難得多,因?yàn)槟阈枰獙⑦@些系統(tǒng)與許多額外的工具連接。”
“你必須創(chuàng)建一個(gè)完整的沙盒環(huán)境,這并不像僅僅提供提示、查看完成情況然后進(jìn)行評估那么簡單。”








