天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

首頁
Ai人工智能
人工智能團(tuán)體爭相重新設(shè)計(jì)模型測試并創(chuàng)建新的基準(zhǔn)

人工智能團(tuán)體爭相重新設(shè)計(jì)模型測試并創(chuàng)建新的基準(zhǔn)

William2024年11月11日 · Ai人工智能 ·

?? 由文心大模型生成的文章摘要

隨著快速發(fā)展的技術(shù)超越了當(dāng)前的基準(zhǔn)，科技團(tuán)隊(duì)正在爭相重新設(shè)計(jì)測試和評估人工智能模型的方式。

OpenAI、微軟、Meta和Anthropic最近都宣布計(jì)劃打造可代表人類自主執(zhí)行任務(wù)的人工智能代理。為了有效做到這一點(diǎn)，系統(tǒng)必須能夠使用推理和規(guī)劃來執(zhí)行越來越復(fù)雜的操作。

公司通過員工團(tuán)隊(duì)和外部研究人員對人工智能模型進(jìn)行“評估”。這些是標(biāo)準(zhǔn)化測試，稱為基準(zhǔn)，用于評估模型的能力以及不同團(tuán)隊(duì)系統(tǒng)或舊版本的性能。

然而，人工智能技術(shù)的最新進(jìn)展意味著許多最新模型在現(xiàn)有測試中的準(zhǔn)確率已經(jīng)接近或超過90%，這凸顯了對新基準(zhǔn)的需求。

“這個(gè)行業(yè)的發(fā)展速度非常快，我們現(xiàn)在開始飽和了衡量這些系統(tǒng)的能力，[作為一個(gè)行業(yè)]評估[它們]變得越來越困難?！盡eta生成AI負(fù)責(zé)人Ahmad Al-Dahle表示。

為了解決這個(gè)問題，包括Meta、OpenAI和微軟在內(nèi)的多個(gè)技術(shù)團(tuán)體都創(chuàng)建了內(nèi)部智能基準(zhǔn)和測試。但這引起了業(yè)內(nèi)人士的擔(dān)憂，他們擔(dān)心在沒有公開測試的情況下，無法對技術(shù)進(jìn)行比較。

“許多基準(zhǔn)測試讓我們知道，我們距離任務(wù)和工作自動(dòng)化還有多遠(yuǎn)。如果不公開這些測試，企業(yè)和社會(huì)就很難判斷。”人工智能安全中心執(zhí)行主任、馬斯克xAI顧問Dan Hendrycks表示。

當(dāng)前的公共基準(zhǔn)——Hellaswag和MMLU——使用多項(xiàng)選擇題來評估各種主題的常識和知識。然而，研究人員認(rèn)為這種方法現(xiàn)在變得多余，模型需要更復(fù)雜的問題。

OpenAI研究部高級副總裁Mark Chen表示：“我們正進(jìn)入這樣一個(gè)時(shí)代：大量人工編寫的測試已不足以作為衡量模型能力的良好標(biāo)準(zhǔn)，這給我們研究界帶來了新的挑戰(zhàn)?！?/p>

一項(xiàng)公共基準(zhǔn)測試SWE-bench Verified于8月進(jìn)行了更新，以便根據(jù)包括OpenAI在內(nèi)的公司的反饋更好評估自主系統(tǒng)。

其使用來自開發(fā)者平臺GitHub的真實(shí)軟件問題，并向AI代理提供代碼存儲(chǔ)庫和工程問題，以要求修復(fù)，這些任務(wù)需要推理才能完成。

根據(jù)這一衡量標(biāo)準(zhǔn)，OpenAI最新模型GPT-4o預(yù)覽版解決了41.4%的問題，而Anthropic Claude 3.5 Sonnet解決了49%的問題。

Anthropic首席科學(xué)官Jared Kaplan表示：“使用代理系統(tǒng)要困難得多，因?yàn)槟阈枰獙⑦@些系統(tǒng)與許多額外的工具連接。”

“你必須創(chuàng)建一個(gè)完整的沙盒環(huán)境，這并不像僅僅提供提示、查看完成情況然后進(jìn)行評估那么簡單。”

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

標(biāo)簽:

AI 人工智能

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

人工智能團(tuán)體爭相重新設(shè)計(jì)模型測試并創(chuàng)建新的基準(zhǔn)

相關(guān)文章

AI芯片公司Cerebras與開源AI技術(shù)制造商Mistral達(dá)成合作

字節(jié)跳動(dòng)發(fā)布圖像編輯模型SeedEdit 3.0，開啟圖像編輯新時(shí)代

富士康推出大型語言模型“FoxBrain”

生成式AI+腕帶交互：Meta新SDK或?qū)⒍x智能眼鏡開發(fā)新范式

中國自研HiDream-I1開源24小時(shí)登頂 Artificial Analysis圖像生成模型榜首

新西蘭首個(gè)采用人工智能制作的電視廣告將推動(dòng)新西蘭羊毛產(chǎn)業(yè)發(fā)展

推薦

榮耀征集 | 第八屆天鴿獎(jiǎng)邁向國際，全球范圍正式啟動(dòng)

西影無界攜手小派科技發(fā)布定制化觀影頭顯，共創(chuàng)全球首個(gè)XR影院系統(tǒng)

2025西安國際虛擬現(xiàn)實(shí)電影周AI&XR電影技術(shù)創(chuàng)新大會(huì)啟幕多項(xiàng)重磅成果助力影視科技融合發(fā)展

累計(jì)砸錢超10億美元！沙特控股Magic Leap背后：中東虛擬世界生態(tài)布局提速

AI應(yīng)用推薦

熱門

榮耀征集 | 第八屆天鴿獎(jiǎng)邁向國際，全球范圍正式啟動(dòng)

西影無界攜手小派科技發(fā)布定制化觀影頭顯，共創(chuàng)全球首個(gè)XR影院系統(tǒng)

友情鏈接

推薦

榮耀征集 | 第八屆天鴿獎(jiǎng)邁向國際，全球范圍正式啟動(dòng)

西影無界攜手小派科技發(fā)布定制化觀影頭顯，共創(chuàng)全球首個(gè)XR影院系統(tǒng)

2025西安國際虛擬現(xiàn)實(shí)電影周AI&XR電影技術(shù)創(chuàng)新大會(huì)啟幕多項(xiàng)重磅成果助力影視科技融合發(fā)展

累計(jì)砸錢超10億美元！沙特控股Magic Leap背后：中東虛擬世界生態(tài)布局提速