
OpenAI正式宣布推出一項(xiàng)旨在評(píng)估AI智能體復(fù)現(xiàn)前沿AI研究能力的全新基準(zhǔn)——PaperBench。這一基準(zhǔn)的發(fā)布,為衡量AI智能體在科研領(lǐng)域的能力提供了重要標(biāo)準(zhǔn),在AI領(lǐng)域引發(fā)廣泛關(guān)注。?
PaperBench的任務(wù)挑戰(zhàn)極具難度,它要求智能體從零開始,完整復(fù)現(xiàn)20篇在ICML 2024(國(guó)際機(jī)器學(xué)習(xí)大會(huì)2024)上榮獲Spotlight和Oral榮譽(yù)的論文。這不僅考驗(yàn)智能體對(duì)論文核心貢獻(xiàn)和思想的理解深度,更要求它們具備獨(dú)立開發(fā)代碼庫(kù),并成功執(zhí)行實(shí)驗(yàn)的實(shí)操能力。?
為了保證評(píng)估的科學(xué)性與公正性,OpenAI與每篇論文的原作者合作,共同制定了詳細(xì)的評(píng)估標(biāo)準(zhǔn)。整個(gè)PaperBench涵蓋了多達(dá)8316個(gè)可單獨(dú)評(píng)分的任務(wù),將復(fù)現(xiàn)任務(wù)細(xì)化為層次分明、標(biāo)準(zhǔn)明確的子任務(wù)。在測(cè)試過程中,多個(gè)前沿模型在PaperBench上接受了嚴(yán)格檢驗(yàn)。其中,表現(xiàn)最為突出的智能體Claude 3.5 Sonnet(新版)巧妙結(jié)合開源框架,最終取得了平均復(fù)現(xiàn)得分21.0%的成績(jī)。然而,即便如此,這一成績(jī)?nèi)晕闯饺祟惢€水平。為了進(jìn)一步驗(yàn)證,OpenAI 特意招募了頂尖的機(jī)器學(xué)習(xí)博士參與部分測(cè)試集挑戰(zhàn),結(jié)果再次表明,當(dāng)前 AI 智能體在復(fù)現(xiàn)前沿 AI 研究方面,與人類專家仍存在差距。?
與此同時(shí),另一則有關(guān)OpenAI的消息也備受矚目。據(jù)外媒報(bào)道,OpenAI 旗下現(xiàn)象級(jí)AI應(yīng)用ChatGPT的付費(fèi)訂閱用戶數(shù)量實(shí)現(xiàn)了重大突破,已成功跨越2000萬大關(guān)?;仡?024年底,這一數(shù)字為1550萬,短短數(shù)月間,增長(zhǎng)了450萬,增幅高達(dá)約 30%。強(qiáng)勁的增長(zhǎng)勢(shì)頭表明,ChatGPT目前每月的收入至少達(dá)到4.15億美元(年化收入為50億美元),相比 2024 年底至少3.33億美元的月收入(年化收入40億美元)增長(zhǎng)了30%。這一增長(zhǎng)不僅反映了 ChatGPT在市場(chǎng)中的強(qiáng)大吸引力,也體現(xiàn)出用戶對(duì)于高質(zhì)量AI服務(wù)的持續(xù)青睞。








