阿里推出數(shù)學(xué)專用AI模型,據(jù)稱表現(xiàn)優(yōu)于OpenAI和谷歌LLM

?? 由 文心大模型 生成的文章摘要

阿里旨在通過推出一組名為Qwen2-Math的數(shù)學(xué)專用大型語言模型來提高人工智能開發(fā)的標(biāo)準(zhǔn),其聲稱該模型可超越OpenAI GPT-4o。

阿里云計(jì)算部門Qwen團(tuán)隊(duì)在開發(fā)者平臺(tái)GitHub發(fā)布帖子:“過去一年,我們投入了大量精力研究和增強(qiáng)大型語言模型的推理能力,特別關(guān)注其解決算術(shù)和數(shù)學(xué)問題的能力?!?/p>

Qwen2-Math建立在阿里6月發(fā)布的Qwen2的基礎(chǔ)上,涵蓋了基于參數(shù)規(guī)模的三種模型。參數(shù)是機(jī)器學(xué)習(xí)術(shù)語,指訓(xùn)練期間人工智能系統(tǒng)中存在的變量,有助于確定數(shù)據(jù)提示如何產(chǎn)生所需的輸出。

根據(jù)Qwen團(tuán)隊(duì)帖子,參數(shù)數(shù)量最多的模型Qwen2-Math-72B-Instruct在數(shù)學(xué)基準(zhǔn)測試中的表現(xiàn)優(yōu)于美國開發(fā)的專有LLM,其中包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro和Llama -3.1-405B。

帖子寫道:“我們希望Qwen2-Math能夠?yàn)锳I社區(qū)解決復(fù)雜的數(shù)學(xué)問題做出貢獻(xiàn)?!?/p>

該帖子稱,Qwen2-Math AI模型在英語和語文、數(shù)學(xué)基準(zhǔn)上進(jìn)行了測試。其中包括GSM8K,一個(gè)包含8500個(gè)高質(zhì)量語言多樣化小學(xué)數(shù)學(xué)問題的數(shù)據(jù)集;OlympiadBench,一個(gè)高水平雙語多模態(tài)科學(xué)基準(zhǔn);以及高考內(nèi)容。

通義千向第三方開發(fā)者開放已有一年多時(shí)間,開源讓公眾可以訪問程序的源代碼,允許第三方軟件開發(fā)者修改或共享其設(shè)計(jì)、修復(fù)損壞的鏈接或擴(kuò)展其功能。

7月,Qwen2-72B-Instruct在SuperClue LLM排名中僅次于GPT-4o和Claude 3.5 Sonnet。SuperClue是一個(gè)基準(zhǔn)測試平臺(tái),根據(jù)計(jì)算、邏輯推理、編碼和文本理解等指標(biāo)對(duì)模型進(jìn)行評(píng)估。

SuperClue稱,中國和美國人工智能模型之間的差距似乎正在縮小,今年上半年,國內(nèi)在推進(jìn)LLM方面取得了重大進(jìn)展。

美國加州大學(xué)伯克利分校支持的人工智能模型研究機(jī)構(gòu)LMSYS于7月發(fā)布的另一項(xiàng)測試顯示,Qwen2-72B排名第20位,OpenAI、Anthropic和谷歌的專有模型占據(jù)了前10名的大部分位置。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」