OpenAI發(fā)布GPT – 4.1系列

?? 由 文心大模型 生成的文章摘要

OpenAI正式推出了備受矚目的GPT – 4.1系列模型,該系列包括標(biāo)準(zhǔn)版GPT – 4.1、輕量版GPT – 4.1 mini以及性價(jià)比突出的GPT – 4.1 nano。這一發(fā)布在人工智能領(lǐng)域掀起波瀾,為開發(fā)者們帶來了全新的選擇與機(jī)遇。
?
GPT – 4.1系列模型最顯著的特征之一,便是擁有高達(dá)100萬令牌的上下文窗口。這一數(shù)字相較于其前代 GPT – 4o的12.8萬令牌,有著近8倍的大幅提升。如此強(qiáng)大的上下文處理能力,意味著模型能夠一次性解析約70萬漢字的超長文本,輕松應(yīng)對(duì)諸如小說創(chuàng)作、復(fù)雜法律合同分析、長篇科研論文綜述等對(duì)文本處理要求極高的復(fù)雜場(chǎng)景。在OpenAI官方進(jìn)行的Long Context Evals長文本測(cè)試中,GPT – 4.1系列的三款模型均展現(xiàn)出了卓越的性能,它們能夠在長達(dá)100萬令牌的上下文中,精準(zhǔn)地定位到目標(biāo)文本,無論是在文本的開頭、中間還是結(jié)尾部分,都能準(zhǔn)確無誤地完成任務(wù)。并且測(cè)試結(jié)果表明,GPT – 4.1在處理長達(dá)128K令牌的數(shù)據(jù)時(shí),性能顯著優(yōu)于GPT – 4o,即便是面對(duì)百萬令牌的超長文本,依然能維持較高的性能水準(zhǔn)。?

在編碼能力方面,GPT – 4.1系列同樣表現(xiàn)卓越。OpenAI宣稱,完整版的GPT – 4.1模型在編碼基準(zhǔn)測(cè)試,如備受關(guān)注的SWE – bench測(cè)試中,成績(jī)超越了其前作GPT – 4o和GPT – 4o mini模型。在SWE – bench Verified這一子集測(cè)試中,GPT – 4.1的得分達(dá)到了54.6%,相較于GPT – 4o提升了21.4個(gè)百分點(diǎn),這一成績(jī)已十分接近專業(yè)開發(fā)者的水平,足以證明其在代碼生成和指令遵循方面的出色表現(xiàn)。而 GPT – 4.1 mini和nano版本,雖然在準(zhǔn)確性上稍有犧牲,但換來了更高的效率和更快的速度。其中,GPT – 4.1 nano更是被OpenAI稱為有史以來速度最快且成本最低的模型。?

成本問題一直是開發(fā)者們關(guān)注的重點(diǎn),此次OpenAI也給出了令人滿意的答案。以標(biāo)準(zhǔn)版GPT – 4.1為例,其每百萬令牌輸入費(fèi)用為2美元,輸出費(fèi)用為8美元,與GPT – 4o相比,成本降低了26%。而GPT – 4.1 nano作為 “性價(jià)比之王”,在多項(xiàng)測(cè)試中表現(xiàn)出色。在MMLU通用知識(shí)測(cè)試中,它的得分達(dá)到80.1%;在GPQA專業(yè)問答測(cè)試中,得分達(dá)50.3%;在Aider多語言編碼測(cè)試中,得分也有9.8%,上述成績(jī)均優(yōu)于GPT – 4o mini。同時(shí),GPT – 4.1 nano的延遲更低,非常適合實(shí)時(shí)對(duì)話、客服機(jī)器人等高并發(fā)場(chǎng)景,開發(fā)者可以根據(jù)自身需求,靈活選擇不同規(guī)格的模型,實(shí)現(xiàn)資源的最優(yōu)配置。?

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」