微軟推出開源Phi-3.5模型,用于高級AI開發(fā)

?? 由 文心大模型 生成的文章摘要

微軟在其Phi-3.5系列中推出了三個(gè)新的開源AI模型:Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct。這些模型在寬松的MIT許可下可用,為開發(fā)人員提供各種任務(wù)的工具,包括推理、多語言處理以及圖像和視頻分析。

Phi-3.5-mini-instruct模型擁有38.2億個(gè)參數(shù),針對基本和快速推理任務(wù)進(jìn)行了優(yōu)化。該模型專為在內(nèi)存和計(jì)算受限的環(huán)境中運(yùn)行而設(shè)計(jì),因此非常適合代碼生成、數(shù)學(xué)問題解決和基于邏輯的推理任務(wù)。盡管Phi-3.5-mini-instruct的尺寸相對較小,但在RepoQA等基準(zhǔn)測試(用于測量長上下文代碼理解)上,其表現(xiàn)優(yōu)于Meta的Llama-3.1-8B-instruct和Mistral-7B-instruct等大型模型。

Phi-3.5-MoE-instruct模型擁有419億個(gè)參數(shù),這使其能夠根據(jù)輸入激活不同的參數(shù),從而處理更復(fù)雜的推理任務(wù)。MoE模型在各種基準(zhǔn)測試中的表現(xiàn)均優(yōu)于谷歌Gemini 1.5 Flash等規(guī)模更大的同類模型,展現(xiàn)了其先進(jìn)的推理能力。這使其成為需要深度、情境感知理解和決策的應(yīng)用程序的強(qiáng)大工具。

Phi-3.5-vision-instruct模型擁有41.5億個(gè)參數(shù),集成了文本和圖像處理功能。這種多模態(tài)方法使其能夠處理各種任務(wù),包括圖像理解、光學(xué)字符識別和視頻摘要。由于支持128K標(biāo)記上下文長度,特別擅長處理復(fù)雜的多幀視覺任務(wù)。Phi-3.5-vision-instruct模型在合成數(shù)據(jù)集和公開數(shù)據(jù)集上進(jìn)行訓(xùn)練,專門用于TextVQA和ScienceQA等任務(wù),提供高質(zhì)量的視覺分析。

Phi-3.5系列的三款模型都擁有強(qiáng)大的訓(xùn)練背景。Phi-3.5-mini-instruct使用512個(gè)H100-80G GPU在10天內(nèi)對3.4萬億個(gè)token進(jìn)行了訓(xùn)練。Phi-3.5-MoE-instruct模型需要更長的訓(xùn)練時(shí)間,在相同數(shù)量的GPU下,在23天內(nèi)處理了4.9萬億個(gè)token。Phi-3.5-vision-instruct模型使用256個(gè)A100-80G GPU在6天內(nèi)對5000億個(gè)token進(jìn)行了訓(xùn)練。這些廣泛的訓(xùn)練過程使 Phi-3.5模型在眾多基準(zhǔn)測試中取得了優(yōu)異的表現(xiàn),在許多場景中往往超越了其他領(lǐng)先的AI 模型,包括OpenAI GPT-4o。

這些基準(zhǔn)測試結(jié)果展示了Phi-3.5模型(尤其是Phi-3.5 mini)與其他領(lǐng)先AI模型(如Mistral、Llama和Gemini)在不同任務(wù)中的比較情況。數(shù)據(jù)突出了Phi-3.5模型在從一般推理到更具體的問題解決場景等任務(wù)中的有效性。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」