上海人工智能實(shí)驗(yàn)室開源通用多模態(tài)大模型書生?萬象3.5

?? 由 文心大模型 生成的文章摘要

上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)宣布開源通用多模態(tài)大模型書生?萬象3.5(InternVL3.5),其推理能力、部署效率與通用能力全面升級。此次開源標(biāo)志著人工智能領(lǐng)域在多模態(tài)技術(shù)方面取得了重大突破,為全球科研人員和開發(fā)者提供了更強(qiáng)大的工具。?

InternVL3.5本次開源涵蓋了9種不同尺寸的模型,參數(shù)范圍從10億至2410億,以滿足各種場景下的多樣化需求。其中,旗艦?zāi)P虸nternVL3.5-241B-A28B在多學(xué)科推理基準(zhǔn)MMMU中獲得了77.7分的高分,在所有開源模型中位居榜首。該模型的多模態(tài)通用感知能力超越了GPT-5,文本能力也在主流開源多模態(tài)大模型中獨(dú)占鰲頭。?

與之前的InternVL3.0相比,InternVL3.5在圖形用戶界面(GUI)智能體、具身空間感知、矢量圖像理解與生成等多個特色任務(wù)上取得了顯著提升。上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)在此次升級中,著重強(qiáng)化了InternVL3.5在實(shí)際應(yīng)用中的智能體與文本思考能力,實(shí)現(xiàn)了在多個關(guān)鍵場景中從“理解”到“行動”的跨越,這一成果得到了多項(xiàng)評測的驗(yàn)證。?

在GUI交互方面,InternVL3.5在ScreenSpot-v2元素定位任務(wù)中獲得了92.9分的優(yōu)異成績,超越了同類模型。該模型不僅支持Windows和Ubuntu系統(tǒng)的自動化操作,還在WindowsAgentArena任務(wù)中大幅領(lǐng)先于Claude-3.7-Sonnet。在具身智能體測試中,InternVL3.5展現(xiàn)出了對物理空間關(guān)系的理解能力,并能夠規(guī)劃導(dǎo)航路徑,在VSI-Bench測試中以69.5分的成績超過了Gemini-2.5-Pro。在矢量圖形理解與生成方面,InternVL3.5在SGP-Bench測試中刷新了開源紀(jì)錄,其生成任務(wù)的FID值也優(yōu)于GPT-4o和Claude-3.7-Sonnet。?

具體而言,InternVL3.5具備跨平臺操作能力,可在Windows、Mac、Ubuntu、Android等多個平臺上識別界面元素,并自主執(zhí)行鼠標(biāo)和鍵盤操作,實(shí)現(xiàn)諸如恢復(fù)已刪除文件、導(dǎo)出PDF、郵件添加附件等任務(wù)的自動化。此外,InternVL3.5還具備更強(qiáng)的grounding能力,能夠在全新的復(fù)雜小樣本具身場景中實(shí)現(xiàn)泛化,配合抓取算法,支持可泛化的長程物體抓取操作,助力機(jī)器人更高效地完成物品識別、路徑規(guī)劃與物理交互。
?
作為上海AI實(shí)驗(yàn)室書生大模型體系的重要組成部分,InternVL專注于視覺模型技術(shù)。目前,InternVL全系列的全網(wǎng)下載量已突破2300萬次,顯示出其在全球范圍內(nèi)的廣泛應(yīng)用和影響力。?

上海AI實(shí)驗(yàn)室開源InternVL3.5,旨在推動多模態(tài)大模型技術(shù)的進(jìn)一步發(fā)展,促進(jìn)全球科研人員和開發(fā)者之間的合作與創(chuàng)新。通過提供這一強(qiáng)大的開源工具,實(shí)驗(yàn)室希望加速人工智能在各個領(lǐng)域的應(yīng)用,為解決現(xiàn)實(shí)世界的復(fù)雜問題提供更多可能性。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」