上海人工智能實(shí)驗(yàn)室開源通用多模態(tài)大模型書生?萬象3.5

William2025年9月5日 · 大模型 ·

?? 由文心大模型生成的文章摘要

上海人工智能實(shí)驗(yàn)室（上海AI實(shí)驗(yàn)室）宣布開源通用多模態(tài)大模型書生?萬象3.5（InternVL3.5），其推理能力、部署效率與通用能力全面升級。此次開源標(biāo)志著人工智能領(lǐng)域在多模態(tài)技術(shù)方面取得了重大突破，為全球科研人員和開發(fā)者提供了更強(qiáng)大的工具。?

InternVL3.5本次開源涵蓋了9種不同尺寸的模型，參數(shù)范圍從10億至2410億，以滿足各種場景下的多樣化需求。其中，旗艦?zāi)Ｐ虸nternVL3.5-241B-A28B在多學(xué)科推理基準(zhǔn)MMMU中獲得了77.7分的高分，在所有開源模型中位居榜首。該模型的多模態(tài)通用感知能力超越了GPT-5，文本能力也在主流開源多模態(tài)大模型中獨(dú)占鰲頭。?

與之前的InternVL3.0相比，InternVL3.5在圖形用戶界面（GUI）智能體、具身空間感知、矢量圖像理解與生成等多個特色任務(wù)上取得了顯著提升。上海AI實(shí)驗(yàn)室的研究團(tuán)隊(duì)在此次升級中，著重強(qiáng)化了InternVL3.5在實(shí)際應(yīng)用中的智能體與文本思考能力，實(shí)現(xiàn)了在多個關(guān)鍵場景中從“理解”到“行動”的跨越，這一成果得到了多項(xiàng)評測的驗(yàn)證。?

在GUI交互方面，InternVL3.5在ScreenSpot-v2元素定位任務(wù)中獲得了92.9分的優(yōu)異成績，超越了同類模型。該模型不僅支持Windows和Ubuntu系統(tǒng)的自動化操作，還在WindowsAgentArena任務(wù)中大幅領(lǐng)先于Claude-3.7-Sonnet。在具身智能體測試中，InternVL3.5展現(xiàn)出了對物理空間關(guān)系的理解能力，并能夠規(guī)劃導(dǎo)航路徑，在VSI-Bench測試中以69.5分的成績超過了Gemini-2.5-Pro。在矢量圖形理解與生成方面，InternVL3.5在SGP-Bench測試中刷新了開源紀(jì)錄，其生成任務(wù)的FID值也優(yōu)于GPT-4o和Claude-3.7-Sonnet。?

具體而言，InternVL3.5具備跨平臺操作能力，可在Windows、Mac、Ubuntu、Android等多個平臺上識別界面元素，并自主執(zhí)行鼠標(biāo)和鍵盤操作，實(shí)現(xiàn)諸如恢復(fù)已刪除文件、導(dǎo)出PDF、郵件添加附件等任務(wù)的自動化。此外，InternVL3.5還具備更強(qiáng)的grounding能力，能夠在全新的復(fù)雜小樣本具身場景中實(shí)現(xiàn)泛化，配合抓取算法，支持可泛化的長程物體抓取操作，助力機(jī)器人更高效地完成物品識別、路徑規(guī)劃與物理交互。
?
作為上海AI實(shí)驗(yàn)室書生大模型體系的重要組成部分，InternVL專注于視覺模型技術(shù)。目前，InternVL全系列的全網(wǎng)下載量已突破2300萬次，顯示出其在全球范圍內(nèi)的廣泛應(yīng)用和影響力。?

上海AI實(shí)驗(yàn)室開源InternVL3.5，旨在推動多模態(tài)大模型技術(shù)的進(jìn)一步發(fā)展，促進(jìn)全球科研人員和開發(fā)者之間的合作與創(chuàng)新。通過提供這一強(qiáng)大的開源工具，實(shí)驗(yàn)室希望加速人工智能在各個領(lǐng)域的應(yīng)用，為解決現(xiàn)實(shí)世界的復(fù)雜問題提供更多可能性。

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

標(biāo)簽:

書生?萬象3.5

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

上海人工智能實(shí)驗(yàn)室開源通用多模態(tài)大模型書生?萬象3.5

相關(guān)文章

四部門聯(lián)合發(fā)布新規(guī)，規(guī)范大模型上線流程

彭博社：蘋果內(nèi)部認(rèn)為在人工智能開發(fā)方面至少落后兩年

螞蟻集團(tuán)：AI時代超級入口形態(tài)未定，大模型或重塑軟件生態(tài)

昆侖萬維發(fā)布國內(nèi)首個AI短片視頻生成模型

Meta稱其Llama AI模型正被銀行和科技公司使用

阿里云通義千問3震撼發(fā)布，性能超越巨頭，成本大幅降低

推薦

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實(shí)障礙游戲《激光舞》搶先體驗(yàn)定檔11月6日，Vanbo BV披露更新計(jì)劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)

AI應(yīng)用推薦

熱門

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實(shí)障礙游戲《激光舞》搶先體驗(yàn)定檔11月6日，Vanbo BV披露更新計(jì)劃與平臺信息

友情鏈接

推薦

M5 Vision Pro全球正式發(fā)售，M2機(jī)型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實(shí)障礙游戲《激光舞》搶先體驗(yàn)定檔11月6日，Vanbo BV披露更新計(jì)劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)