阿里通義千問團隊發(fā)布全新多模態(tài)大模型Qwen2.5 – Omni

William2025年3月28日 · Ai人工智能 ·

?? 由文心大模型生成的文章摘要

阿里巴巴旗下通義千問團隊正式發(fā)布并開源了新一代端到端多模態(tài)大模型——Qwen2.5 – Omni，這一創(chuàng)新成果在人工智能領(lǐng)域引發(fā)了廣泛關(guān)注。該模型專為全面多模式感知設(shè)計，能夠同時處理文本、圖像、音頻和視頻等多種輸入形式，并支持實時生成文本與自然語音合成輸出，為用戶帶來更加智能化、便捷化的交互體驗。?

Qwen2.5 – Omni采用了通義團隊全新首創(chuàng)的Thinker – Talker雙核架構(gòu)。其中，Thinker模塊作為模型的“大腦”，負責處理文本、圖像、音頻、視頻等多模態(tài)輸入，生成高層語義表征及對應(yīng)文本內(nèi)容。它基于Transformer解碼器架構(gòu)，融合音頻/圖像編碼器進行特征提取，能夠深入理解不同模態(tài)信息背后的含義。而Talker模塊則如同“發(fā)聲器”，以流式方式接收 Thinker 實時輸出的語義表征與文本，流暢合成離散語音單元。它采用雙軌自回歸Transformer解碼器設(shè)計，在訓練和推理過程中直接接收來自Thinker的高維表征，并共享全部歷史上下文信息，形成端到端的統(tǒng)一模型架構(gòu)。這種創(chuàng)新架構(gòu)讓語義理解與語音生成得以協(xié)同優(yōu)化，大幅提升了推理速度與響應(yīng)能力。?

此外，Qwen2.5 – Omni 還運用了位置編碼算法 TMRoPE（Time – aligned Multimodal RoPE），該算法針對音視頻任務(wù)進行了優(yōu)化，通過時間軸對齊提升了時序信息處理能力，實現(xiàn)了音視頻輸入的精準同步，使得模型在處理音視頻相關(guān)內(nèi)容時表現(xiàn)更加出色。?

在性能表現(xiàn)上，Qwen2.5 – Omni展現(xiàn)出了強大的實力。在權(quán)威的多模態(tài)融合任務(wù)OmniBench 測評中，Qwen2.5 – Omni刷新了業(yè)界紀錄，全維度遠超Google Gemini – 1.5 – Pro等同類模型。在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準測試中，Qwen2.5 – Omni也展現(xiàn)出了全球最強的全模態(tài)優(yōu)異性能。其在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評分數(shù)，均領(lǐng)先于專門的Audio或VL模型，且語音生成測評分數(shù)（4.51）達到了與人類持平的能力。?

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

標簽:

Qwen2.5 - Omni 端到端多模態(tài)大模型

天堂av色综合久久天堂,中文字幕日韩人妻在线视频,中文国产日韩欧美二视频 ,中文字幕av一区二区三区人妻少妇 ,在线观看国产一区二区三区

阿里通義千問團隊發(fā)布全新多模態(tài)大模型Qwen2.5 – Omni

相關(guān)文章

商湯科技和阿里在WAIC宣布最新進展，人工智能競爭進一步加劇

AWE2025盛大舉辦，AI科技引領(lǐng)生活新變革

華為AI模型運行專利公布創(chuàng)新數(shù)據(jù)預取機制提升效率

Meta考慮與谷歌、OpenAI合作，強化應(yīng)用AI功能

人工智能設(shè)備主導2025國際消費電子展

蘋果J490智能家居中心：配備Charismatic系統(tǒng)和LLM版Siri

推薦

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)

AI應(yīng)用推薦

熱門

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

友情鏈接

推薦

M5 Vision Pro全球正式發(fā)售，M2機型不支持以舊換新，三星Galaxy XR同期競逐市場

混合現(xiàn)實障礙游戲《激光舞》搶先體驗定檔11月6日，Vanbo BV披露更新計劃與平臺信息

全球首款超小型移動式類腦智算體“智者一號”發(fā)布開啟智算便攜化新時代

Vimeo與YouTube視頻格式支持對比及Apple Immersive Video相關(guān)動態(tài)