阿里通義千問團(tuán)隊(duì)發(fā)布全新多模態(tài)大模型Qwen2.5 – Omni

William — Thu, 27 Mar 2025 16:11:19 +0000

阿里巴巴旗下通義千問團(tuán)隊(duì)正式發(fā)布并開源了新一代端到端多模態(tài)大模型——Qwen2.5 – Omni，這一創(chuàng)新成果在人工智能領(lǐng)域引發(fā)了廣泛關(guān)注。該模型專為全面多模式感知設(shè)計(jì)，能夠同時(shí)處理文本、圖像、音頻和視頻等多種輸入形式，并支持實(shí)時(shí)生成文本與自然語音合成輸出，為用戶帶來更加智能化、便捷化的交互體驗(yàn)。?

Qwen2.5 – Omni采用了通義團(tuán)隊(duì)全新首創(chuàng)的Thinker – Talker雙核架構(gòu)。其中，Thinker模塊作為模型的“大腦”，負(fù)責(zé)處理文本、圖像、音頻、視頻等多模態(tài)輸入，生成高層語義表征及對應(yīng)文本內(nèi)容。它基于Transformer解碼器架構(gòu)，融合音頻/圖像編碼器進(jìn)行特征提取，能夠深入理解不同模態(tài)信息背后的含義。而Talker模塊則如同“發(fā)聲器”，以流式方式接收 Thinker 實(shí)時(shí)輸出的語義表征與文本，流暢合成離散語音單元。它采用雙軌自回歸Transformer解碼器設(shè)計(jì)，在訓(xùn)練和推理過程中直接接收來自Thinker的高維表征，并共享全部歷史上下文信息，形成端到端的統(tǒng)一模型架構(gòu)。這種創(chuàng)新架構(gòu)讓語義理解與語音生成得以協(xié)同優(yōu)化，大幅提升了推理速度與響應(yīng)能力。?

此外，Qwen2.5 – Omni 還運(yùn)用了位置編碼算法 TMRoPE（Time – aligned Multimodal RoPE），該算法針對音視頻任務(wù)進(jìn)行了優(yōu)化，通過時(shí)間軸對齊提升了時(shí)序信息處理能力，實(shí)現(xiàn)了音視頻輸入的精準(zhǔn)同步，使得模型在處理音視頻相關(guān)內(nèi)容時(shí)表現(xiàn)更加出色。?

在性能表現(xiàn)上，Qwen2.5 – Omni展現(xiàn)出了強(qiáng)大的實(shí)力。在權(quán)威的多模態(tài)融合任務(wù)OmniBench 測評中，Qwen2.5 – Omni刷新了業(yè)界紀(jì)錄，全維度遠(yuǎn)超Google Gemini – 1.5 – Pro等同類模型。在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準(zhǔn)測試中，Qwen2.5 – Omni也展現(xiàn)出了全球最強(qiáng)的全模態(tài)優(yōu)異性能。其在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評分?jǐn)?shù)，均領(lǐng)先于專門的Audio或VL模型，且語音生成測評分?jǐn)?shù)（4.51）達(dá)到了與人類持平的能力。?

「93913原創(chuàng)內(nèi)容，轉(zhuǎn)載請注明出處」

亚洲高清国产av拍精品青青草原,四四色播

阿里通義千問團(tuán)隊(duì)發(fā)布全新多模態(tài)大模型Qwen2.5 – Omni