
阿里巴巴旗下通義千問團隊正式發(fā)布并開源了新一代端到端多模態(tài)大模型——Qwen2.5 – Omni,這一創(chuàng)新成果在人工智能領(lǐng)域引發(fā)了廣泛關(guān)注。該模型專為全面多模式感知設(shè)計,能夠同時處理文本、圖像、音頻和視頻等多種輸入形式,并支持實時生成文本與自然語音合成輸出,為用戶帶來更加智能化、便捷化的交互體驗。?
Qwen2.5 – Omni采用了通義團隊全新首創(chuàng)的Thinker – Talker雙核架構(gòu)。其中,Thinker模塊作為模型的“大腦”,負責處理文本、圖像、音頻、視頻等多模態(tài)輸入,生成高層語義表征及對應(yīng)文本內(nèi)容。它基于Transformer解碼器架構(gòu),融合音頻/圖像編碼器進行特征提取,能夠深入理解不同模態(tài)信息背后的含義。而Talker模塊則如同“發(fā)聲器”,以流式方式接收 Thinker 實時輸出的語義表征與文本,流暢合成離散語音單元。它采用雙軌自回歸Transformer解碼器設(shè)計,在訓練和推理過程中直接接收來自Thinker的高維表征,并共享全部歷史上下文信息,形成端到端的統(tǒng)一模型架構(gòu)。這種創(chuàng)新架構(gòu)讓語義理解與語音生成得以協(xié)同優(yōu)化,大幅提升了推理速度與響應(yīng)能力。?
此外,Qwen2.5 – Omni 還運用了位置編碼算法 TMRoPE(Time – aligned Multimodal RoPE),該算法針對音視頻任務(wù)進行了優(yōu)化,通過時間軸對齊提升了時序信息處理能力,實現(xiàn)了音視頻輸入的精準同步,使得模型在處理音視頻相關(guān)內(nèi)容時表現(xiàn)更加出色。?
在性能表現(xiàn)上,Qwen2.5 – Omni展現(xiàn)出了強大的實力。在權(quán)威的多模態(tài)融合任務(wù)OmniBench 測評中,Qwen2.5 – Omni刷新了業(yè)界紀錄,全維度遠超Google Gemini – 1.5 – Pro等同類模型。在一系列同等規(guī)模的單模態(tài)模型權(quán)威基準測試中,Qwen2.5 – Omni也展現(xiàn)出了全球最強的全模態(tài)優(yōu)異性能。其在語音理解、圖片理解、視頻理解、語音生成等領(lǐng)域的測評分數(shù),均領(lǐng)先于專門的Audio或VL模型,且語音生成測評分數(shù)(4.51)達到了與人類持平的能力。?








