騰訊混元圖像3.0登頂LMArena全球榜單,包攬兩項國際頂級生圖榮譽

?? 由 文心大模型 生成的文章摘要

10月5日,國際大模型競技場LMArena發(fā)布最新文生圖評測報告,騰訊9月28日開源的混元圖像3.0在全球26款主流模型中斬獲綜合排名第一,同時將“最佳綜合文生圖模型”與“最佳開源文生圖模型”兩項頂級榮譽收入囊中。這一結(jié)果來自加州大學伯克利分校打造的萬人級盲測體系——平臺通過匿名展示模型輸出、由用戶直接投票的方式生成榜單,因貼近真實使用場景被業(yè)界視為“生圖模型風向標”,此次登頂標志著中國開源AI模型正式躋身全球生圖技術(shù)第一梯隊。?

作為全球首個開源商用級原生多模態(tài)生圖模型,混元圖像3.0的核心競爭力源于架構(gòu)革新與數(shù)據(jù)積淀。其采用MoE混合專家+Transfusion統(tǒng)一框架,總參數(shù)量達80B,通過64個專家模塊動態(tài)調(diào)度,推理時僅激活13B參數(shù)即可實現(xiàn)高效運算。與傳統(tǒng)DiT架構(gòu)不同,該模型創(chuàng)新性引入“廣義因果注意力機制”,讓文本tokens遵循自回歸邏輯,圖像tokens則可捕捉全局空間依賴,實現(xiàn)文本與圖像模態(tài)的深度融合。?

這種“自帶大腦”的設計賦予模型三大核心能力:?

世界知識推理:輸入“月全食四格科普漫畫”,無需逐幀描述即可生成符合天文原理的序列圖像;?

超長文本理解:支持千字級指令解析,能精準還原“美拉德色系穿搭海報+單品拆解”等復雜需求;?

精確文字渲染:可生成多語言混排的海報標題、數(shù)據(jù)標注,解決開源模型“畫文難”的行業(yè)痛點。?

在LMArena采用的SSAE結(jié)構(gòu)化評估中,其綜合準確率達87.4%,超越DALL-E3(84.6%)、Midjourneyv6(83.9%)等閉源標桿,在文字生成、場景還原兩項指標上領先幅度超5%。?

此次發(fā)布的混元圖像3.0不僅在技術(shù)上破局,更以開源策略改寫行業(yè)格局。模型已在Github、HuggingFace全量開放權(quán)重,支持個人與企業(yè)免費商用,成為目前唯一能對標閉源模型的開源方案。其160GB完整權(quán)重可適配3×80GBGPU配置,搭配flash-attn優(yōu)化組件后推理速度提升3倍,兼顧專業(yè)創(chuàng)作與輕量化應用需求。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」