10月5日,國際大模型競技場LMArena發(fā)布最新文生圖評測報(bào)告,騰訊9月28日開源的混元圖像3.0在全球26款主流模型中斬獲綜合排名第一,同時將“最佳綜合文生圖模型”與“最佳開源文生圖模型”兩項(xiàng)頂級榮譽(yù)收入囊中。這一結(jié)果來自加州大學(xué)伯克利分校打造的萬人級盲測體系——平臺通過匿名展示模型輸出、由用戶直接投票的方式生成榜單,因貼近真實(shí)使用場景被業(yè)界視為“生圖模型風(fēng)向標(biāo)”,此次登頂標(biāo)志著中國開源AI模型正式躋身全球生圖技術(shù)第一梯隊(duì)。?
作為全球首個開源商用級原生多模態(tài)生圖模型,混元圖像3.0的核心競爭力源于架構(gòu)革新與數(shù)據(jù)積淀。其采用MoE混合專家+Transfusion統(tǒng)一框架,總參數(shù)量達(dá)80B,通過64個專家模塊動態(tài)調(diào)度,推理時僅激活13B參數(shù)即可實(shí)現(xiàn)高效運(yùn)算。與傳統(tǒng)DiT架構(gòu)不同,該模型創(chuàng)新性引入“廣義因果注意力機(jī)制”,讓文本tokens遵循自回歸邏輯,圖像tokens則可捕捉全局空間依賴,實(shí)現(xiàn)文本與圖像模態(tài)的深度融合。?
這種“自帶大腦”的設(shè)計(jì)賦予模型三大核心能力:?
世界知識推理:輸入“月全食四格科普漫畫”,無需逐幀描述即可生成符合天文原理的序列圖像;?
超長文本理解:支持千字級指令解析,能精準(zhǔn)還原“美拉德色系穿搭海報(bào)+單品拆解”等復(fù)雜需求;?
精確文字渲染:可生成多語言混排的海報(bào)標(biāo)題、數(shù)據(jù)標(biāo)注,解決開源模型“畫文難”的行業(yè)痛點(diǎn)。?
在LMArena采用的SSAE結(jié)構(gòu)化評估中,其綜合準(zhǔn)確率達(dá)87.4%,超越DALL-E3(84.6%)、Midjourneyv6(83.9%)等閉源標(biāo)桿,在文字生成、場景還原兩項(xiàng)指標(biāo)上領(lǐng)先幅度超5%。?
此次發(fā)布的混元圖像3.0不僅在技術(shù)上破局,更以開源策略改寫行業(yè)格局。模型已在Github、HuggingFace全量開放權(quán)重,支持個人與企業(yè)免費(fèi)商用,成為目前唯一能對標(biāo)閉源模型的開源方案。其160GB完整權(quán)重可適配3×80GBGPU配置,搭配flash-attn優(yōu)化組件后推理速度提升3倍,兼顧專業(yè)創(chuàng)作與輕量化應(yīng)用需求。