
文生圖領(lǐng)域權(quán)威的第三方榜單Artificial Analysis競(jìng)技場(chǎng)發(fā)布重要消息,字節(jié)跳動(dòng)Seed團(tuán)隊(duì)的圖像生成模型Seedream 3.0取得重大技術(shù)突破。其綜合性能成功追平當(dāng)前文生圖領(lǐng)域的 SOTA(State-of-the-Art,最先進(jìn))模型GPT – 4o,并穩(wěn)定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等知名模型,正式邁入全球第一梯隊(duì)。這一成果標(biāo)志著文生圖技術(shù)迎來(lái)了新的發(fā)展階段,也為相關(guān)領(lǐng)域的應(yīng)用帶來(lái)了更多可能。?
Seedream 3.0作為字節(jié)跳動(dòng)在文生圖領(lǐng)域的新一代主力模型,已經(jīng)在即夢(mèng)、豆包等臺(tái)全量開(kāi)放,向廣大用戶(hù)展示其強(qiáng)大的功能。據(jù)技術(shù)報(bào)告顯示,該模型支持中英雙語(yǔ)圖像生成,并且在圖像輸出質(zhì)量上實(shí)現(xiàn)了質(zhì)的飛躍,時(shí)常無(wú)需后處理即可直接生成2K高清圖像,這在行業(yè)內(nèi)處于領(lǐng)先水平。?
在生成速度和質(zhì)量方面,Seedream 3.0表現(xiàn)卓越。它能夠在約3秒的極短時(shí)間內(nèi),迅速生成一幅1K分辨率的高品質(zhì)圖像。相比之下,市場(chǎng)上大多數(shù)同類(lèi)模型生成同樣分辨率內(nèi)容往往需要10秒以上,就連此前的文生圖SOTA模型GPT-4o,其生成 1K分辨率圖像的平均耗時(shí)也達(dá)到了77秒。Seedream 3.0的高效表現(xiàn),極大地提升了用戶(hù)的創(chuàng)作效率。?
為了實(shí)現(xiàn)這一突破,豆包大模型團(tuán)隊(duì)在研發(fā) Seedream 3.0時(shí)深入調(diào)研設(shè)計(jì)師的實(shí)際需求,將圖文匹配、結(jié)構(gòu)和美感等行業(yè)共識(shí)性指標(biāo)納入模型設(shè)計(jì)方向。團(tuán)隊(duì)還重點(diǎn)攻克了小字體生成與復(fù)雜文本排版等行業(yè)難題,為海報(bào)設(shè)計(jì)等實(shí)際應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)。在技術(shù)架構(gòu)上,Seedream 3.0 采用了 Transformers 架構(gòu),能夠靈活處理變長(zhǎng)輸入序列,支持從512×512到2048×2048的多種分辨率及不同長(zhǎng)寬比的快速生成。同時(shí),模型引入的新推理加速算法,包括一致性噪聲預(yù)測(cè)法和重要時(shí)間步采樣,確保了在生成速度和圖像質(zhì)量之間達(dá)到良好平衡。?
在圖像質(zhì)量提升方面,Seedream 3.0 針對(duì)小字體的高保真生成以及多行文本的語(yǔ)義排版表現(xiàn)有顯著改進(jìn)。這得益于模型在預(yù)訓(xùn)練階段引入的跨模態(tài)旋轉(zhuǎn)位置編碼技術(shù),該技術(shù)極大地增強(qiáng)了文字的渲染能力,使得生成的海報(bào)不僅美觀,而且符合設(shè)計(jì)倫理,滿(mǎn)足了用戶(hù)對(duì)美學(xué)體驗(yàn)的更高要求。此外,字節(jié)跳動(dòng)團(tuán)隊(duì)通過(guò)全新的數(shù)據(jù)處理和訓(xùn)練方案,在數(shù)據(jù)處理和 RLHF(強(qiáng)化學(xué)習(xí)與人類(lèi)反饋)階段將有效數(shù)據(jù)集擴(kuò)充超過(guò) 20%,并采用更加精準(zhǔn)的美感描述維度,進(jìn)一步優(yōu)化 RLHF 獎(jiǎng)勵(lì)模型,使其具備多維度的質(zhì)量判別能力,從而顯著提升了模型的綜合性能。








