字節(jié)跳動Seedream 3.0追平GPT-4o,引領文生圖技術新變革

?? 由 文心大模型 生成的文章摘要

文生圖領域權威的第三方榜單Artificial Analysis競技場發(fā)布重要消息,字節(jié)跳動Seed團隊的圖像生成模型Seedream 3.0取得重大技術突破。其綜合性能成功追平當前文生圖領域的 SOTA(State-of-the-Art,最先進)模型GPT – 4o,并穩(wěn)定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等知名模型,正式邁入全球第一梯隊。這一成果標志著文生圖技術迎來了新的發(fā)展階段,也為相關領域的應用帶來了更多可能。?

Seedream 3.0作為字節(jié)跳動在文生圖領域的新一代主力模型,已經(jīng)在即夢、豆包等臺全量開放,向廣大用戶展示其強大的功能。據(jù)技術報告顯示,該模型支持中英雙語圖像生成,并且在圖像輸出質(zhì)量上實現(xiàn)了質(zhì)的飛躍,時常無需后處理即可直接生成2K高清圖像,這在行業(yè)內(nèi)處于領先水平。?

在生成速度和質(zhì)量方面,Seedream 3.0表現(xiàn)卓越。它能夠在約3秒的極短時間內(nèi),迅速生成一幅1K分辨率的高品質(zhì)圖像。相比之下,市場上大多數(shù)同類模型生成同樣分辨率內(nèi)容往往需要10秒以上,就連此前的文生圖SOTA模型GPT-4o,其生成 1K分辨率圖像的平均耗時也達到了77秒。Seedream 3.0的高效表現(xiàn),極大地提升了用戶的創(chuàng)作效率。?

為了實現(xiàn)這一突破,豆包大模型團隊在研發(fā) Seedream 3.0時深入調(diào)研設計師的實際需求,將圖文匹配、結(jié)構(gòu)和美感等行業(yè)共識性指標納入模型設計方向。團隊還重點攻克了小字體生成與復雜文本排版等行業(yè)難題,為海報設計等實際應用奠定了堅實基礎。在技術架構(gòu)上,Seedream 3.0 采用了 Transformers 架構(gòu),能夠靈活處理變長輸入序列,支持從512×512到2048×2048的多種分辨率及不同長寬比的快速生成。同時,模型引入的新推理加速算法,包括一致性噪聲預測法和重要時間步采樣,確保了在生成速度和圖像質(zhì)量之間達到良好平衡。?

在圖像質(zhì)量提升方面,Seedream 3.0 針對小字體的高保真生成以及多行文本的語義排版表現(xiàn)有顯著改進。這得益于模型在預訓練階段引入的跨模態(tài)旋轉(zhuǎn)位置編碼技術,該技術極大地增強了文字的渲染能力,使得生成的海報不僅美觀,而且符合設計倫理,滿足了用戶對美學體驗的更高要求。此外,字節(jié)跳動團隊通過全新的數(shù)據(jù)處理和訓練方案,在數(shù)據(jù)處理和 RLHF(強化學習與人類反饋)階段將有效數(shù)據(jù)集擴充超過 20%,并采用更加精準的美感描述維度,進一步優(yōu)化 RLHF 獎勵模型,使其具備多維度的質(zhì)量判別能力,從而顯著提升了模型的綜合性能。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」