小米大模型團(tuán)隊(duì)與北大信科在圖像生成技術(shù)領(lǐng)域取得重大突破,提出了對角蛇形掃描自回歸圖像生成框架(DAR,diagonal snake-like order)。這一創(chuàng)新性框架有效確保了相鄰索引的token在空間上緊密相鄰,在圖像生成的自然度和效率上實(shí)現(xiàn)了顯著提升。?
傳統(tǒng)的圖像生成方式多為逐行生成,這種方式生成的相鄰像素在空間上可能不連續(xù),導(dǎo)致最終生成的圖像在視覺效果上不夠自然。而DAR框架則另辟蹊徑,它能夠沿著圖像的對角線,以類似蛇形的路徑靈活地生成每個(gè)像素。這種生成方式更符合人類繪畫時(shí)的直覺,使得生成過程更加流暢自然,也讓相鄰索引的token在空間上緊密相連,極大地提升了圖像生成的質(zhì)量和連貫性。?
小米大模型團(tuán)隊(duì)表示,在256×256 ImageNet基準(zhǔn)測試中,DAR取得1.37的FID分?jǐn)?shù)。FID分?jǐn)?shù)是評估生成模型生成圖像質(zhì)量的常用指標(biāo),分?jǐn)?shù)越低表明生成圖像與真實(shí)圖像越相似。此次1.37的FID分?jǐn)?shù)刷新了當(dāng)前同類技術(shù)的最好成績,充分展示了DAR框架在圖像生成領(lǐng)域的強(qiáng)大實(shí)力和技術(shù)優(yōu)勢,超越了此前所有的自回歸方法。?
ImageNet是機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域極為著名的數(shù)據(jù)集,包含超過1400萬張標(biāo)注圖片,覆蓋約21841個(gè)類別。其核心部分ILSVRC是推動大規(guī)模物體檢測和圖像分類技術(shù)發(fā)展的年度競賽,使用約100萬張訓(xùn)練圖像、5萬個(gè)驗(yàn)證圖像以及10多萬張測試圖像,共1000個(gè)不同對象類別。在這樣具有廣泛影響力和權(quán)威性的基準(zhǔn)測試中脫穎而出,DAR框架的技術(shù)先進(jìn)性得到了有力驗(yàn)證。?
小米官方透露,未來將進(jìn)一步支持更靈活的多種分辨率圖像生成。這一計(jì)劃的推進(jìn),將使 DAR框架能夠適應(yīng)更多不同場景的需求,無論是高清圖像生成,還是其他特殊分辨率需求的圖像任務(wù),都有望通過DAR框架實(shí)現(xiàn)高質(zhì)量的輸出,從而推動視覺內(nèi)容創(chuàng)作邁向新的高度。