
小米大模型團隊與北大信科在圖像生成技術(shù)領(lǐng)域取得重大突破,提出了對角蛇形掃描自回歸圖像生成框架(DAR,diagonal snake-like order)。這一創(chuàng)新性框架有效確保了相鄰索引的token在空間上緊密相鄰,在圖像生成的自然度和效率上實現(xiàn)了顯著提升。?
傳統(tǒng)的圖像生成方式多為逐行生成,這種方式生成的相鄰像素在空間上可能不連續(xù),導(dǎo)致最終生成的圖像在視覺效果上不夠自然。而DAR框架則另辟蹊徑,它能夠沿著圖像的對角線,以類似蛇形的路徑靈活地生成每個像素。這種生成方式更符合人類繪畫時的直覺,使得生成過程更加流暢自然,也讓相鄰索引的token在空間上緊密相連,極大地提升了圖像生成的質(zhì)量和連貫性。?
小米大模型團隊表示,在256×256 ImageNet基準測試中,DAR取得1.37的FID分數(shù)。FID分數(shù)是評估生成模型生成圖像質(zhì)量的常用指標,分數(shù)越低表明生成圖像與真實圖像越相似。此次1.37的FID分數(shù)刷新了當(dāng)前同類技術(shù)的最好成績,充分展示了DAR框架在圖像生成領(lǐng)域的強大實力和技術(shù)優(yōu)勢,超越了此前所有的自回歸方法。?
ImageNet是機器學(xué)習(xí)和計算機視覺領(lǐng)域極為著名的數(shù)據(jù)集,包含超過1400萬張標注圖片,覆蓋約21841個類別。其核心部分ILSVRC是推動大規(guī)模物體檢測和圖像分類技術(shù)發(fā)展的年度競賽,使用約100萬張訓(xùn)練圖像、5萬個驗證圖像以及10多萬張測試圖像,共1000個不同對象類別。在這樣具有廣泛影響力和權(quán)威性的基準測試中脫穎而出,DAR框架的技術(shù)先進性得到了有力驗證。?
小米官方透露,未來將進一步支持更靈活的多種分辨率圖像生成。這一計劃的推進,將使 DAR框架能夠適應(yīng)更多不同場景的需求,無論是高清圖像生成,還是其他特殊分辨率需求的圖像任務(wù),都有望通過DAR框架實現(xiàn)高質(zhì)量的輸出,從而推動視覺內(nèi)容創(chuàng)作邁向新的高度。








