
字節(jié)跳動(dòng)在人工智能領(lǐng)域再推創(chuàng)新成果,發(fā)布了一款名為 InfiniteYou(InfU)的圖片生成框架。這一框架能夠依據(jù)用戶輸入的文字描述,生成具有高質(zhì)量畫(huà)面的圖片,尤為獨(dú)特的是,它能在靈活變換場(chǎng)景及其中內(nèi)容的同時(shí),精準(zhǔn)保留角色的形象特點(diǎn)。
?InfiniteYou的核心技術(shù)是InfuseNet框架。通過(guò)精妙的技術(shù)手段,InfuseNet可以將特定的角色身份融入到DIT生成模型中。在這一過(guò)程中,它采用“殘差連接”等精細(xì)操作,在提升人臉相似度的同時(shí),不會(huì)對(duì)原有生成模型的能力造成破壞,進(jìn)而保證生成的圖像既契合用戶給定的文字描述,又能穩(wěn)定地保持人物角色的特征,有效規(guī)避了傳統(tǒng)換臉技術(shù)中面部特征粘貼生硬等問(wèn)題。?
在訓(xùn)練策略上,InfiniteYou歷經(jīng)了多個(gè)關(guān)鍵階段。先是進(jìn)行預(yù)訓(xùn)練,而后利用合成的單人多樣本(SPMS)數(shù)據(jù)開(kāi)展監(jiān)督微調(diào)(SFT)。這樣的多階段訓(xùn)練方式極大地提升了文本與圖像之間的對(duì)齊程度,使得生成的圖像不僅在內(nèi)容上與用戶描述高度相符,在圖像質(zhì)量和美觀度方面也達(dá)到了較高水準(zhǔn)。此外,字節(jié)跳動(dòng)還貼心地推出了aes_stage2和sim_stage1兩種模型版本,用戶可依據(jù)自身對(duì)圖像美觀度或人臉相似度的側(cè)重不同,靈活選擇更符合需求的版本。?
從功能層面來(lái)看,InfiniteYou展現(xiàn)出了強(qiáng)大的優(yōu)勢(shì)。用戶能夠借助它生成帶有自身身份特征的高質(zhì)量圖像,想象一下,無(wú)論是身著宇航服漫步在浩瀚太空,還是穿著古裝穿越回古代,圖像中的人物面部特征始終與用戶本人保持一致,真正實(shí)現(xiàn)了在不同場(chǎng)景中“出現(xiàn)”的個(gè)性化體驗(yàn)。同時(shí),用戶只要通過(guò)文字描述心中所想的場(chǎng)景或情境,該框架就能迅速生成對(duì)應(yīng)的圖像,極大地拓展了圖像創(chuàng)作的邊界和可能性。經(jīng)對(duì)比實(shí)驗(yàn)驗(yàn)證,InfiniteYou在身份相似性、文本圖像對(duì)齊、圖像質(zhì)量和美觀度等關(guān)鍵指標(biāo)上,均超越了諸如FLUX.1-dev IP – Adapter和PuLID – FLUX等現(xiàn)有的先進(jìn)方法。?
值得一提的是,InfiniteYou具備“即插即用”的特性,能夠與FLUX.1-dev的各類變體(如更為高效的 FLUX.1 – schnell)、ControlNets、LoRAs 等現(xiàn)有工具實(shí)現(xiàn)無(wú)縫集成。這種強(qiáng)大的兼容性為用戶賦予了更強(qiáng)的可控性和定制化能力,進(jìn)一步推動(dòng)了個(gè)性化圖像風(fēng)格遷移技術(shù)的發(fā)展。?
目前,InfiniteYou基于 Creative Commons Attribution – NonCommercial 4.0 International Public License 發(fā)布,不過(guò)現(xiàn)階段僅供學(xué)術(shù)研究使用。這一舉措旨在鼓勵(lì)全球科研人員基于該框架開(kāi)展深入研究,共同探索人工智能在圖像生成領(lǐng)域的更多可能性,推動(dòng)行業(yè)技術(shù)的進(jìn)步與創(chuàng)新。?








