
Meta研究團(tuán)隊(duì)構(gòu)建了一種“大型重建模型(LRM)”,借助這一模型,僅需四張自拍照,短短幾分鐘內(nèi)便能生成可實(shí)現(xiàn)動(dòng)畫效果的高真實(shí)感化身。
Meta研究照片級(jí)真實(shí)感化身生成及動(dòng)畫技術(shù)已超六年。以過(guò)往經(jīng)驗(yàn)來(lái)看,其產(chǎn)出的最高質(zhì)量成果,甚至突破了恐怖谷理論所界定的范疇。
一直以來(lái),照片級(jí)逼真化身的生成面臨著諸多難題,其中最為突出的便是所需數(shù)據(jù)量龐大以及生成耗時(shí)過(guò)長(zhǎng)。Meta此前的頂級(jí)系統(tǒng)依賴極為昂貴的專業(yè)捕捉設(shè)備,這類設(shè)備配備了100 多個(gè)攝像頭。Meta雖曾展示過(guò)基于智能手機(jī)掃描生成低質(zhì)量化身的研究成果,然而,這一過(guò)程要求用戶在三分鐘內(nèi)做出65種不同的面部表情,且采集到的數(shù)據(jù)還需借助配備四個(gè)高端GPU的機(jī)器,耗費(fèi)數(shù)小時(shí)進(jìn)行處理。
如今,在一篇題為“Avat3r”的最新論文中,來(lái)自Meta與慕尼黑工業(yè)大學(xué)的研究人員公布了一個(gè)全新系統(tǒng)。該系統(tǒng)僅通過(guò)四張手機(jī)自拍照,就能生成可動(dòng)畫化的真實(shí)感化身,整個(gè)處理過(guò)程僅需幾分鐘,而非以往的數(shù)小時(shí)。
從技術(shù)原理剖析,Avat3r基于 “大型重建模型(LRM)” 理念,運(yùn)用轉(zhuǎn)換器來(lái)處理3D視覺(jué)任務(wù),其運(yùn)作方式類似于大型語(yǔ)言模型(LLM)處理自然語(yǔ)言,這一技術(shù)通常被稱作視覺(jué)轉(zhuǎn)換器(ViT)。此視覺(jué)轉(zhuǎn)換器主要用于預(yù)測(cè)一組3D高斯分布,類似于在Varjo Teleport、Meta Horizon Hyperscapes、Gracia以及Niantic Scaniverse等呈現(xiàn)照片級(jí)逼真場(chǎng)景中所涉及的高斯分布。
Avat3r動(dòng)畫系統(tǒng)當(dāng)前的具體實(shí)現(xiàn)并非由VR頭戴設(shè)備的面部及眼動(dòng)追蹤傳感器驅(qū)動(dòng),但從技術(shù)可行性而言,將其適配并利用此類傳感器作為輸入源并無(wú)阻礙。
盡管Avat3r在生成數(shù)據(jù)及計(jì)算需求方面已顯著降低,但距離實(shí)現(xiàn)實(shí)時(shí)渲染仍有差距。據(jù)研究人員透露,該系統(tǒng)在RTX 3090上的運(yùn)行幀率僅為8FPS。不過(guò),在人工智能領(lǐng)域,新的研究思路在后續(xù)迭代過(guò)程中實(shí)現(xiàn)數(shù)量級(jí)的性能優(yōu)化并不罕見(jiàn)。Avat3r所開(kāi)辟的技術(shù)路徑極具潛力,或許在不久的將來(lái),頭戴式顯示設(shè)備用戶僅需拍攝幾張自拍照,花費(fèi)短短幾分鐘的生成時(shí)間,就能創(chuàng)建出高度逼真的化身。








