
想象一下,只需一張圖像,就能構(gòu)建出一個3D環(huán)境,隨后可通過Meta Quest進(jìn)行沉浸式探索,甚至將其應(yīng)用于家庭環(huán)境之中。蘇黎世現(xiàn)實(shí)實(shí)驗(yàn)室(Reality Labs Zurich)的一支研究團(tuán)隊(duì)正致力于將這一愿景化為現(xiàn)實(shí),并且提出了一種全新的實(shí)現(xiàn)途徑。?
根據(jù)上周發(fā)表的研究論文所述,現(xiàn)有的生成式人工智能模型雖能夠基于單張圖像生成視頻,然而在生成完全沉浸式場景方面卻面臨諸多挑戰(zhàn)。而該研究團(tuán)隊(duì)開發(fā)的流程則取得了突破,在多個定量圖像質(zhì)量指標(biāo)上超越了當(dāng)前最先進(jìn)的基于視頻合成的方法。此流程不僅所需訓(xùn)練工作量極少,還能在現(xiàn)有的生成模型上運(yùn)行。?
研究團(tuán)隊(duì)成員Katja Schwarz、Denis Rozumny、Samuel Rota Bulo、Lorenzo Porzi和Peter Kontschieder指出:“我們的核心觀點(diǎn)是,從單張圖像生成3D環(huán)境這一任務(wù)本身極為復(fù)雜且具有模糊性,但可將其拆解為一系列更易于處理的子問題,而每個子問題都能夠借助現(xiàn)有技術(shù)加以解決?!?
研究人員進(jìn)一步闡釋了方法:“我們的流程主要分為兩個步驟。首先,運(yùn)用預(yù)先訓(xùn)練的擴(kuò)散模型生成連貫的全景圖,接著利用度量深度估計(jì)器將其轉(zhuǎn)化為3D狀態(tài)。之后,通過在渲染的點(diǎn)云上對修復(fù)模型進(jìn)行調(diào)節(jié),以此填充未觀測到的區(qū)域,這一過程僅需極少的微調(diào)?!?最終生成的是一個采用高斯濺射渲染的3D環(huán)境,能夠在VR頭戴式設(shè)備的2米(6.5英尺)立方體內(nèi)進(jìn)行查看與導(dǎo)航。?
值得一提的是,該方法不僅適用于合成圖像,對于照片同樣有效。甚至場景的文字描述也能作為輸入,進(jìn)而生成適用于 VR頭顯的高質(zhì)量3D環(huán)境。?
不過,研究論文中也提及了一些限制與挑戰(zhàn)。例如,將可導(dǎo)航區(qū)域拓展至兩米以上存在較大難度,因?yàn)檫@會大幅增加任務(wù)的復(fù)雜性。此外,目前該流程還無法實(shí)現(xiàn)實(shí)時場景合成。但研究團(tuán)隊(duì)表示,一旦高斯?jié)u變環(huán)境創(chuàng)建完成,便可在VR設(shè)備上實(shí)時顯示。?
雖然目前尚不確定這項(xiàng)技術(shù)何時會被整合到Quest產(chǎn)品中,但從種種跡象來看,其商業(yè)化進(jìn)程似乎已近在咫尺。








