Meta已成功對(duì)其全身Codec Avatars技術(shù)進(jìn)行優(yōu)化提煉,如今在Quest 3獨(dú)立版上可同時(shí)渲染出3個(gè)該化身,但這一成果的背后也伴隨著一些明顯的權(quán)衡。?
近十年來(lái),Meta始終致力于研發(fā)Codec Avatars技術(shù)。這項(xiàng)技術(shù)借助VR頭顯的面部及眼球追蹤功能,能夠?qū)崟r(shí)驅(qū)動(dòng)出逼真的人體數(shù)字化身。根據(jù)實(shí)際體驗(yàn),最高質(zhì)量的原型版本在突破恐怖谷效應(yīng)方面取得了非凡成就。?
Codec Avatars的核心目標(biāo)是傳遞社交臨場(chǎng)感,也就是讓人們?cè)跐撘庾R(shí)中覺(jué)得自己真的在和另一個(gè)人相處,即便對(duì)方并不在現(xiàn)場(chǎng)。這一點(diǎn),無(wú)論是平板技術(shù),甚至是視頻通話,都難以做到。?
為了能讓Codec Avatars最終成功推出,Meta一直在不懈努力:一方面不斷提升系統(tǒng)的真實(shí)感與適應(yīng)性,另一方面降低其實(shí)時(shí)渲染的要求,并且力求實(shí)現(xiàn)通過(guò)智能手機(jī)掃描就能生成該化身。?
比如,上周我們?cè)鴪?bào)道過(guò)Meta在高度逼真的頭部Codec Avatar方面的最新進(jìn)展。借助高斯分布技術(shù)(Gaussian splatting),只需一段旋轉(zhuǎn)頭部的自拍視頻,再加上服務(wù)器GPU大約一小時(shí)的處理時(shí)間,就能生成這樣的化身。近年來(lái),高斯分布技術(shù)在逼真的體積渲染領(lǐng)域發(fā)揮著至關(guān)重要的作用,其地位堪比大型語(yǔ)言模型(LLM)在聊天機(jī)器人領(lǐng)域的影響力。?
不過(guò),該系統(tǒng)最初的設(shè)計(jì)是在性能強(qiáng)大的PC顯卡上運(yùn)行。而現(xiàn)在,Meta的研究人員已經(jīng)找到在Quest 3上實(shí)時(shí)運(yùn)行全身Codec Avatar的方法。?
在一篇名為《SqueezeMe:高斯全身頭像的移動(dòng)就緒提煉》的論文中,研究人員詳細(xì)闡述了如何利用NPU和GPU對(duì)全身逼真頭像進(jìn)行優(yōu)化,使其能夠在移動(dòng)芯片組上運(yùn)行。?
或許你在大型語(yǔ)言模型(LLM)或人工智能(AI)的相關(guān)語(yǔ)境中聽(tīng)說(shuō)過(guò)“蒸餾”這個(gè)詞。它指的是利用一個(gè)大型且計(jì)算成本高昂的模型的輸出,來(lái)訓(xùn)練一個(gè)規(guī)模小得多的模型。其核心理念是,讓小模型能夠高效地復(fù)制大型模型的功能,同時(shí)將質(zhì)量損失降到最低。?
研究人員表示,SqueezeMe技術(shù)可以在Quest 3上以72FPS的速度渲染出3個(gè)全身頭像,與在PC上渲染的版本相比,質(zhì)量幾乎沒(méi)有損失。?
然而,有幾個(gè)關(guān)鍵的權(quán)衡之處需要留意。?
這些頭像的生成,依靠的是傳統(tǒng)的大規(guī)模自定義捕捉陣列,該陣列配備了超過(guò)100個(gè)攝像頭和數(shù)百盞燈,而非Meta近期在其他Codec Avatars研究中所采用的新“通用模型”智能手機(jī)掃描方法。?
而且,它們采用的是平面光照,不支持動(dòng)態(tài)重新光照。而支持動(dòng)態(tài)重新光照是Meta最新PC版Codec Avatars的旗艦功能,對(duì)于讓該化身適應(yīng)VR環(huán)境和混合現(xiàn)實(shí)來(lái)說(shuō)至關(guān)重要。
?
盡管存在這些不足,但這項(xiàng)研究對(duì)于Meta而言,仍是朝著最終將Codec Avatars作為其HorizonOS頭顯的實(shí)際功能所邁出的充滿(mǎn)希望的一步。?
今年,隨著蘋(píng)果在visionOS中推出新的Persona,公眾對(duì)Meta的壓力顯著增大,大家紛紛要求Meta推出這款已研究十年的產(chǎn)品,這也相當(dāng)于在督促M(fèi)eta兌現(xiàn)其承諾。?
但問(wèn)題在于,Quest 3和Quest 3S均不支持眼動(dòng)追蹤或面部追蹤,而且目前沒(méi)有跡象表明Meta計(jì)劃在近期推出另一款具備這兩種功能的頭顯。此前的QuestPro曾支持這兩項(xiàng)功能,不過(guò)已于今年年初停產(chǎn)。?
有一種可能性是,Meta會(huì)首先推出帶有AI模擬面部追蹤功能的初級(jí)平板版本Codec Avatars,讓用戶(hù)能夠以比Meta Avatar更逼真的形式參與Whats App和Messenger視頻通話。?
Meta Connect 2025將于9月17日舉行,屆時(shí)該公司很可能會(huì)分享更多關(guān)于Codec Avatars技術(shù)的進(jìn)展情況。
最近招聘信息表明,Meta Codec Avatars虛擬化身即將走出實(shí)驗(yàn)室,進(jìn)入產(chǎn)品階段。
Meta目前有多個(gè)與Codec Avatars相關(guān)的空缺職位,該公司正在招聘一名設(shè)計(jì)原型師和一名 iOS開(kāi)發(fā)工程師等。
根據(jù)描述,Meta想要構(gòu)建一個(gè)“內(nèi)部XR呼叫服務(wù)”:
“在我們的團(tuán)隊(duì)中,你將探索、設(shè)計(jì)原型并構(gòu)建體驗(yàn),定義人們?nèi)绾瓮ㄟ^(guò)Codec Avatars沉浸式遠(yuǎn)程呈現(xiàn)進(jìn)行交互的未來(lái);你將與工程師、科學(xué)家和研究產(chǎn)品經(jīng)理密切合作,構(gòu)建和擴(kuò)展內(nèi)部XR呼叫服務(wù),并解決獨(dú)特、復(fù)雜且微妙的用戶(hù)和研究人員挑戰(zhàn)。”
對(duì)于iOS開(kāi)發(fā)人員來(lái)說(shuō),Meta正在招聘“具有用戶(hù)界面、基礎(chǔ)設(shè)施和/或使用iOS SDK開(kāi)發(fā) iPhone或iPad應(yīng)用工具”的工程師。
Meta多年來(lái)一直在研究Codec Avatars;該研究于2019年首次向公眾展示。
2023年,博主Lex Fridman采用Codec Avatars對(duì)Meta CEO馬克·扎克伯格進(jìn)行了采訪。
Meta沒(méi)有透露的是,Codec Avatars使用配備4塊GeForce RTX 4090顯卡的工作站來(lái)實(shí)時(shí)渲染虛擬化身。而這并不是該技術(shù)商業(yè)化的唯一障礙:人們必須在專(zhuān)門(mén)的工作室中進(jìn)行細(xì)致的掃描。
不過(guò),2024年3月,Meta研究主管Yaser Sheikh在一次演講中表示,Codec Avatars舊版、不太逼真的版本已經(jīng)可在VR一體機(jī)上運(yùn)行,用戶(hù)只需用智能手機(jī)掃描一分鐘的臉部即可創(chuàng)建化身,Meta將這稱(chēng)為即時(shí)Codec Avatars。
iOS開(kāi)發(fā)工程師的職責(zé)可能是創(chuàng)建一個(gè)App,以指導(dǎo)用戶(hù)完成掃描過(guò)程并使用未來(lái)的Quest 頭顯實(shí)現(xiàn)XR通話。
最近也有跡象表明Codec Avatars即將推出,因?yàn)楸砻髌湟褜?shí)現(xiàn)的代碼字符串在Quest固件中被發(fā)現(xiàn);尚不清楚Codec Avatars可能會(huì)應(yīng)用于哪些頭顯。目前,只有Meta Quest Pro支持面部和眼部追蹤;像Quest 3必須根據(jù)語(yǔ)音等其他因素來(lái)猜測(cè)面部表情。
由于蘋(píng)果憑借Spatial Personas功能搶先一步,Meta也渴望最終將這項(xiàng)技術(shù)商業(yè)化,并希望在2024年Meta Connect上能推出這項(xiàng)技術(shù)。