Meta面向公眾發(fā)起大規(guī)模志愿者招募計(jì)劃,為參與研究的志愿者提供高達(dá)每小時(shí)50美元的豐厚報(bào)酬。此次招募旨在收集多樣化的面部表情、肢體動作以及對話交流數(shù)據(jù),這些珍貴數(shù)據(jù)將直接服務(wù)于Meta極具前瞻性的Codec Avatars項(xiàng)目下一階段開發(fā)。作為致力于為虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)領(lǐng)域打造超逼真虛擬形象的前沿項(xiàng)目,Codec Avatars早在2019年便已完成首次概念演示,引發(fā)行業(yè)廣泛關(guān)注。據(jù)權(quán)威媒體《商業(yè)內(nèi)幕》披露,這項(xiàng)內(nèi)部代號為 “沃霍爾計(jì)劃” 的研究項(xiàng)目,由專業(yè)數(shù)據(jù)服務(wù)公司Appen負(fù)責(zé)具體運(yùn)營執(zhí)行,在項(xiàng)目相關(guān)文件中,Appen被明確標(biāo)注為Meta的重要合作伙伴。?
此次研究工作主要涵蓋“人體運(yùn)動”與“小組對話”兩大核心板塊。在“人體運(yùn)動”研究環(huán)節(jié),參與者需嚴(yán)格按照要求精準(zhǔn)模仿特定面部表情,抑揚(yáng)頓挫地朗讀例句,并配合富有表現(xiàn)力的手勢動作,其一舉一動都將通過高精度設(shè)備進(jìn)行全方位記錄?,F(xiàn)場部署的專業(yè)實(shí)驗(yàn)裝置堪稱尖端科技的集合體,不僅配備多角度高清攝像頭,還集成了降噪耳機(jī)以及各類傳感器,能夠從三維空間的各個(gè)維度,以毫秒級的精度追蹤捕捉參與者的細(xì)微動作變化。
而在 “小組對話” 研究部分,參與者將被隨機(jī)分成2 – 3人的小組,圍繞給定主題展開即興對話,或是進(jìn)行輕松有趣的即興表演。這種貼近真實(shí)社交場景的實(shí)驗(yàn)設(shè)計(jì),旨在獲取更自然、更豐富的人際互動數(shù)據(jù)。據(jù)悉,這兩項(xiàng)重要研究預(yù)計(jì)將于今年9月在位于匹茲堡的Meta研究實(shí)驗(yàn)室正式啟動,屆時(shí)或?qū)镃odec Avatars項(xiàng)目帶來突破性的數(shù)據(jù)支撐。?
事實(shí)上,Meta始終堅(jiān)定不移地推動Codec Avatar技術(shù)從實(shí)驗(yàn)室走向大眾市場?;厮萑ツ晗奶?,Meta便密集發(fā)布了一系列與Codec Avatars項(xiàng)目緊密相關(guān)的招聘信息,涵蓋設(shè)計(jì)原型師、iOS開發(fā)人員等關(guān)鍵崗位。從招聘需求不難看出,Meta正著力構(gòu)建一項(xiàng) “內(nèi)部XR手機(jī)服務(wù)”,試圖憑借Codec Avatars強(qiáng)大的沉浸式遠(yuǎn)程呈現(xiàn)技術(shù),重新定義未來人與人之間的互動模式,勾勒出數(shù)字化社交的全新圖景。?
Meta在Codec Avatar技術(shù)領(lǐng)域的探索成果已多次引發(fā)行業(yè)震動。去年9月,在知名播客節(jié)目中,Lex Fridman與Meta首席執(zhí)行官扎克伯格通過照片級逼真Codec Avatar進(jìn)行遠(yuǎn)程對話,驚艷的視覺效果瞬間成為熱議焦點(diǎn)。值得一提的是,為實(shí)現(xiàn)如此極致的真實(shí)感,每個(gè)虛擬形象背后都需要配備搭載四塊 GeForce RTX 4090 GPU的高性能工作站提供算力支持。
而在2024年3月,Meta研究主管Yaser Sheikh帶來了令人振奮的消息:Codec Avatars的早期簡化版本已成功實(shí)現(xiàn)獨(dú)立VR頭顯運(yùn)行,并且用戶僅需通過智能手機(jī)進(jìn)行一分鐘的面部掃描,便能快速生成專屬虛擬形象。這些便捷高效的快速掃描版本被Meta命名為 “即時(shí)Codec Avatars”,標(biāo)志著Codec Avatar技術(shù)朝著大眾化、普及化邁出了堅(jiān)實(shí)一步,也讓人們對未來虛擬社交的無限可能充滿期待。
固件發(fā)現(xiàn)表明Meta正將其逼真的“編解碼器化身”(Codec Avatars)引入Quest頭顯。
Codec Avatars是Meta長期研發(fā)項(xiàng)目,旨在通過具備面部追蹤傳感器的頭顯以及眼鏡實(shí)時(shí)驅(qū)動照片級真實(shí)化身,從而徹底改變遠(yuǎn)程通信。Meta于2019年首次透露了該項(xiàng)目的存在,并在隨后的幾年中展示了多個(gè)更新版本。
雖然Codec Avatars一直被描述為處于研究領(lǐng)域,但一項(xiàng)新的發(fā)現(xiàn)表明,Codec Avatars可能會成為Quest的一項(xiàng)功能。
VR愛好者Luna通過反編譯Meta Quest固件62版發(fā)現(xiàn)了對Codec Avatars的引用,該固件目前可供公共測試頻道的測試人員使用。
過去,我們已經(jīng)多次以這種方式發(fā)現(xiàn)即將推出的Quest功能。這表明,Meta正努力在Quest 集成該功能。
去年3月,Meta首席技術(shù)官博斯沃思表示,公司在發(fā)布Codec Avatars方面“取得了進(jìn)展”,但提示“我們還需要幾年的時(shí)間”。

目前還不清楚該功能是為現(xiàn)有的Quest頭顯還是未來的Quest Pro 2開發(fā)。
同樣在去年3月,Meta Quest硬件路線圖被The Verge披露。除了Quest 3和即將推出的更廉價(jià)的頭顯(傳聞為Quest 3 Lite),該路線圖還提到了一款新的Quest Pro頭顯以及Codec Avatars。
但Meta可能打算將Codec Avatars引入現(xiàn)有的Quest Pro,甚至是Quest 2和Quest 3。
2021年,Meta研究人員展示了一種更加有效的解碼編解碼器化身的方案。在Quest 2上,新方案可在空白場景中以72FPS的幀速渲染1個(gè)Codec Avatar,以63FPS左右的幀速渲染3個(gè)Codec Avatar,或者以43FPS左右的幀速渲染5個(gè)Codec Avatar。
但這些化身如何在缺乏面部和眼動追蹤功能的Quest 2和Quest 3上驅(qū)動呢?Meta研究人員還展示了不需要面部追蹤的Codec Avatars版本,最近甚至推出了根本不需要任何追蹤功能的版本。相反,來自麥克風(fēng)的音頻被輸入神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)可預(yù)估當(dāng)前語音模式可能的面部姿勢。

盡管如此,Meta完全有可能希望為Quest Pro 2保留足夠強(qiáng)大的編解碼器化身,以支持Horizon Workrooms會議中的Codec Avatar,以通過真實(shí)面部追蹤來驅(qū)動。
此外,Meta研究人員一直致力于用智能手機(jī)掃描來取代由100多個(gè)攝像機(jī)組成的專用捕獲設(shè)備生成Codec Avatar的過程,這是大規(guī)模交付Codec Avatar所必需的,但生成效果可能不盡理想。Quest Pro 2可能包括一個(gè)前置顯示屏和用于化身設(shè)置的深度傳感器,就像Apple Vision Pro用于其數(shù)字角色一樣,但同樣仍然無法匹配專門的捕獲裝置。
盡管如此,任何版本的Codec Avatars都將比Meta當(dāng)前的化身會有巨大的改進(jìn),后者具有基本的卡通藝術(shù)風(fēng)格,并與照片寫實(shí)主義相差甚遠(yuǎn)。
據(jù)UploadVR報(bào)道,Meta“Codec Avatars”現(xiàn)在可以通過iPhone掃描生成。
Facebook于2019年3月首次展示了“Codec Avatars”,其基于一個(gè)配置有5個(gè)攝像頭(2個(gè)攝像頭內(nèi)部觀察、3個(gè)攝像頭外部觀察)的原型VR頭顯構(gòu)成的多神經(jīng)網(wǎng)絡(luò)而驅(qū)動,而經(jīng)過多次例如“更逼真的眼睛”、“支持眼動追蹤和麥克風(fēng)輸入”等優(yōu)化改進(jìn),Codec Avatars 2.0版本已接近具備完全真實(shí)感。

以往,生成一個(gè)單獨(dú)的“Codec Avatar”需要通過“MUGSY”專用捕獲設(shè)備和171個(gè)高分辨率攝像機(jī)共同完成,如今,Meta的最新研究擺脫了這一要求,基于配備了前置深度傳感器的智能手機(jī)(例如帶有FaceID的iPhone),用戶掃描面部后便能生成虛擬化身(可同時(shí)復(fù)制65個(gè)面部表情)。
研究人員稱,面部掃描過程平均只需3分半鐘,而實(shí)際生成具有完整細(xì)節(jié)的虛擬化身則需要6個(gè)小時(shí),不過Meta“Codec Avatars”虛擬化身生成過程或通過云端執(zhí)行,而無須通過用戶設(shè)備。
那么,過去需要100多個(gè)攝像頭的捕獲成像,現(xiàn)在是如何做到只需要一部手機(jī)就能達(dá)成呢?這其中的訣竅在于“超網(wǎng)絡(luò)”(hypernetwork、權(quán)重神經(jīng)網(wǎng)絡(luò)),為此研究人員通過采用先進(jìn)的捕獲設(shè)備(類似于MUGSY,但只有90個(gè)攝像頭)掃描255個(gè)不同個(gè)體的面部以訓(xùn)練“UPM超網(wǎng)絡(luò)”。
盡管已有其他研究人員展示了基于智能手機(jī)掃描的虛擬化身,但Meta聲稱其結(jié)果是最先進(jìn)的,目前,該系統(tǒng)還無法處理眼鏡及長發(fā),并且僅限于掃描面部。
當(dāng)然,要達(dá)到產(chǎn)品交付的保真度,Meta還有很長的路要走,今天的“Meta Avatars”具有鮮明的卡通藝術(shù)風(fēng)格,且虛擬角色的真實(shí)性實(shí)際上會隨著時(shí)間的推移而降低,這使得其可能更適合通過Quest 2驅(qū)動的「Horizon Worlds」等大型社交應(yīng)用。
最終,“Codec Avatar”會成為一個(gè)單獨(dú)的選項(xiàng),而不是當(dāng)今卡通化身的直接更新,在接受Lex Fridman采訪時(shí),Meta首席執(zhí)行官扎克伯格描述了這樣一個(gè)未來,你可能會在休閑游戲中采用“表現(xiàn)主義”化身,而在工作會議中采用“現(xiàn)實(shí)主義”化身。今年4月 ,“Codec Avatar”負(fù)責(zé)人Yaser Sheikh曾表示,暫且無法預(yù)測該系統(tǒng)的具體推出時(shí)間。
據(jù)VRScout報(bào)道,Meta Connect期間Meta首席執(zhí)行官扎克伯格詢問Meta Reality Labs首席科學(xué)官M(fèi)ichael Abrash如何才能讓Meta成為一家元宇宙公司時(shí),Abrash指出,要實(shí)現(xiàn)這一目標(biāo)必須攻克包括觸覺、手部追蹤、眼球追蹤及計(jì)算機(jī)視覺在內(nèi)的十多項(xiàng)關(guān)鍵性技術(shù)。
另外,Abrash還強(qiáng)調(diào)了Codec Avatars的重要性,并表示:“我認(rèn)為實(shí)現(xiàn)元宇宙的第一步是將人們緊密聯(lián)系。”
Abrash解釋道虛擬化身既要真實(shí),又要能為用戶提供多樣化的化身選項(xiàng)。例如,用戶參加會議或主題演講時(shí),則需要一個(gè)穿著職業(yè)裝的逼真化身形象;而用戶與朋友出去玩時(shí),一個(gè)“彩色的恐龍”頭像可能更合適。
早在Connect 2019大會上,Abrash就演示了Codec Avatars角色逼真的面部表情追蹤,今年,Abrash展示了Reality Labs在3D化身頭發(fā)(毛孔和毛囊等微小細(xì)節(jié))和皮膚渲染方面的工作進(jìn)展。

除了虛擬角色面部表情,Reality Labs認(rèn)為虛擬服裝將是人們表達(dá)自我個(gè)性的重要元素,因此虛擬服裝要看起來非常逼真且具有與現(xiàn)實(shí)世界相同的物理物性,為此Abrash初步介紹了Reality Labs的手-布(hand-cloth)交互技術(shù),通過圖片,我們可以看到手部與衣服之間的接觸動作。
盡管Codec Avatars取得了重大進(jìn)展,但Abrash表示該項(xiàng)目公開之前還有很多工作要做。