愛(ài)奇藝高精度手部重建論文獲ICCV收錄,將用于下一代奇遇VR

?? 由 文心大模型 生成的文章摘要

如何在沉浸環(huán)境中真正感受到沉浸式體驗(yàn)?那就是,在虛擬場(chǎng)景中,依然可以實(shí)現(xiàn)與現(xiàn)實(shí)世界中一樣的交互。例如,在體驗(yàn)一款游戲時(shí),你可以直接使用你在虛擬世界的“數(shù)字化分手”,自然地與同伴打招呼、握手、擊掌,還能完成各種抓取動(dòng)作…..隨著計(jì)算機(jī)視覺(jué)、AI等技術(shù)對(duì)自然肢體語(yǔ)言的識(shí)別, 不再僅通過(guò)手柄定義你在虛擬世界中的動(dòng)作,正在成為可能。

這種通過(guò)手勢(shì)識(shí)別打破次元壁,獲得更佳臨場(chǎng)感的方式,已成為當(dāng)前VR、AR消費(fèi)級(jí)頭顯設(shè)備重點(diǎn)研究的方向之一,但如果手部識(shí)別精度不夠,則可能無(wú)法做到對(duì)真實(shí)雙手姿態(tài)的完美復(fù)刻。為達(dá)到更好的效果,如何以更精準(zhǔn)的方式同步還原人類雙手在物理世界的靈動(dòng)姿態(tài),完成比手柄控制更精細(xì)的操作,就顯得尤為重要。

近日,愛(ài)奇藝的深度學(xué)習(xí)云算法小組通過(guò)題為《I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling》(I2UV-HandNet:基于圖像到UV Map映射的3D手部高保真重建網(wǎng)絡(luò))的論文再獲關(guān)注。

針對(duì)現(xiàn)有模型在手部姿態(tài)識(shí)別方面不夠精細(xì)等問(wèn)題,該論文提出一套I2UV-HandNet高精度手部重建系統(tǒng),并依托愛(ài)奇藝在業(yè)內(nèi)首提的將點(diǎn)的超分轉(zhuǎn)化為圖像超分這一先進(jìn)技術(shù)思考,能夠做到識(shí)別21個(gè)關(guān)節(jié)點(diǎn)和26自由度的手部運(yùn)動(dòng)信息,從而更有效地實(shí)現(xiàn)更高等級(jí)的手部還原。這將使得在VR、AR等使用場(chǎng)景下,用戶通過(guò)更精細(xì)的手勢(shì)追蹤與識(shí)別,更準(zhǔn)確、流暢地完成更多操作,享受在虛擬世界更佳的臨場(chǎng)感?;谠撓到y(tǒng)的行業(yè)首創(chuàng)性和卓越應(yīng)用價(jià)值,該篇論文成功被今年接收率僅為25.9%的國(guó)際計(jì)算機(jī)視覺(jué)大會(huì)(ICCV)成功收錄,并在業(yè)內(nèi)頗受認(rèn)可的HO3D以及Freihand 在線測(cè)評(píng)榜持續(xù)數(shù)月排名第一,超越目前的SOTA水平(若某篇論文能夠被稱為SOTA,就表明其提出的算法(模型)的性能在所在領(lǐng)域?yàn)樽顑?yōu))。

通常而言,要讓手勢(shì)識(shí)別實(shí)現(xiàn)更高的精度,首先需要好的手部模型,只有好的模型才能預(yù)測(cè)出來(lái)更多3D點(diǎn)。同時(shí)需要有足夠的高精度數(shù)據(jù),才能不斷訓(xùn)練重建模型。基于大量手部數(shù)據(jù)對(duì)深度學(xué)習(xí)算法的“喂養(yǎng)”,愛(ài)奇藝自研的I2UV-HandNet高精度手部重建系統(tǒng),能夠通過(guò)UV重建模塊AffineNet,完成由粗到精的人手3D模型重建。這樣一來(lái),即使在大遮擋或多姿態(tài)狀態(tài)下,該系統(tǒng)仍可有效改善現(xiàn)有人手模型識(shí)別不準(zhǔn)確等問(wèn)題,為手勢(shì)識(shí)別提供更為完整且精準(zhǔn)的參考。

同時(shí),考慮到不同虛擬場(chǎng)景對(duì)手部3D模型的精度要求不一,該系統(tǒng)還可通過(guò)SRNet網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)已有人手3D模型更高精度的重建。該系統(tǒng)基于落實(shí)“點(diǎn)的超分轉(zhuǎn)化為圖像的超分”的先進(jìn)技術(shù)思考,通過(guò)算法從低精度UV圖到高精度UV圖的學(xué)習(xí),可完成MANO(778個(gè)點(diǎn)/1538個(gè)面)人手模型向高精度(3093個(gè)點(diǎn)/6152個(gè)面)乃至更精細(xì)(上萬(wàn)點(diǎn)云)的人手模型的重建,這可以實(shí)現(xiàn)雙手的“虛擬分身”在不同背景色彩、景深下,表現(xiàn)得如物理世界雙手一樣靈活。

值得一提的是,未來(lái)該系統(tǒng)將應(yīng)用于下一代奇遇VR中,賦能愛(ài)奇藝VR更佳的沉浸感,讓用戶不僅僅是瀏覽內(nèi)容,更有機(jī)會(huì)“走進(jìn)內(nèi)容”??梢灶A(yù)見(jiàn),該系統(tǒng)基于更低成本的深度學(xué)習(xí)算法完成的高精度手勢(shì)識(shí)別,相比通過(guò)自帶深度信息識(shí)別的攝像頭,將更具性價(jià)比和規(guī)模化落地的商業(yè)潛力,也將為愛(ài)奇藝更多業(yè)務(wù)場(chǎng)景或硬件終端增強(qiáng)“沉浸體驗(yàn)”帶來(lái)更為強(qiáng)大助力。

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明出處」