美國(guó)專利局公布了蘋果一項(xiàng)與基于視覺的手勢(shì)定制相關(guān)的專利申請(qǐng)。?
基于視覺的手勢(shì)定制領(lǐng)域正日益受到關(guān)注。蘋果指出,隨著訓(xùn)練數(shù)據(jù)獲取途徑的增多,以及計(jì)算硬件朝著更強(qiáng)大、高效方向發(fā)展,機(jī)器學(xué)習(xí)技術(shù)近年來(lái)熱度飆升。機(jī)器學(xué)習(xí)借助所執(zhí)行的模型,能夠針對(duì)特定應(yīng)用給出預(yù)測(cè),手勢(shì)識(shí)別便是其中典型應(yīng)用之一。
手勢(shì)識(shí)別技術(shù)極大地推動(dòng)了人與機(jī)器間的交流,使之變得無(wú)縫且直觀。其應(yīng)用領(lǐng)域極為廣泛,涵蓋虛擬現(xiàn)實(shí)、游戲以及智能家居控制等多個(gè)方面。?
然而,在支持不同領(lǐng)域的人機(jī)交互應(yīng)用時(shí),手勢(shì)的自動(dòng)識(shí)別面臨諸多挑戰(zhàn)。如今,人們不再滿足于僅能識(shí)別預(yù)定義手勢(shì),而是期望用戶能夠通過(guò)自定義方式,定義并個(gè)性化屬于自己的手勢(shì)。這種自定義手勢(shì)具有諸多優(yōu)勢(shì),比如有助于增強(qiáng)用戶對(duì)操作的記憶,提升操作效率,同時(shí)為有特殊需求的人群提供更廣泛的便利,提升產(chǎn)品的包容性。但要切實(shí)有效地實(shí)現(xiàn)自定義,不僅需要高效且用戶體驗(yàn)良好的數(shù)據(jù)收集程序,還需應(yīng)對(duì)從有限樣本中學(xué)習(xí)這一難題,也就是所謂的少量學(xué)習(xí)(FSL)問(wèn)題。?
少量學(xué)習(xí)(FSL)是一項(xiàng)極具挑戰(zhàn)性的任務(wù),在此過(guò)程中,模型需高效整合先前知識(shí)與極少的新信息,避免出現(xiàn)過(guò)度擬合現(xiàn)象。為攻克FSL在手勢(shì)識(shí)別方面的難題,研究人員探索了多種算法,包括遷移學(xué)習(xí)、微調(diào),以及通過(guò)各類技術(shù)對(duì)少量數(shù)據(jù)進(jìn)行增強(qiáng)等策略。不過(guò),當(dāng)模型最初訓(xùn)練所基于的源手勢(shì)與目標(biāo)手勢(shì)差異顯著,且涉及一組全新類別時(shí),這些策略的適用性往往受限。?
另外,不同類型的數(shù)據(jù)適用不同的增強(qiáng)方法。舉例來(lái)說(shuō),適用于圖像的增強(qiáng)技術(shù),可能并不適用于時(shí)間序列傳感器數(shù)據(jù)。生成建模同樣面臨困境,如數(shù)據(jù)幻覺相關(guān)問(wèn)題,致使其在數(shù)據(jù)合成方面的可靠性欠佳。相對(duì)而言,元學(xué)習(xí)的部分特性能夠通過(guò)提升模型的有效學(xué)習(xí)能力,來(lái)應(yīng)對(duì)FSL的挑戰(zhàn)。?
本主題技術(shù)的實(shí)施例創(chuàng)新性地引入了基于元學(xué)習(xí)的手勢(shì)定制綜合框架,成功攻克FSL在手勢(shì)識(shí)別領(lǐng)域的難題。?
與其他僅支持有限類型手勢(shì)的技術(shù)不同,本主題技術(shù)的實(shí)施例借助一個(gè)或多個(gè)成像傳感器(如RGB相機(jī)),能夠適配各類手勢(shì),包括靜態(tài)、動(dòng)態(tài)、單手以及雙手手勢(shì)。?
本主題技術(shù)僅需用戶進(jìn)行一次演示(如捕捉一系列幀上的手勢(shì)),即可完成定制。該技術(shù)融合了圖形變換器、遷移學(xué)習(xí)以及元學(xué)習(xí)技術(shù)。具體而言,通過(guò)利用預(yù)先訓(xùn)練的圖形變換器深度神經(jīng)網(wǎng)絡(luò),助力小樣本學(xué)習(xí),并借助元學(xué)習(xí)與元增強(qiáng)技術(shù)的協(xié)同作用,為整個(gè)過(guò)程提供有力支持。?
該主題技術(shù)的實(shí)現(xiàn),顯著提升了給定電子設(shè)備向用戶(如該電子設(shè)備的使用者)提供基于傳感器的機(jī)器學(xué)習(xí)生成反饋的能力。

6月9日,全球領(lǐng)先的虛擬現(xiàn)實(shí)科技品牌玩出夢(mèng)想YVR在其最新發(fā)布的軟件版本中正式搭載手勢(shì)識(shí)別功能。此前,YVR在官方微信賬號(hào)發(fā)布了自研手勢(shì)識(shí)別技術(shù)預(yù)告短片,正式宣布該算法取得重大突破。據(jù)悉,YVR自研手勢(shì)識(shí)別算法具備高精度、高魯棒性、高實(shí)時(shí)性等特征,可輕松識(shí)別多種常見手勢(shì)。在已發(fā)布的軟件版本中,已支持遠(yuǎn)場(chǎng)交互場(chǎng)景下的裸手點(diǎn)擊、滑動(dòng)等動(dòng)作,未來(lái)該功能還將不斷通過(guò)OTA升級(jí)。
YVR自研手勢(shì)識(shí)別算法結(jié)合深度學(xué)習(xí)技術(shù)與傳統(tǒng)優(yōu)化算法,通過(guò)采集多目手部圖像作為輸入,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和手部重建算法,最終輸出手部3D姿態(tài)與重建結(jié)果,可成功識(shí)別22個(gè)關(guān)節(jié)點(diǎn)26自由度的手部運(yùn)動(dòng)信息,在精確度、穩(wěn)定性、流暢性等主要技術(shù)指標(biāo)均達(dá)到行業(yè)領(lǐng)先水平。
與其他VR硬件廠商的手勢(shì)識(shí)別算法相比,YVR自研手勢(shì)識(shí)別算法能更好地適應(yīng)亞洲人手型。此外,YVR算法團(tuán)隊(duì)針對(duì)性優(yōu)化了手勢(shì)識(shí)別的精確度、穩(wěn)定性、流暢性。極大地降低了手勢(shì)錯(cuò)分類、誤分類的概率,實(shí)現(xiàn)了對(duì)手勢(shì)的快速識(shí)別和響應(yīng),保證了復(fù)雜環(huán)境下3D姿態(tài)估計(jì)的準(zhǔn)確性和穩(wěn)定性,以確保為用戶帶來(lái)更加美好的使用體驗(yàn)。

“更自然的交互方式是技術(shù)發(fā)展的必然方向,人的手部作為天然的與外界進(jìn)行交互的器官,對(duì)提升VR的沉浸體驗(yàn)有不可取代的重要地位,帶來(lái)更自然、直觀、有效的交互方式,毫無(wú)疑問(wèn)將成為XR時(shí)代的主流交互方式之一。” YVR算法相關(guān)負(fù)責(zé)人表示,“手勢(shì)識(shí)別的最終形態(tài),就是要達(dá)到在現(xiàn)實(shí)世界中能用手做到的事情,在虛擬世界中也可以無(wú)縫銜接地完成?!?/p>
YVR核心算法團(tuán)隊(duì)自組建以來(lái),已先后攻克多項(xiàng)技術(shù)難關(guān),突破實(shí)現(xiàn)了自研VSLAM、VST等XR關(guān)鍵算法技術(shù),在計(jì)算機(jī)視覺和人工智能深度學(xué)習(xí)達(dá)到全球領(lǐng)先水平。此次手勢(shì)識(shí)別技術(shù)的發(fā)布,再次彰顯了YVR頂尖的全棧式自研能力,并進(jìn)一步奠定其在XR核心算法領(lǐng)域的前沿地位。
未來(lái),YVR還將進(jìn)一步提升雙手交互的穩(wěn)定性,并在此基礎(chǔ)上增加近場(chǎng)交互體驗(yàn),在更多可能的場(chǎng)景中融入手勢(shì)識(shí)別技術(shù),為用戶開啟具備無(wú)限想象與科幻夢(mèng)想的未來(lái)世界。
]]>
美國(guó)專利商標(biāo)局正式授予蘋果一項(xiàng)與3D手指建模相關(guān)的專利,該專利涉及AR/VR頭顯手勢(shì)和視覺觸摸檢測(cè)。
該專利描述了一種3D手指模型,該模型可用于檢測(cè)和識(shí)別觸摸虛擬對(duì)象和空中手勢(shì),以支持頭顯反饋指令。
蘋果專利指出,“基于專利技術(shù),用戶手勢(shì)動(dòng)作將能被頭顯攝像頭檢測(cè),以便與物理環(huán)境交互或登錄帳戶”。

蘋果專利圖4呈現(xiàn)了用于手勢(shì)識(shí)別的3D手指模型的示例技術(shù)流程圖;圖5顯示了用于生成3D手指模型的系統(tǒng)設(shè)置實(shí)例系統(tǒng)圖;除此之外,手模型可包括各種姿勢(shì)的手部3D模型;
流程圖#410示例了電子設(shè)備100(iPhone)基于第一圖像和第二圖像更新3D手指模型。例如,可以從一個(gè)角度獲得深度圖像,使得觸摸物體和表面之間的接觸點(diǎn)被觸摸物體遮擋(例如,從用戶角度來(lái)看,觸摸表面的指尖可被手遮擋)。
有關(guān)詳細(xì)信息請(qǐng)查看蘋果授予專利US 11620790 B2。
來(lái)源:patentlyapple
由趣立研發(fā)的6DoF一體機(jī)解決方案“騏驥”中已經(jīng)搭載最新的自然手勢(shì)識(shí)別系統(tǒng),合作方可在系統(tǒng)中直接去調(diào)用此模塊最終完成自然手勢(shì)的識(shí)別任務(wù)。趣立科技也成為國(guó)內(nèi)VR行業(yè)首家擁有自然手勢(shì)識(shí)別產(chǎn)品化方案的公司,而全球目前也僅有Quest擁有該項(xiàng)技術(shù)。
【自然手勢(shì)識(shí)別】是基于計(jì)算機(jī)視覺和人工智能算法,對(duì)攝像機(jī)采集到的圖像中用戶手部區(qū)域進(jìn)行檢測(cè)和對(duì)其姿態(tài)進(jìn)行估計(jì),從而得到全自由度自然手勢(shì)跟蹤的技術(shù)。?通俗地可對(duì)其拆分為3個(gè)步驟:第一要解決手在什么位置;第二、解決手是何種姿態(tài);第三、識(shí)別手在做什么?前面兩項(xiàng)很多時(shí)候是放在一起做姿態(tài)預(yù)估,最后對(duì)動(dòng)、靜態(tài)手勢(shì)做時(shí)間序列劃分,并完成最終的指令實(shí)現(xiàn)。

從硬件來(lái)說(shuō),目前市面上常見的手勢(shì)識(shí)別方案中所采用的檢測(cè)設(shè)備大致分為四類:純紅外攝像機(jī)、灰度攝像機(jī)、RGB攝像機(jī)及深度攝像機(jī)。
各方案都有比較明顯的優(yōu)劣勢(shì),比如深度攝像機(jī)雖然可以根據(jù)深度信息較其他方法更簡(jiǎn)單的獲取手部區(qū)域的位置和形狀,但FOV很小、幀率很低、成本高、功耗較大,而且目前VR一體機(jī)的現(xiàn)狀,手勢(shì)識(shí)別與SLAM的攝像頭需要做復(fù)用,而深度攝像頭很難拿來(lái)做SLAM算法,所以目前在XR的領(lǐng)域應(yīng)用場(chǎng)景中會(huì)有局限性。
紅外攝像機(jī)的原理是將模塊內(nèi)置紅外LED光源,光線反射回手勢(shì)識(shí)別模塊的紅外攝像頭中,實(shí)現(xiàn)基于光學(xué)數(shù)據(jù)的手勢(shì)識(shí)別。由于使用主動(dòng)光源,所以它的環(huán)境適應(yīng)性好,也比較容易能檢測(cè)到手部區(qū)域,但是它同時(shí)會(huì)加大功耗,尤其是伴隨對(duì)手部使用范圍的增大,需要更多數(shù)量和更大功耗的紅外光,這對(duì)整體的ID設(shè)計(jì)以及成本都是非常大的挑戰(zhàn)。此方案比較知名的則是Leap?Motion。
針對(duì)灰度相機(jī)與RGB相機(jī)的方案,RGB相機(jī)由于能更好地將手和環(huán)境用顏色進(jìn)行區(qū)分所以具備較好的識(shí)別作用,但同樣也有FOV較小、幀率較低的問(wèn)題。而灰度相機(jī)優(yōu)勢(shì)是FOV比較大、幀率高、覆蓋范圍大、適應(yīng)性強(qiáng)、且成本相對(duì)可控,缺點(diǎn)則是難度系數(shù)較高,因?yàn)樵诤诎谆业氖澜缰?,將手和?fù)雜的環(huán)境背景準(zhǔn)確快地剝離開,需要在算法方面下足功夫。
而趣立科技新的6DoF解決方案“騏驥”中,融合的則是根據(jù)現(xiàn)有一體機(jī)的灰度攝像頭進(jìn)行復(fù)用的方式。趣立科技依附集團(tuán)影創(chuàng)科技大背景,在算法實(shí)現(xiàn)上具有多年的經(jīng)驗(yàn)積累和沉淀。
此項(xiàng)手勢(shì)識(shí)別技術(shù)算法經(jīng)多期打磨調(diào)整,目前已達(dá)到通用狀態(tài),算法框架可適用于任何的攝像機(jī)設(shè)備中,在未來(lái)產(chǎn)品中,新一代的VR一體機(jī)解決方案可能采用彩色RGB攝像機(jī)和灰度攝像機(jī)的搭配(彩色負(fù)責(zé)透視、灰度負(fù)責(zé)6DoF追蹤)。而自然手勢(shì)識(shí)別本質(zhì)依舊會(huì)采用基于6DoF的灰度攝像頭為主,彩色攝像頭作為輔助在識(shí)別過(guò)程中對(duì)手在與環(huán)境剝離時(shí)的精度進(jìn)行補(bǔ)充。
整個(gè)手勢(shì)識(shí)別技術(shù)比較難的是,手與面部、人體的識(shí)別不同,因?yàn)槭植繌?fù)雜度相對(duì)比較高、自遮擋嚴(yán)重,手部可以非??斓囊苿?dòng)并且外觀可以在幾幀內(nèi)大幅變化。而目前“騏驥”解決方案中能做到準(zhǔn)確性高、低延遲是因?yàn)橐揽考瘓F(tuán)所屬搭建自研的數(shù)據(jù)深層采集和標(biāo)注平臺(tái),基于平臺(tái)有非常多的參考數(shù)據(jù),同時(shí)在深度模型的序列方面有自研成果,并沉淀了6年多的技術(shù)積累及龐大的數(shù)據(jù)參考值。
【C端互動(dòng)娛樂】
手勢(shì)識(shí)別技術(shù)的發(fā)展能夠更好地拓寬內(nèi)容開發(fā)者的想象空間,在內(nèi)容創(chuàng)作時(shí)增加多重玩法及交互體驗(yàn),比如在玩音游的時(shí)候可以直接用手來(lái)操作,或是在RPG游戲中一個(gè)特定手勢(shì)就可以實(shí)現(xiàn)魔法攻擊,甚至在未來(lái)一組手勢(shì)也能夠完成“火影忍者”里的結(jié)印。

【B端教育辦公】
B端的應(yīng)用場(chǎng)景則更廣泛。在智能辦公方面,隨著VR設(shè)備逐漸向辦公工具靠攏,自然手勢(shì)識(shí)別能更好地通過(guò)特定的放大縮小拖拽等手勢(shì),完成匯報(bào)方案演講的展示,實(shí)現(xiàn)真正意義上的便攜式辦公環(huán)境;而教育教學(xué)中,也可更好的直接用手部識(shí)別技術(shù)完成教學(xué)課件的拆裝、組合等要求,更便捷有效地完成操作互動(dòng),相信未來(lái)隨著自然手勢(shì)識(shí)別的更進(jìn)一步發(fā)展,定能催生更多的應(yīng)用場(chǎng)景,同時(shí)還可以根據(jù)不同需求,量身定制專屬的解決方案。

未來(lái)趣立科技將融合影創(chuàng)總部多方資源,逐漸在其原有解決方案中集成更多的前驅(qū)技術(shù),更好地服務(wù)上下游合作方,為其提供全方位綜合技術(shù)支持。
]]>
如何在沉浸環(huán)境中真正感受到沉浸式體驗(yàn)?那就是,在虛擬場(chǎng)景中,依然可以實(shí)現(xiàn)與現(xiàn)實(shí)世界中一樣的交互。例如,在體驗(yàn)一款游戲時(shí),你可以直接使用你在虛擬世界的“數(shù)字化分手”,自然地與同伴打招呼、握手、擊掌,還能完成各種抓取動(dòng)作…..隨著計(jì)算機(jī)視覺、AI等技術(shù)對(duì)自然肢體語(yǔ)言的識(shí)別, 不再僅通過(guò)手柄定義你在虛擬世界中的動(dòng)作,正在成為可能。
這種通過(guò)手勢(shì)識(shí)別打破次元壁,獲得更佳臨場(chǎng)感的方式,已成為當(dāng)前VR、AR消費(fèi)級(jí)頭顯設(shè)備重點(diǎn)研究的方向之一,但如果手部識(shí)別精度不夠,則可能無(wú)法做到對(duì)真實(shí)雙手姿態(tài)的完美復(fù)刻。為達(dá)到更好的效果,如何以更精準(zhǔn)的方式同步還原人類雙手在物理世界的靈動(dòng)姿態(tài),完成比手柄控制更精細(xì)的操作,就顯得尤為重要。
近日,愛奇藝的深度學(xué)習(xí)云算法小組通過(guò)題為《I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling》(I2UV-HandNet:基于圖像到UV Map映射的3D手部高保真重建網(wǎng)絡(luò))的論文再獲關(guān)注。
針對(duì)現(xiàn)有模型在手部姿態(tài)識(shí)別方面不夠精細(xì)等問(wèn)題,該論文提出一套I2UV-HandNet高精度手部重建系統(tǒng),并依托愛奇藝在業(yè)內(nèi)首提的將點(diǎn)的超分轉(zhuǎn)化為圖像超分這一先進(jìn)技術(shù)思考,能夠做到識(shí)別21個(gè)關(guān)節(jié)點(diǎn)和26自由度的手部運(yùn)動(dòng)信息,從而更有效地實(shí)現(xiàn)更高等級(jí)的手部還原。這將使得在VR、AR等使用場(chǎng)景下,用戶通過(guò)更精細(xì)的手勢(shì)追蹤與識(shí)別,更準(zhǔn)確、流暢地完成更多操作,享受在虛擬世界更佳的臨場(chǎng)感?;谠撓到y(tǒng)的行業(yè)首創(chuàng)性和卓越應(yīng)用價(jià)值,該篇論文成功被今年接收率僅為25.9%的國(guó)際計(jì)算機(jī)視覺大會(huì)(ICCV)成功收錄,并在業(yè)內(nèi)頗受認(rèn)可的HO3D以及Freihand 在線測(cè)評(píng)榜持續(xù)數(shù)月排名第一,超越目前的SOTA水平(若某篇論文能夠被稱為SOTA,就表明其提出的算法(模型)的性能在所在領(lǐng)域?yàn)樽顑?yōu))。
通常而言,要讓手勢(shì)識(shí)別實(shí)現(xiàn)更高的精度,首先需要好的手部模型,只有好的模型才能預(yù)測(cè)出來(lái)更多3D點(diǎn)。同時(shí)需要有足夠的高精度數(shù)據(jù),才能不斷訓(xùn)練重建模型。基于大量手部數(shù)據(jù)對(duì)深度學(xué)習(xí)算法的“喂養(yǎng)”,愛奇藝自研的I2UV-HandNet高精度手部重建系統(tǒng),能夠通過(guò)UV重建模塊AffineNet,完成由粗到精的人手3D模型重建。這樣一來(lái),即使在大遮擋或多姿態(tài)狀態(tài)下,該系統(tǒng)仍可有效改善現(xiàn)有人手模型識(shí)別不準(zhǔn)確等問(wèn)題,為手勢(shì)識(shí)別提供更為完整且精準(zhǔn)的參考。
同時(shí),考慮到不同虛擬場(chǎng)景對(duì)手部3D模型的精度要求不一,該系統(tǒng)還可通過(guò)SRNet網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)已有人手3D模型更高精度的重建。該系統(tǒng)基于落實(shí)“點(diǎn)的超分轉(zhuǎn)化為圖像的超分”的先進(jìn)技術(shù)思考,通過(guò)算法從低精度UV圖到高精度UV圖的學(xué)習(xí),可完成MANO(778個(gè)點(diǎn)/1538個(gè)面)人手模型向高精度(3093個(gè)點(diǎn)/6152個(gè)面)乃至更精細(xì)(上萬(wàn)點(diǎn)云)的人手模型的重建,這可以實(shí)現(xiàn)雙手的“虛擬分身”在不同背景色彩、景深下,表現(xiàn)得如物理世界雙手一樣靈活。
值得一提的是,未來(lái)該系統(tǒng)將應(yīng)用于下一代奇遇VR中,賦能愛奇藝VR更佳的沉浸感,讓用戶不僅僅是瀏覽內(nèi)容,更有機(jī)會(huì)“走進(jìn)內(nèi)容”??梢灶A(yù)見,該系統(tǒng)基于更低成本的深度學(xué)習(xí)算法完成的高精度手勢(shì)識(shí)別,相比通過(guò)自帶深度信息識(shí)別的攝像頭,將更具性價(jià)比和規(guī)?;涞氐纳虡I(yè)潛力,也將為愛奇藝更多業(yè)務(wù)場(chǎng)景或硬件終端增強(qiáng)“沉浸體驗(yàn)”帶來(lái)更為強(qiáng)大助力。
「半衰期:愛莉克斯」自2020年3月24日正式發(fā)布之后,獲得玩家和媒體的一致好評(píng),被視為史上最佳VR游戲之一。
在「半衰期:愛莉克斯」中,玩家和場(chǎng)景的交互可以說(shuō)已經(jīng)達(dá)到了空前程度,但在最終發(fā)售的版本中,還是沒有實(shí)現(xiàn)開發(fā)人員的所有設(shè)想?!赴胨テ冢簮劾蚩怂埂归_發(fā)人員日前在接受Kotaku采訪時(shí),對(duì)游戲中沒能實(shí)裝的一項(xiàng)功能進(jìn)行了介紹。
按照開發(fā)團(tuán)隊(duì)最初的設(shè)想,除了手動(dòng)裝彈與射擊之外,玩家的每一根手指都可以獨(dú)立伸出來(lái),進(jìn)而做出各種手勢(shì),包括打和平手勢(shì)、豎起大拇指表示贊賞,甚至豎中指等等。

「半衰期:愛莉克斯」開發(fā)人員兼手勢(shì)專家Kerry Davis表示,最初是希望游戲中的敵人能對(duì)玩家的手勢(shì)作出反應(yīng),比如會(huì)被玩家的“豎中指”所激怒,這樣交互體驗(yàn)就會(huì)更豐富有趣。然而,要想實(shí)現(xiàn)這個(gè)功能要經(jīng)過(guò)非常艱辛的努力,并且要耗費(fèi)巨大的資源來(lái)制作腳本和動(dòng)畫,更不用說(shuō)對(duì)劇情推進(jìn)的潛在影響了。

除此之外,并非所有的VR設(shè)備都能識(shí)別手勢(shì)。這個(gè)功能對(duì)于Valve Index來(lái)說(shuō)是標(biāo)配功能(Knuckles控制器),但HTC Vive、Oculus Rift系列以及Windows MR等其他VR設(shè)備都無(wú)法提供支持。如此一來(lái),無(wú)法使用這一功能的玩家數(shù)量太過(guò)龐大,很多人甚至都不會(huì)意識(shí)到有這樣一個(gè)功能存在,因此最終被放棄掉了。
「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請(qǐng)注明及回鏈」
]]>