美國專利局公布了蘋果一項與基于視覺的手勢定制相關(guān)的專利申請。?
基于視覺的手勢定制領(lǐng)域正日益受到關(guān)注。蘋果指出,隨著訓練數(shù)據(jù)獲取途徑的增多,以及計算硬件朝著更強大、高效方向發(fā)展,機器學習技術(shù)近年來熱度飆升。機器學習借助所執(zhí)行的模型,能夠針對特定應(yīng)用給出預測,手勢識別便是其中典型應(yīng)用之一。
手勢識別技術(shù)極大地推動了人與機器間的交流,使之變得無縫且直觀。其應(yīng)用領(lǐng)域極為廣泛,涵蓋虛擬現(xiàn)實、游戲以及智能家居控制等多個方面。?
然而,在支持不同領(lǐng)域的人機交互應(yīng)用時,手勢的自動識別面臨諸多挑戰(zhàn)。如今,人們不再滿足于僅能識別預定義手勢,而是期望用戶能夠通過自定義方式,定義并個性化屬于自己的手勢。這種自定義手勢具有諸多優(yōu)勢,比如有助于增強用戶對操作的記憶,提升操作效率,同時為有特殊需求的人群提供更廣泛的便利,提升產(chǎn)品的包容性。但要切實有效地實現(xiàn)自定義,不僅需要高效且用戶體驗良好的數(shù)據(jù)收集程序,還需應(yīng)對從有限樣本中學習這一難題,也就是所謂的少量學習(FSL)問題。?
少量學習(FSL)是一項極具挑戰(zhàn)性的任務(wù),在此過程中,模型需高效整合先前知識與極少的新信息,避免出現(xiàn)過度擬合現(xiàn)象。為攻克FSL在手勢識別方面的難題,研究人員探索了多種算法,包括遷移學習、微調(diào),以及通過各類技術(shù)對少量數(shù)據(jù)進行增強等策略。不過,當模型最初訓練所基于的源手勢與目標手勢差異顯著,且涉及一組全新類別時,這些策略的適用性往往受限。?
另外,不同類型的數(shù)據(jù)適用不同的增強方法。舉例來說,適用于圖像的增強技術(shù),可能并不適用于時間序列傳感器數(shù)據(jù)。生成建模同樣面臨困境,如數(shù)據(jù)幻覺相關(guān)問題,致使其在數(shù)據(jù)合成方面的可靠性欠佳。相對而言,元學習的部分特性能夠通過提升模型的有效學習能力,來應(yīng)對FSL的挑戰(zhàn)。?
本主題技術(shù)的實施例創(chuàng)新性地引入了基于元學習的手勢定制綜合框架,成功攻克FSL在手勢識別領(lǐng)域的難題。?
與其他僅支持有限類型手勢的技術(shù)不同,本主題技術(shù)的實施例借助一個或多個成像傳感器(如RGB相機),能夠適配各類手勢,包括靜態(tài)、動態(tài)、單手以及雙手手勢。?
本主題技術(shù)僅需用戶進行一次演示(如捕捉一系列幀上的手勢),即可完成定制。該技術(shù)融合了圖形變換器、遷移學習以及元學習技術(shù)。具體而言,通過利用預先訓練的圖形變換器深度神經(jīng)網(wǎng)絡(luò),助力小樣本學習,并借助元學習與元增強技術(shù)的協(xié)同作用,為整個過程提供有力支持。?
該主題技術(shù)的實現(xiàn),顯著提升了給定電子設(shè)備向用戶(如該電子設(shè)備的使用者)提供基于傳感器的機器學習生成反饋的能力。
