Apple Vision Pro新專利:唇讀技術(shù)解鎖無聲指令與聽寫

?? 由 文心大模型 生成的文章摘要

蘋果始終在探索未來交互的更多可能性,其中一項(xiàng)研究聚焦于讓Apple Vision Pro能夠識(shí)別用戶的嘴部運(yùn)動(dòng),從而實(shí)現(xiàn)純粹通過唇讀來接收指令或完成聽寫功能。?

這一功能可視為現(xiàn)有AirPods Pro操作方式的延伸。目前,AirPods Pro用戶可通過搖頭掛斷通話、點(diǎn)頭接聽來電——在不便開口的場景下,搖頭能傳遞拒絕之意;即便雙手被占用但可以說話時(shí),點(diǎn)頭也能快速完成接聽操作。?

而在蘋果最新公布的一項(xiàng)名為 “具有聽寫結(jié)構(gòu)的電子設(shè)備” 的專利申請中,其進(jìn)一步設(shè)想讓用戶在無法發(fā)聲的情況下依然能進(jìn)行聽寫。專利文件中提到:“當(dāng)用戶處于公共場所,或其他需要保持謹(jǐn)慎、注重隱私、維持安靜的環(huán)境時(shí),語音聽寫往往會(huì)顯得格外不便?!?

這份長達(dá)21頁的專利聲明,并未提及用戶戴著頭顯無聲 “說話” 可能給社交帶來的影響,但對(duì)于嘈雜環(huán)境下的交互痛點(diǎn),卻給出了合理的解決方案?!巴瑯?,某些環(huán)境中的背景噪音,也會(huì)影響頭戴式設(shè)備準(zhǔn)確、可靠地識(shí)別用戶的語音輸入。” 因此,蘋果認(rèn)為 “需要一種能讓用戶輕松向其口述內(nèi)容的頭戴式設(shè)備”。?

該專利提案涵蓋了多種可能的技術(shù)組合方案。其中一種是在顯示屏框架上安裝朝外向下的視覺傳感器,專門用于 “檢測嘴部運(yùn)動(dòng)”。?

此外,還可能配備 “附加傳感器,用于檢測面部振動(dòng)或面部變形中的至少一項(xiàng)”。除了上述一種或兩種傳感器外,Apple Vision Pro還可借助“內(nèi)置攝像頭,根據(jù)眼球注視來判斷輸入選擇”。?

若這三種方案的冗余度仍未達(dá)到要求,還可添加 “包括外部攝像頭在內(nèi)的另一傳感器,用于檢測表示確認(rèn)輸入選擇的手勢”。?

值得注意的是,專利中提到的最后一部分功能指出,佩戴者可通過手勢示意自己想要開始口述或停止口述,而在這些手勢之間的任何嘴部動(dòng)作,都將被設(shè)備識(shí)別為口述內(nèi)容。?

不過,目前尚未明確該頭顯是否同時(shí)支持常規(guī)聽寫功能。這意味著,即便在沒有信號(hào)的情況下,設(shè)備可能也會(huì)持續(xù)處于監(jiān)聽狀態(tài),即便用戶只是低聲嘟囔,也可能被識(shí)別。?

但蘋果確實(shí)提到了將利用音頻數(shù)據(jù)來訓(xùn)練 Apple Vision Pro 識(shí)別用戶的語音模式:“訓(xùn)練功能可包含錄音(例如,說話音量在40分貝至70分貝之間的音頻片段,耳語音量在20分貝至 50 分貝之間的音頻片段等)?!?

專利文件還補(bǔ)充道:“[或者] 視覺數(shù)據(jù)可涵蓋包含用戶嘴巴的視野在不同方向或角度下的畫面(例如,從面向用戶的設(shè)備獲取的側(cè)面視圖,能完整呈現(xiàn)用戶的嘴巴;從下頜處攝像頭獲得的向下角度視圖,可部分展示用戶的嘴巴等)?!?/p>

「93913原創(chuàng)內(nèi)容,轉(zhuǎn)載請注明出處」