在此前發(fā)表的「魔鬼都在細(xì)節(jié)里」,蘋果Vision Pro教給XR行業(yè)的六堂課一文中,我們梳理了蘋果Vision Pro值得行業(yè)學(xué)習(xí)和借鑒的一些設(shè)計巧思??v觀全文不難發(fā)現(xiàn),這“六堂課”都與眼球追蹤技術(shù)息息相關(guān)。

例如,在Vision Pro中,用戶的登陸和認(rèn)證不再使用PC時代的密碼登陸或者智能手機(jī)時代的指紋、人臉識別,而是采用了名為Optic ID的虹膜識別;Vision Pro將眼控交互作為主要交互方式之一,用戶通過注視便可自動選中APP,再配合手勢和語音命令,即可在虛擬現(xiàn)實(shí)中輕松、優(yōu)雅的完成各種交互。

除此之外,基于眼球追蹤技術(shù),Vision Pro還實(shí)現(xiàn)了注視點(diǎn)渲染、自動瞳距調(diào)節(jié)、Eyesight(反向透視)、Persona(數(shù)字人)等多項(xiàng)實(shí)用且極具科技感的功能。
那么,今天我們就從「交互設(shè)計」的角度出發(fā),深入聊一聊為Vision Pro帶來自然、優(yōu)雅體驗(yàn)背后的眼球追蹤技術(shù)。值得一提的是,為了在一些眼球追蹤領(lǐng)域問題上得到更為專業(yè)的解答,我們特意請教了XR眼球追蹤領(lǐng)域的專家——七鑫易維副總裁路偉成,為我們提供更深入、專業(yè)的解讀。
衡量眼球追蹤系統(tǒng)的關(guān)鍵指標(biāo)
眼球追蹤究竟是一門什么技術(shù)?
簡單來說,眼球追蹤就是通過測量眼球信息和運(yùn)動,從而獲取人眼實(shí)時數(shù)據(jù)的技術(shù),其中一個最常用的數(shù)據(jù)就是視線方向,也稱為注視點(diǎn)坐標(biāo)。眼球追蹤基于“腦-眼一致性假說”的原理,即目光所處的位置通常與關(guān)注和思考的事物有關(guān),通過提取眼球特征信息估計視線方向或眼睛注視點(diǎn)位置來監(jiān)測眼動的變化,從而推斷出人腦正在發(fā)生的事情。
那么,我們?nèi)绾瘟炕脑u判眼球追蹤系統(tǒng)的優(yōu)劣?
路偉成告訴我們,業(yè)界通常會通過兩大維度來做出評判:
1、準(zhǔn)確度和精確度
在衡量眼球追蹤數(shù)據(jù)時,準(zhǔn)確度和精確度是造成大多數(shù)注視數(shù)據(jù)偏差的主要原因,因而一般將這兩種屬性作為評估眼球追蹤質(zhì)量的重要依據(jù)之一,準(zhǔn)確度和精確度同時也是衡量眼動儀性能的重要指標(biāo)(Hornof&Halverson 2002)。
具體而言,準(zhǔn)確度(Accuracy)即注視位置與眼動儀采集到的視線位置之間的平均誤差;精確度(Precision)則是眼動儀在持續(xù)記錄同一個注視點(diǎn)時的離散程度,即通過連續(xù)樣本的均方根衡量誤差值。
舉個簡單的例子,如果我們把眼睛看東西理解為打靶子,注視位置是靶子,人眼的視覺系統(tǒng)是槍械。那么,我們的視線注視點(diǎn)就可以理解為子彈打中靶子的地方,而眼動儀則在整個打靶過程中充當(dāng)報靶員的角色。
視線的注視點(diǎn)所擊中的位置A和報靶員(眼動儀)觀測后報出的位置B之間的誤差就是準(zhǔn)確度;當(dāng)我們的視線注視點(diǎn)擊中位置A后,報靶員對該位置進(jìn)行多次觀測并報告得出B1、B2、B3等多個成績,那么B1、B2、B3等之間的誤差就是精確度。
如下面的三幅圖中,從左到右分別代表高精確度低準(zhǔn)確度、高精確度高準(zhǔn)確度、低精確度低準(zhǔn)確度的三種眼動儀。我們將靶心看作我們的視線注視點(diǎn),紅點(diǎn)就是眼動儀對人眼視線注視點(diǎn)進(jìn)行觀測后報告的打靶成績(眼動儀多次測量得出的采集到的視線位置)。

2、可用率
在了解完準(zhǔn)確度和精確度對于眼球追蹤的重要性后,我們還需了解眼球追蹤領(lǐng)域的另一個重要向量——可用率。

眼球解剖圖
進(jìn)化論之父查爾斯·達(dá)爾文曾指出,人眼不可能成為進(jìn)化的產(chǎn)物,因?yàn)樗侨梭w中最為復(fù)雜的一個器官。的確,人眼的構(gòu)造極其復(fù)雜,且每個人的情況都完全不同。
比如,不同的人種為了適應(yīng)不同的生存環(huán)境,他們的眼睛也會產(chǎn)生各種不同的特征;而即使是同一個人種、同一個年齡段的人,他們的眼睛也都有極大的差異。
除此之外,不同人的眼睛還存在著各種復(fù)雜的情況,如近視、遠(yuǎn)視、散光,或有人愛化妝、接很長的睫毛,又或戴隱形眼鏡等等。

路偉成表示,一項(xiàng)技術(shù)如果只能適用于少數(shù)人的話,那這項(xiàng)技術(shù)很可能永遠(yuǎn)無法推廣,因而攻克人眼個體差異帶來的復(fù)雜問題,一直以來都是眼球追蹤領(lǐng)域極其重視的一大難題。
為應(yīng)對上述問題,眼球追蹤技術(shù)解決方案商通常需要搭建起一個巨大的系統(tǒng),盡可能的將所有人眼的情況都囊括在內(nèi),包括眼球特征、雙眼瞳距、視力情況以及是否佩戴眼鏡等。
然而,人眼的復(fù)雜情況遠(yuǎn)超我們的想象,想要達(dá)到一個令人滿意的程度,只能通過長時間的人眼數(shù)據(jù)積累,在算法相同的情況下,數(shù)據(jù)越多,眼球追蹤的可用率自然也就越高。
追求極致:蘋果Vision Pro的致勝法則
在「空間計算」時代開啟,蘋果不想讓任何人掉隊(duì)一文中,我們曾提到過蘋果的標(biāo)準(zhǔn)交互邏輯,是“眼手口”結(jié)合的交互方式。
同時蘋果還認(rèn)為,任何單一的交互方式都應(yīng)當(dāng)能夠獨(dú)立的提供完整的Vision Pro交互體系,例如只通過眼控交互使用Vision Pro。而想要達(dá)到這樣的目標(biāo),無疑對眼球追蹤系統(tǒng)的精確度、準(zhǔn)確度和可用率提出了更高的要求。
另一方面,在準(zhǔn)確度、精確度和可用率之外,還有其他因素影響眼球追蹤技術(shù)在XR領(lǐng)域的普及。
“受限于技術(shù)和市場不夠成熟的原因,眼球追蹤技術(shù)成本始終居高不下;由于過去人眼數(shù)據(jù)庫數(shù)據(jù)稀缺,眼球追蹤技術(shù)的可用率一直難以有效提升;最后,AR和VR終端的結(jié)構(gòu)形態(tài)差異較大,這對眼球追蹤技術(shù)解決方案商而言也是一個很大的挑戰(zhàn)”,路偉成告訴我們。
因此,從Vision Pro來看,在眼球追蹤這件事情上,蘋果不僅僅是實(shí)現(xiàn)了功能,還在諸多方面下足了功夫,再次將一項(xiàng)前沿技術(shù)在新的應(yīng)用領(lǐng)域推向極致:
(一)4個相機(jī)+34顆LED燈,瞳孔角膜反射法的極致堆料
為了達(dá)到追求更好的規(guī)格參數(shù),目前并存著多種非接觸式眼球追蹤技術(shù)路線,包括基于IR的瞳孔角膜反射法、基于MEMS的掃描方案、基于DVS的瞳孔角膜反射法、直接圖像處理方案等等,路偉成向我們分別介紹了幾種常見的技術(shù)路線。
第一種:傳統(tǒng)瞳孔角膜反射法——使用IR圖像傳感器,通過瞳孔中心數(shù)據(jù)和近紅外光源在角膜上反射的圖像進(jìn)行眼球追蹤;
第二種:基于MEMS的掃描方案——利用MEMS微鏡對眼睛進(jìn)行光線掃描,再通過接受器分析光線強(qiáng)度變化來進(jìn)行眼球追蹤;
第三種:基于DVS的瞳孔角膜反射法——與基于IR的瞳孔角膜反射法的區(qū)別在于,其IR圖像傳感器,替換為DVS圖像傳感器;
第四種:直接圖像處理方案——通過圖像傳感器獲取眼睛圖像,再利用如瞳孔在圖像中的各方向直徑變化等特征數(shù)據(jù)進(jìn)行眼球追蹤;

在這其中,目前應(yīng)用最普遍的是傳統(tǒng)瞳孔角膜反射法?;贛EMS的掃描方案和基于DVS的瞳孔角膜反射法,目前技術(shù)尚未完全成熟,所以應(yīng)用有限;直接圖像處理方案則由于其技術(shù)局限性,各項(xiàng)規(guī)格參數(shù)較低。
具體而言,瞳孔角膜反射法的原理是將一些低功率主動近紅外照射到人眼中,這種人眼無法看到的光會在角膜上產(chǎn)生反射,然后通過傳感陣列捕捉近紅外圖像,經(jīng)過近紅外信號處理后獲得眼部特征并識別瞳孔位置,估算出人眼的注釋方向以及注視位置,具備精度高、非接觸、干擾小、無創(chuàng)等優(yōu)點(diǎn)。

瞳孔角膜反射法示意圖(圖源:七鑫易維)
蘋果在2017年收購了專注于眼球追蹤技術(shù)的德國老牌技術(shù)公司SMI(SensoMotoric Instruments),之后SMI成為蘋果在眼球追蹤領(lǐng)域探索的主力軍,而SMI一直以來主推的技術(shù)路線正是瞳孔角膜反射法。
除蘋果外,七鑫易維、Meta、索尼、谷歌等都不約而同地選擇將瞳孔角膜反射法作為眼球追蹤解決方案的主要技術(shù)路線。
而就具體工程實(shí)現(xiàn)來看,各廠商也出于不同的目標(biāo)設(shè)計了不同的方案。蘋果Vision Pro眼球追蹤系統(tǒng),則是極致的堆料——
首先,Vision Pro配備了4個索尼定制的紅外相機(jī)(左右眼各2個),帶來更優(yōu)秀的成像解析力。
其次,使用多達(dá)34顆紅外LED燈,以提供更準(zhǔn)確的眼部信息。相比之下,Quest Pro、PICO 4 Pro以及PS VR2等當(dāng)下主流頭顯都只配備了左右眼各一顆攝像頭和8到10顆左右的紅外LED。


蘋果極致的堆料,為Vision Pro帶來了豐厚的回報。目前市面上主流頭顯眼球追蹤的準(zhǔn)確度大概在0.5°~0.9°之間,蘋果雖然并未公布Vision Pro眼球追蹤模組的具體規(guī)格,但就發(fā)布會上所展示的眼動交互能力來看,其準(zhǔn)確度和精確度應(yīng)該已遠(yuǎn)超目前市面上的頭顯。而據(jù)B站上一位專注于技術(shù)領(lǐng)域的UP主“E是天翼的翼”推算,Vision Pro的眼動準(zhǔn)確度很可能在0.42°~0.45°之間。
(二)定制R1芯片,將交互延遲降至極限
此外,Vison Pro同時搭載了M2和全新的R1芯片,R1芯片是蘋果公司專門為這款產(chǎn)品研制的芯片,可謂是Vision Pro實(shí)現(xiàn)高性能眼動追蹤的獨(dú)門秘訣。

R1芯片專門處理12個攝像頭、5個傳感器和6個麥克風(fēng)的輸入,以確保內(nèi)容實(shí)時呈現(xiàn)在用戶眼前,R1芯片能在12毫秒內(nèi)將新圖像傳輸?shù)斤@示屏中,比眨眼還要快8倍。
除了降低圖像到屏幕的延遲,R1芯片還能以超高的精度、極低的延遲識別用戶所在的環(huán)境以及用戶的手勢和眼球的運(yùn)動,精準(zhǔn)分析出需要渲染的場景,從而實(shí)現(xiàn)動態(tài)注視點(diǎn)渲染功能,大大節(jié)省了畫面渲染的性能開銷。

通過Vision Pro提供的低延遲、高精度信息輸入,用戶得以從控制器中解放出來,只需眼睛注視即可準(zhǔn)確地選中元素,以極其自然、優(yōu)雅且直觀的方式與數(shù)字世界進(jìn)行交互。
(三)數(shù)據(jù)積累先行,通向高可用率的必經(jīng)之路
在過去的二十年里,蘋果推出的iPhone、iPad、MacBook、iMac、Apple Watch等產(chǎn)品,無一例外都引起了市場的高度關(guān)注,不僅在外觀設(shè)計和用戶體驗(yàn)上有所革新,還在技術(shù)層面不斷進(jìn)行創(chuàng)新,為消費(fèi)者帶來了更好的體驗(yàn)。
正如當(dāng)年的初代iPhone一樣,Vision Pro為人們帶來更加自然且優(yōu)雅的人機(jī)交互,打破了虛實(shí)界限,極大地拓寬了虛擬現(xiàn)實(shí)技術(shù)的適用場景。但要讓Vision Pro及其后繼產(chǎn)品能夠真正被每個消費(fèi)者使用,蘋果還需要跨過可用率的大關(guān)。
實(shí)際上,在Vision Pro推出之前,蘋果可能就已經(jīng)在為提高眼球追蹤技術(shù)的可用率默默的積累數(shù)據(jù)了。
2017年11月3日,蘋果iPhone X正式開售,這款機(jī)型采用了與前代產(chǎn)品大相徑庭的交互設(shè)計——用Face ID替代了Touch ID與實(shí)體按鍵,讓iPhone進(jìn)入了全面屏?xí)r代。

根據(jù)當(dāng)時蘋果分享的Face ID白皮書,F(xiàn)ace ID利用最新的原深感攝像頭系統(tǒng)和多項(xiàng)先進(jìn)技術(shù),能夠準(zhǔn)確地映射用戶面部的幾何結(jié)構(gòu),從而提供安全直觀的認(rèn)證方法。同時,還有一個蘋果未曾大肆宣傳的功能悄悄上線,即眼球追蹤功能。iPhone額外增加了一顆紅外攝像頭和紅外光源,專門用于眼球追蹤,雖然其使用的場景主要局限在提升安全性的注視感知和活體檢測上,但在此過程中,用戶的眼部特征自然也作為面部信息的一部分被收集到了蘋果的數(shù)據(jù)庫當(dāng)中。

我們前面已提到,人眼的情況極其復(fù)雜,因此想要達(dá)到較好的眼球追蹤效果,就必須進(jìn)行長時間的人眼數(shù)據(jù)積累,數(shù)據(jù)越多則眼球追蹤的可用率也就越高。市場調(diào)研數(shù)據(jù)顯示,自iPhone X以來,搭載Face ID的iPhone手機(jī)全球銷量已超20億臺,這海量的數(shù)據(jù)為Vision Pro眼球追蹤功能的可用率提供了堅實(shí)的保證。
根據(jù)國際相關(guān)標(biāo)準(zhǔn),眼球追蹤系統(tǒng)的可用率達(dá)到94%就已經(jīng)合格。國內(nèi)眼球追蹤領(lǐng)域的頭部企業(yè)七鑫易維,憑借十幾年的積淀,積累了千萬量級、脫敏處理的眼部特征數(shù)據(jù)庫,已經(jīng)將眼球追蹤的可用率提高到98%以上。
蘋果雖然并未直接公布Vision Pro的可用率數(shù)據(jù),但根據(jù)合理推測,這一數(shù)據(jù)或許已經(jīng)超過了99%,將消費(fèi)者遇到眼球追蹤功能無法正常使用情況的概率,降到了最低。
(四)AI算法加持,打造基于眼睛的「腦機(jī)接口」
在Vision Pro發(fā)布之后,曾擔(dān)任蘋果AR神經(jīng)技術(shù)研究員的Sterling Crispin對Vision Pro的開發(fā)進(jìn)行了深入剖析,分享了Vision Pro是如何實(shí)現(xiàn)用戶視線跟蹤,并完美實(shí)現(xiàn)界面導(dǎo)航的原因。
按照Crispin的說法,AI算法的加持為Vision Pro眼動追蹤的可用性提供了強(qiáng)大支持。

Crispin在分享中表示,“當(dāng)用戶處于MR或VR的體驗(yàn)中,AI模型會嘗試預(yù)測你是感到好奇、走神、害怕、專注、回憶過去的經(jīng)歷,還是其他一些認(rèn)知狀態(tài)。而這些狀態(tài)可能通過眼球追蹤、大腦電活動、心跳和節(jié)律、肌肉活動、大腦血液密度、血壓、皮膚電導(dǎo)等測量得到?!?/p>
其中,“最酷的成果之一”即在用戶點(diǎn)擊某個東西之前,Vision Pro就能提前預(yù)測他的意圖。“Vision Pro可在用戶實(shí)際點(diǎn)擊前便預(yù)測出用戶想要點(diǎn)擊的內(nèi)容,部分原因在于人眼會對點(diǎn)擊后產(chǎn)生的結(jié)果有預(yù)期反應(yīng)。由此,我們可以通過檢測用戶的眼動軌跡,并分析其大腦反饋的生物信息,實(shí)時重新設(shè)計用戶界面來創(chuàng)建更多符合瞳孔預(yù)期信息的反饋?!?/p>
對于Crispin的說法,路偉成表示:“七鑫易維和很多知名高校在心理與認(rèn)知、腦科學(xué)等專業(yè)領(lǐng)域都有深度合作,在學(xué)術(shù)層面和應(yīng)用層面都證明了眼球追蹤與用戶心理之間的強(qiáng)關(guān)聯(lián)性,將這種特性應(yīng)用于XR交互的潛力非常大。同時,七鑫易維也是最早將AI應(yīng)用于眼球追蹤領(lǐng)域的先行者之一?!?/p>
因此,從某種意義上來說,AI算法加持下的Vision Pro眼球追蹤技術(shù)甚至可以媲美「讀心術(shù)」。正如Crispin所說,蘋果通過Vision Pro打造出一個基于眼睛的「腦機(jī)接口」。
寫在最后
在本文中,我們系統(tǒng)梳理了蘋果Vision Pro最打動人心的眼球追蹤技術(shù),解讀了Vision Pro為我們帶來優(yōu)雅、自然的交互體驗(yàn)背后的技術(shù)原理??梢哉f,是蘋果將眼球追蹤的真正潛力呈現(xiàn)給世人,讓Vision Pro的體驗(yàn)一枝獨(dú)秀,成為「空間計算」的致勝法則。
正如我們此前提到的,蘋果真正厲害的地方在于「想到」并且「做到」,用自然、無縫并且智能化的用戶體驗(yàn),詮釋了“頂尖產(chǎn)品往往就是這么樸實(shí)無華”。敢想敢做,且一出手便能做到極致。只能說,這風(fēng)格的確很「蘋果」。








