從看臉到讀心:深度理解人的視覺(jué)技術(shù)走到哪了?

?? 由 文心大模型 生成的文章摘要
本文整理自微信公眾號(hào)“AI科技評(píng)論”(ID:aitechtalk),作者蔣寶尚。
“視覺(jué)智能已經(jīng)從最初的看臉走向了對(duì)人的更深層次的分析。更為準(zhǔn)確的說(shuō),人臉識(shí)別在過(guò)去的5年時(shí)間里面,有了一個(gè)跨越式的進(jìn)步,人臉識(shí)別之戰(zhàn)基本上已經(jīng)接近尾聲,以后更多的考慮如何將應(yīng)用落地,如何將技術(shù)應(yīng)用到各站業(yè)務(wù)場(chǎng)景。
以下為正文,Enjoy~”
AI正在嘗試攻克“讀心術(shù)”。隨著人臉識(shí)別為代表的“看臉”技術(shù)已經(jīng)逐漸走向成熟,越來(lái)越多的科學(xué)家正在攻克這個(gè)難題。利用AI算法,捕捉面部特征所承載的多維信息,分析推斷一個(gè)人精神狀況,從人工智能的角度就變成了輸入表情,輸出性格、情緒、心理活動(dòng)的“函數(shù)”映射問(wèn)題。其中輸入的特征可以是微表情,也可以是視線等;輸出結(jié)果可以是喜怒哀樂(lè)等情緒。
舉例來(lái)說(shuō),荷蘭阿姆斯特丹大學(xué)的尼克·瑟比博士曾利用現(xiàn)代的深度學(xué)習(xí)方法對(duì)蒙娜麗莎的“情緒"進(jìn)行破解,發(fā)現(xiàn)蒙娜麗莎有83%的快樂(lè),9%的厭惡,6%的恐懼,還有2%的憤怒。
蒙娜麗莎情緒分析或許有些“玩”的意味,但是它背后所采用的技術(shù)對(duì)于醫(yī)學(xué)、情感陪伴、金融保險(xiǎn)都有非常重要的意義。例如客觀化、易于實(shí)施的自閉癥兒童早期診斷技術(shù)、能讀懂老人情感和狀態(tài)的機(jī)器人交互技術(shù)、對(duì)司機(jī)危險(xiǎn)駕駛行為的監(jiān)控和報(bào)技術(shù)等等。
具體來(lái)看,目前醫(yī)學(xué)上在精神疾病的診斷更多依賴于量表測(cè)試和醫(yī)生面診,診斷結(jié)果更偏向主觀性??床【歪t(yī)時(shí),中醫(yī)通過(guò)“望聞問(wèn)切”的“望”來(lái)了解患者的病征,作出診斷;而心理醫(yī)生面診時(shí)也會(huì)通過(guò)觀察病人面容來(lái)判斷病人在精神層面的狀態(tài)。以抑郁癥患者為例,傳統(tǒng)方法下,醫(yī)生通常會(huì)采取三種檢查手段來(lái)判斷病人是否患有抑郁癥以及患病的程度,分別是:面診、量表測(cè)試和腦電波測(cè)試。而采用計(jì)算機(jī)視覺(jué)技術(shù)可有助實(shí)現(xiàn)非接觸性檢查。
抑郁癥分析
我們先來(lái)看人工智能在抑郁癥分析上的應(yīng)用。
AI在自閉癥兒童早期診斷上,整個(gè)過(guò)程大致有兩個(gè)步驟:首先是利用各種傳感器,記錄社交行為或個(gè)體行為過(guò)程;然后通過(guò)AI技術(shù)分析兒童的行為特征。
兩個(gè)步驟各有難點(diǎn),例如眼神捕捉的傳感器就不能用普通的攝像頭,而需要比較貴重的眼動(dòng)儀。采用AI分析技術(shù)的時(shí)候,需要考慮視點(diǎn)特征,例如看圖時(shí)的關(guān)注點(diǎn)模式,視線的移動(dòng)模式;表情特征,例如表情豐富度,表情模仿能力,表情解讀能力;社交特征,例如眼神對(duì)視多少,互動(dòng)方式等等。這里面用的技術(shù)包括:視線估計(jì)技術(shù),表情識(shí)別技術(shù)面部動(dòng)作識(shí)別數(shù)據(jù)挖掘技術(shù)等等。
目前關(guān)于此類分析,已經(jīng)得出了一些孤獨(dú)癥(ASD)視點(diǎn)特征結(jié)論:
ASD視點(diǎn)特征結(jié)論
基于此,AI 在抑郁癥診斷上的應(yīng)用也不斷凸顯,來(lái)自澳大利亞堪培拉大學(xué)以及新南威爾士大學(xué)和ANU等就采用人工定義特征的方法分別對(duì)30個(gè)重度抑郁癥患者和30個(gè)健康人進(jìn)行了測(cè)試。
具體而言,人工定義的特征包括語(yǔ)音與語(yǔ)言特征,例如詞匯數(shù)量,停頓數(shù),說(shuō)話時(shí)長(zhǎng);眼神特征,例如東張西望,眨眼率;頭部姿態(tài)特征,例如頭朝向變化率,各個(gè)朝向的時(shí)長(zhǎng)。
此項(xiàng)測(cè)試實(shí)驗(yàn)結(jié)果表明,如果用副語(yǔ)言特征就會(huì)做到83%,用眼動(dòng)行為能做到73%,用頭部估計(jì)能做到63%,融合之后能夠做到88%的精度。因?yàn)橹挥?0個(gè)人的數(shù)據(jù),且有30個(gè)是重度抑郁癥,所以這個(gè)結(jié)果差強(qiáng)人意。
但人工定義特征更多的是傳統(tǒng)的“專家模式”,2018年,采用深度學(xué)習(xí)的方法,《IEEE Transactions on Affective Computing》期刊中的一項(xiàng)工作將表征信息和動(dòng)態(tài)信息分兩路饋送到CNN網(wǎng)絡(luò)里面,然后輸出一個(gè)抑郁分?jǐn)?shù)(Depression Score)。訓(xùn)練數(shù)據(jù)是AVEC2013的一個(gè)子集,包含82個(gè)人的150段視頻。整個(gè)結(jié)果做到了7.58的MAE精度。
更進(jìn)一步,斯坦福大學(xué)的李飛飛,2018在NeurIPS上也曾介紹了一項(xiàng)基于3D表情和語(yǔ)音的抑郁癥評(píng)估,核心是用多模態(tài)的數(shù)據(jù)進(jìn)行分析。模型由兩個(gè)技術(shù)部分組成:(i)一個(gè)句子級(jí)的“概要”嵌入(嵌入的目的是“概括”一個(gè)可變長(zhǎng)度的序列,將它變?yōu)楣潭ù笮〉臄?shù)字向量。)和(ii)一個(gè)因果卷積網(wǎng)絡(luò)(C-CNN)。實(shí)驗(yàn)分為兩部分。首先與現(xiàn)有測(cè)量抑郁癥癥狀嚴(yán)重程度的工作進(jìn)行了比較,預(yù)測(cè)PHQ評(píng)分,并輸出關(guān)于患者是否患有重度抑郁癥的二元分類,通常PHQ評(píng)分大于或等于10。對(duì)模型進(jìn)行消融研究之后特異性和敏感度分別做到了82.6%和83.3%。
心率分析
除了抑郁癥,學(xué)界也在想辦法通過(guò)看臉?lè)治鲂穆剩鳛槿梭w最基礎(chǔ)的一種生理信號(hào)之一,能反映人的身體健康狀況甚至情緒狀態(tài)。傳統(tǒng)的心率測(cè)量通常依賴于接觸式的傳感器,比如較為精準(zhǔn)的心電圖以及便攜式的指夾式心率儀等,這些方法心率估計(jì)的精度通常較好,但同時(shí)因?yàn)樾枰佑|人體皮膚,限制了其使用的便利性。
遠(yuǎn)距離/非接觸式光體積變化描記圖法估計(jì)能夠克服這個(gè)限制,背后的原理非常清楚,即每一次心跳都會(huì)有相應(yīng)的血流量變化對(duì)應(yīng),這表現(xiàn)在臉上,即皮膚對(duì)光線吸收的周期性變化。當(dāng)然,這個(gè)信號(hào)非常微弱。
此類工作在國(guó)際上已經(jīng)有一段時(shí)間的發(fā)展了。
2008年是一個(gè)節(jié)點(diǎn),在此之前主要還是做接觸式的心率分析。2008年之后開(kāi)始有一些工作,基于攝像頭拍攝人的面部,通過(guò)周期性變化來(lái)估計(jì)心跳的次數(shù)。
最初的方式是基于獨(dú)立元分析:先找出心率的周期性信號(hào),然后通過(guò)傅里葉變換、頻率分析等,估計(jì)出周期/頻率。
上述的工作主要是基于物理模型,從臉部皮膚中分割出一個(gè)典型的區(qū)域,然后提取顏色變化信息,進(jìn)行頻譜分析,然后估計(jì)人的生理特征。
深度學(xué)習(xí)的出現(xiàn)再次改變了這個(gè)領(lǐng)域的研究方法。
2018年,中科院計(jì)算所山世光研究員提出了一種基于深度學(xué)習(xí)的方法:直接把提取信號(hào)送到神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。
具體而言,其提出的是一個(gè)名為RhythmNet的端到端的可訓(xùn)練心率評(píng)估器,利用AI和光電容積脈搏波描記法來(lái)應(yīng)對(duì)頭部運(yùn)動(dòng)和光線變化方面的挑戰(zhàn)。整個(gè)過(guò)程分為三部分:在ImageNet上預(yù)訓(xùn)練,然后將數(shù)據(jù)饋送到深度神經(jīng)網(wǎng)絡(luò)里面,最后對(duì)真實(shí)人臉心率信號(hào)精調(diào)。
但是訓(xùn)練過(guò)程中數(shù)據(jù)量小成了約束。當(dāng)時(shí)最大的人臉心率數(shù)據(jù)集也不超過(guò)50人,深度模型容易過(guò)擬合。于是他想到人為加上弱周期性的信號(hào)去完成預(yù)訓(xùn)練,如此便能生成大量的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果在標(biāo)準(zhǔn)數(shù)據(jù)集上HRrmse做到了4.49(最好的指標(biāo)是6.23)。
但是用來(lái)訓(xùn)練的數(shù)據(jù)存在一個(gè)問(wèn)題——人的心率分布是不均衡的。大多數(shù)人的心率都集中在60到90之間。120、130此類的數(shù)據(jù)非常少。用這樣的數(shù)據(jù)做訓(xùn)練,顯然會(huì)存在偏差。
山世光采用的方法是對(duì)人臉心率數(shù)據(jù)增廣,即在時(shí)域中進(jìn)行上、下采樣,這樣訓(xùn)練集里面的心率的數(shù)據(jù)范圍就會(huì)更加的廣泛,且能獲得相對(duì)更均勻的心率數(shù)據(jù)。
微表情分析
對(duì)微表情的研究,方法上類似人臉識(shí)別,包含檢測(cè)和識(shí)別兩個(gè)具體問(wèn)題。
具體來(lái)說(shuō),就是先從一段長(zhǎng)視頻中把發(fā)生微表情的視頻片段檢測(cè)出來(lái),然后識(shí)別該微表情屬于哪一類微表情。
微表情檢測(cè),就是指在一段視頻流中,檢測(cè)出是否包含微表情,并標(biāo)記微表情的起點(diǎn)(onset)、峰值(apex)和終點(diǎn)(offset)。起點(diǎn)(onset) 是指微表情出現(xiàn)的時(shí)間;峰值(apex) 是指微表情幅度最大的時(shí)間; 終點(diǎn)(offset) 是指微表情消失的時(shí)間。
微表情識(shí)別是指給定一個(gè)已經(jīng)分割好的微表情片斷,通過(guò)某種算法,識(shí)別該微表情的情緒種類(例如厭惡、悲傷、驚訝、憤怒、恐懼、快樂(lè)等)。如同三維動(dòng)態(tài)表情識(shí)別一樣,其處理的對(duì)象是視頻片斷,而不只是單幅圖像。對(duì)其處理過(guò)程中,不僅要考慮空間上的模式,還要考慮時(shí)間上的模式。所以許多微表情識(shí)別的算法都考慮了時(shí)空模式。
事實(shí)上對(duì)于微表情研究,最難的是如何收集足夠多的、質(zhì)量高的微表情數(shù)據(jù)集。目前,微表情現(xiàn)有的數(shù)據(jù)庫(kù)樣本量都非常小,公開(kāi)發(fā)表的微表情樣本只有不到800個(gè)。因此微表情研究是典型的小樣本問(wèn)題。這也是造成當(dāng)前基于深度學(xué)習(xí)的方法在微表情問(wèn)題上無(wú)法完全發(fā)揮出它應(yīng)有威力的主要原因。
中科院計(jì)算所山世光提到過(guò)一項(xiàng)基于視頻流的自監(jiān)督特征表達(dá)方法,通過(guò)巧妙利用自監(jiān)督約束信號(hào),得到提純的面部動(dòng)作特征用于微表情識(shí)別。
總體的框架
區(qū)別于當(dāng)前人臉區(qū)域分塊、注意力機(jī)制等方法學(xué)習(xí)人臉局部區(qū)域的AU特征,這類方法在訓(xùn)練階段需要利用精確標(biāo)注的AU標(biāo)簽,由于目前業(yè)界發(fā)布的AU數(shù)據(jù)集人數(shù)及圖像總量不足,采用監(jiān)督學(xué)習(xí)方法訓(xùn)練得到的模型往往呈現(xiàn)出在特定數(shù)據(jù)集上的過(guò)擬合現(xiàn)象,他們提出了一種能夠在不依賴AU標(biāo)簽的前提下,從人臉視頻數(shù)據(jù)中自動(dòng)學(xué)習(xí)AU表征的方法(Twin-Cycle Autoencoder,簡(jiǎn)稱TCAE)。TCAE用于后續(xù)的AU識(shí)別任務(wù)時(shí),只需要利用訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)分類器即可,顯著減少了所需的訓(xùn)練數(shù)據(jù),并提升了模型的泛化能力。
考慮到兩幀人臉圖像之間的運(yùn)動(dòng)信息包含了AU以及頭部姿態(tài)的運(yùn)動(dòng)分量,TCAE通過(guò)利用巧妙的自監(jiān)督約束信號(hào),使得模型能夠分離出AU變化引起的運(yùn)動(dòng)分量,以及頭部姿態(tài)變化引起的運(yùn)動(dòng)分量,從而得到提純的AU特征。與其他監(jiān)督方法,TCAE可以利用大量的無(wú)標(biāo)注人臉視頻,這類視頻是海量的。與半監(jiān)督或者弱監(jiān)督方法相比, TCAE采用了自監(jiān)督信號(hào)進(jìn)行模型訓(xùn)練,避免了對(duì)數(shù)據(jù)或者標(biāo)簽的分布做出任何假設(shè)。
無(wú)論是抑郁癥分析,還是微表情識(shí)別,從國(guó)內(nèi)、國(guó)外的研究進(jìn)展看,視覺(jué)智能已經(jīng)從最初的看臉走向了對(duì)人的更深層次的分析。更為準(zhǔn)確的說(shuō),人臉識(shí)別在過(guò)去的5年時(shí)間里面,有了一個(gè)跨越式的進(jìn)步,人臉識(shí)別之戰(zhàn)基本上已經(jīng)接近尾聲,以后更多的考慮如何將應(yīng)用落地,如何將技術(shù)應(yīng)用到各站業(yè)務(wù)場(chǎng)景。