表情识别(一)
人類通過視覺、味覺、聽覺、嗅覺和觸覺五個器官來認識世界。我們把用眼睛觀察到的視覺信息叫做圖像信息,如人臉的表情信息。一般的表情識別可以用單個感官完成,也可以用多個感官相配合來完成。它是一個整體識別和特征識別共同作用的結果。具體說來,遠處辨認人,主要是整體識別,而在近距離面部表情識別中,特征部件識別則更重要。另外,人臉上各部件對識別的貢獻也不相同,如眼睛和嘴巴的重要程度大于鼻子。根據對人腦的研究表明,人臉的表情識別和人臉識別雖然存在聯系,但總體說是分開、并行的處理過程。
????隨著人臉的計算機處理技術(包括人臉檢測和人臉識別)不斷完善,利用計算機進行面部表情分析也就成為可能??傮w而言,表情分析是一個非常困難的研究方向,主要體現在表情特征提取的準確性和有效性上。尤其是后者,因為各種表情本身體現在各個特征點運動上的差別就不是很大,例如:嘴巴張開并不代表就是笑,也有可能是哭和驚訝等。
????人臉表情識別技術目前主要的應用領域包括人機交互、安全、機器人制造、醫療、通信和汽車領域等。
????1971年,心理學家Ekman與Friesen的研究最早提出人類有六種主要情感,每種情感以唯一的表情來反映人的一種獨特的心理活動。這六種情感被稱為基本情感,由憤怒(anger)、高興(happiness)、悲傷?(sadness)、驚訝(surprise)、厭惡(disgust)和恐懼(fear)組成。
????以下所講到的一些方法都是從人臉識別演變而來,結合表情識別的特點而運用。
????目前所用到的識別特征主要有:灰度特征、運動特征和頻率特征三種?;叶忍卣魇菑谋砬閳D像的灰度值上來處理,利用不同表情有不同灰度值來得到識別的依據。這種情況下要求圖像對光照、角度等因素要進行充分的預處理,使獲得的灰度值具有歸一性。運動特征利用了不同表情情況下人臉的主要表情點的運動信息來進行識別。頻域特征主要是利用了表情圖像在不同的頻率分解下的差別,速度快是其顯著特點。
????在具體的表情識別方法上,方向主要有三個:整體識別法和局部識別法、形變提取法和運動提取法、幾何特征法和容貌特征法。
????整體識別法中,無論是從臉部的變形出發還是從臉部的運動出發,都是將表情人臉作為一個整體來分析,找出各種表情下的圖像差別。其中典型的方法有:基于特征臉的主分量分析(Principal Component Analysis,PCA)法、獨立分量分析法(Independent Component Analysis,ICA)、Fisher線性判別法(Fisher’s Linear Discriminants,FLD)、局部特征分析(Local Feature Analysis,LFA)、Fisher運動法(Fisher Actions)、隱馬爾科夫模型法(Hide Markov Model,HMM)和聚類分析法。
????局部識別法就是將人臉的各個部位在識別時分開,也就是說各個部位的重要性是不一樣。比如說在表情識別時,最典型的部位就是眼睛、嘴、眉毛等,這些地方的不同運動表示了豐富的面部表情。相比較而言,鼻子的運動就較少,這樣在識別時就可以盡量少的對鼻子進行分析,能加快速度和提高準確性。其中最典型的方法就是臉部運動編碼分析法(Facial Actions Code System,FACS)和MPEG-4中的臉部運動參數法。其他的還有局部主分量分析法(Local PCA)、Gabor小波法和神經網絡法。人臉運動編碼系統FACS (Facial Action Coding System),根據面部肌肉的類型和運動特征定義了基本形變單元AU(Action Unit),人臉面部的各種表情最終能分解對應到各個AU上來,分析表情特征信息,就是分析面部AU的變化情況,
FACS有兩個主要弱點:1.運動單元是純粹的局部化的空間模板;2.沒有時間描述信息,只是一個啟發式信息
????形變提取法是根據人臉在表達各種表情時的各個部位的變形情況來識別的,主要的方法有:主分量分析法(PCA)、Gabor小波、運動模板法(Active Shape Model,ASM)[7]和點分布模型(Point Distribution Model,PDM)法。
????運動法是根據人臉在表達各種特定的表情時一些特定的特征部位都會作相應的運動這一原理來識別的。在上面提到的6種基本的表中,臉上一些固定的特征點(或部位)的運動方向或趨勢是固定的,比如說人在恐懼的時候,眼睛張開的幅度應該比正常時要大,嘴一般是張開的等等,具體情況見表1。典型的識別方法有:光流法(Optical Flow)[8]和MPEG-4中的臉部運動參數法(Face Animation Parameter FAP)。
????幾何特征法是根據人的面部的各個部分的形狀和位置(包括嘴、眼睛、眉毛、鼻子)來提取特征矢量,這個特征矢量來代表人臉的幾何特征。根據這個特征矢量的不同就可以識別不同的表情。重要的方法是:基于運動單元(AU)的主分量分析法。在容貌特征法中,主要是將整體人臉或者是局部人臉通過圖像的濾波,以得到特征矢量。常用的濾波器是Gabor小波。
????當然,這三個發展方向不是嚴格獨立,它們只是從不同側面來提取所需要的表情特征,都只是提供了一種分析表情的思路,相互聯系,相互影響。有很多種方法是介于兩者甚至是三者之間。例如說面部運動編碼系統法是局部法的一種,同時也是從臉部運動上考慮的等等。
人臉表情識別的過程和方法
1、表情庫的建立
目前,研究中比較常用的表情庫主要有:
美國CMU機器人研究所和心理學系共同建立的Cohn-Kanade AU-Coded Facial Expression Image Database(簡稱CKACFEID)人臉表情數據庫;
日本ATR建立的日本女性表情數據庫(JAFFE),它是研究亞洲人表情的重要測試庫
fer2013人臉數據集,可以從kaggle網站上下載
更多庫---> ?參考鏈接
2、表情識別:
(1)圖像獲取:通過攝像頭等圖像捕捉工具獲取靜態圖像或動態圖像序列。??
(2)圖像預處理:圖像的大小和灰度的歸一化,頭部姿態的矯正,圖像分割等。
目的:改善圖像質量,消除噪聲,統一圖像灰度值及尺寸,為后序特征提取和分類識別打好基礎
主要工作:人臉表情識別子區域的分割以及表情圖像的歸一化處理(尺度歸一和灰度歸一)?
(3)特征提取:將點陣轉化成更高級別圖像表述—如形狀、運動、顏色、紋理、空間結構等,?在盡可能保證穩定性和識別率的前提下,對龐大的圖像數據進行降維處理。
特征提取的主要方法有:提取幾何特征、統計特征、頻率域特征和運動特征等
1)采用幾何特征進行特征提取主要是對人臉表情的顯著特征,如眼睛、眉毛、嘴巴等的位置變化進行定位、測量,確定其大小、距離、形狀及相互比例等特征,進行表情識別
優點:減少了輸入數據量
缺點:丟失了一些重要的識別和分類信息,結果的精確性不高?
2)基于整體統計特征的方法主要強調盡可能多的保留原始人臉表情圖像中的信息,并允許分類器發現表情圖像中相關特征,通過對整幅人臉表情圖像進行變換,獲取特征進行識別。
主要方法:PCA(主成分分析)和ICA(獨立主元分析)
PCA用一個正交維數空間來說明數據變化的主要方向?優點:具有較好的可重建性?缺點:可分性較差
ICA可以獲取數據的獨立成份,具有很好的可分性
基于圖像整體統計特征的提取方法缺點:外來因素的干擾(光照、角度、復雜背景等)將導致識別率下降
3)基于頻率域特征提取:?是將圖像從空間域轉換到頻率域提取其特征(較低層次的特征)
?主要方法:Gabor小波變換
?小波變換能夠通過定義不同的核頻率、帶寬和方向對圖像進行多分辨率分析,能有效提取不同方向不同細節程度的圖像特征并相對穩定,但作為低層次的特征,不易直接用于匹配和識別,常與ANN?或SVM?分類器結合使用,提高表情識別的準確率。?
4)基于運動特征的提取:提取動態圖像序列的運動特征(今后研究的重點)
?主要方法:光流法
?光流是指亮度模式引起的表觀運動,是景物中可見點的三維速度矢量在成像平面上的投影,它表示景物表面上的點在圖像中位置的瞬時變化,同時光流場攜帶了有關運動和結構的豐富信息
?光流模型是處理運動圖像的有效方法,其基本思想是將運動圖像函數f(x, y,t)作為基本函數,根據圖像強度守恒原理建立光流約束方程,通過求解約束方程,計算運動參數。
?優點:反映了表情變化的實質,受光照不均性影響較小
?缺點:計算量大?
4)分類判別:包括設計和分類決策
在表情識別的分類器設計和選擇階段,主要有以下方法:用線性分類器、神經網絡分類器、支持向量機、隱馬爾可夫模型等分類識別方法
5.1)線性分類器:假設不同類別的模式空間線性可分,引起可分的主要原因是不同表情之間的差異。
5.2)神經網絡分類器:人工神經網絡(Artificial Neural Network,ANN)是一種模擬人腦神經元細胞的網絡結構,它是由大量簡單的基本元件—神經元,相互連接成的自適應非線性動態系統。將人臉特征的坐標位置和其相應的灰度值作為神經網絡的輸入,ANN可以提供很難想象的復雜的類間分界面。
?神經網絡分類器主要有:多層感知器、BP網、RBF網
?缺點:需要大量的訓練樣本和訓練時間,不能滿足實時處理要求
5.3)支持向量機(SVM)分類算法:泛化能力很強、解決小樣本、非線性及高維模式識別問題方面表、新的研究熱點
基本思想:對于非線性可分樣本,首先通過非線性變換將輸入空間變換到一個高維空間,然后在這個新空間中求取最優線性分界面。這種非線性變換通過定義適當的內積函數實現,常用的三種內積函數為:多項式內積函數、徑向基內積函數、Sigmoid內積函數
5.4)隱馬爾可夫模型(Hidden Markov Models, HMM):特點:統計模型、健壯的數學結構,適用于動態過程時間序列建模,具有強大的模式分類能力,理論上可處理任意長度的時序,應用范圍非常廣泛。
優點:運用HMM方法能夠比較精確的描繪表情的變化本質和動態性能
5.5)其他方法:
??基于人臉物理模型的識別方法,將人臉圖像建模為可變形的3D網格表面,把空間和灰度放在一個3D空間中同時考慮。
? 基于模型圖像編碼的方法是使用遺傳算法來編碼、識別與合成各種不同的表情
四、研究展望
(1)魯棒性有待提高:
外界因素(主要是頭部偏轉及光線變化的干擾)
采用多攝像頭技術、色彩補償技術予以解決,有一定效果,但并不理想
(2)表情識別計算量有待降低è確保實時性的要求
(3)加強多信息技術的融合
? ?面部表情不是唯一的情感表現方式,綜合語音語調、脈搏、體溫等多方面信息來更準確地推測人的內心情感,將是表情識別技術需要考慮的問題
附現階段具體的人臉表情識別方法(其實,從這里可以看出,基本就是handcrafted Features + 淺層分類器)
| 人臉表情識別方法 | 方法簡單描述 | 優點 | 缺點 |
| 稀疏表示 | 用稀疏表示法對樣本庫進行描述,建立超完備子空間,重構并觀察殘差,最后通過稀疏系數進行分類 | 操作簡單,可以做前期的基礎實驗,有一定的魯棒性 | 描述對象必須要是稀疏的,降低了實際應用價值,對于樣本要求也比較高 |
| Gabor變換 | 通過定義不同的核頻率、帶寬和方向對圖像進行多分辨率分析,能有效提取不同方向不同細節程度的圖像特征并相對穩定, 常與ANN?或SVM?分類器結合使用,提高表情識別的準確率 | 在頻域和空間域都有較好的分辨能力,有明顯的方向選擇性和頻率選擇特性 | 作為低層次的特征,不易直接用于匹配和識別,識別準確率也不是很高,樣本較少的條件下識別準確率也較低 |
| 主成分分析和線性判別 | 盡可能多的保留原始人臉表情圖像中的信息,并允許分類器發現表情圖像中相關特征,通過對整幅人臉表情圖像進行變換,獲取特征進行識別 | 具有較好的可重建性?缺點:可分性較差 | 外來因素的干擾(光照、角度、復雜背景等)將導致識別率下降 |
| 支持向量機 | 作為分類器做人臉識別,在表情識別時一般和Gabor濾波器一起使用作為分類器 | 在小樣本下的識別效果較為理想,可以做實時性的表情識別 | 樣本較大時,計算量和存儲量都很大,識別器的學習也很復雜 |
| 光流法對運動特征提取 | 是將運動圖像函數f (x,y,t)作為基本函數,根據圖像強度守恒原理建立光流約束方程,通過求解約束方程,計算運動參數 | 反映了人臉表情變化的實際規律,受外界環境的影響較小,比如光照條件變化時,識別率不會有太大變化 | 識別模型和算法較復雜,計算量大 |
| 圖像匹配法 | 通過使用彈性圖匹配的方法將標記圖和輸入人臉圖像進行匹配 | 允許人臉旋轉,和能夠實時處理 | 會受到其他部位特征的影響,如眼鏡,頭發等 |
| 隱馬爾可夫模型 | 由觀察的面部表情序列及模型去計算觀察面部表情序列的概率,選用最佳準則來決定狀態的轉移;據觀察的面部表情序列計算給定的模型參數 | 識別準確率較高,平均在97%以上 | 對前期的面部表情序列模型要求較高,這對表情識別算法的準確率影響也較大 |
| 其他方法如:矩陣分解法 | 以NMF為例,分解后的基圖像矩陣和系數矩陣中的元素均是非負的。將表征人臉各部分的基圖像進行線性組合從而表征整個表情圖像。 | 需要的樣本較少,在無遮擋時識別準確率90%以上 | ? ? 受外界環境影響較大,識別準確率在嘴巴受到遮擋時,準確率只有80%左右 |
總結
- 上一篇: 生成格雷码
- 下一篇: qmlcanvas绘制3d图形_透视Ma