【人脸表情识别】不得不读的重要论文推荐(2015-2018篇)
前兩篇專欄我們介紹了人臉表情識別的相關概念以及研究現狀,并且了解了基于圖片的人臉表情識別常用的數據集和預處理方法。接下來兩篇專欄,筆者將從近5年基于圖片的人臉表情識別的論文中推薦一些個人覺得具有代表性或創新性工作。
作者&編輯 | Menpinland
傳統基于圖片的人臉表情識別方法在有三AI之前的綜述:《人臉表情識別研究》已經有講解,且近些年大部分工作主要圍繞深度學習進行展開,因此本專欄不再對傳統方法進行介紹。
1. 分階段微調方法
最早使用遷移學習(微調)方法進行基于圖片的表情識別文章之一。Ng等人[1]的工作就是通過分階段的微調方法進行對比不同的微調組合以找到效果最好的方法。
推薦指數:?????
圖1|[1]中提出的分階段的微調方法
[1] Ng H W, Nguyen V D, Vonikakis V, et al. Deep learning for emotion recognition on small datasets using transfer learning[C]//Proceedings of the 2015 ACM on international conference on multimodal interaction. 2015: 443-449.
2. 決策級特征融合方法
Kim等人[2]使用不同的網絡提取多種深度特征,隨后再進行多個級別的決策級融合以實現人臉表情的識別。
推薦指數:?????
圖2|[2]中提出的特征融合方法
[2] Kim B K, Lee H, Roh J, et al. Hierarchical committee of deep cnns with exponentially-weighted decision fusion for static facial expression recognition[C]//Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. 2015: 427-434.
3. 手工特征作為網絡輸入的方法
針對光線變化可能對表情識別造成影響的問題,Levi等人[3]考慮先將原始的RGB圖轉化為LBP特征,然后再將LBP投影到三維空間轉化為神經網絡的輸入,從而實現表情識別的任務。
推薦指數:?????
圖3|[3]將原始RGB圖(左)轉化為LBP特征(中),再投影到三維的空間(右)作為輸入
[3] Levi G, Hassner T. Emotion recognition in the wild via convolutional neural networks and mapped binary patterns[C]//Proceedings of the 2015 ACM on international conference on multimodal interaction. 2015: 503-510.
4. 融合未對齊和對齊人臉的表情狀態方法
在現實場景中,拍攝到的人臉圖片會存在著(頭部)姿態偏轉的情況,無法校正/對齊的人臉并不利于直接訓練表情識別算法模型。針對此問題,這篇CVPR2016 workshop的文章[4]提出融合未對齊人臉和對齊人臉的表情狀態方法(無法對齊的人臉則構建相對應的網絡進行估計),可有效提升現實場景中表情識別的準確率。
推薦指數:?????
圖4|[4]提出的方法架構
[4] Kim B K, Dong S Y, Roh J, et al. Fusing aligned and non-aligned face information for automatic affect recognition in the wild: a deep learning approach[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2016: 48-57.
5. 模型設計的方法
Zhang等人[5]想要重點解決的問題也是表情識別中存在的人臉姿態問題,不過論文的重點更多是圍繞模型設計提出針對性的方法。
推薦指數:?????
圖5|[5]提出的模型結構
[5] Zhang T, Zheng W, Cui Z, et al. A deep neural network-driven feature learning method for multi-view facial expression recognition[J]. IEEE Transactions on Multimedia, 2016, 18(12): 2528-2536.
6. 設計更深層的網絡結構
簡單粗暴,多個Inception module串行連接形成一個較深的網絡,隨后在所有主流的人臉表情圖片數據集中進行了相應的實驗,在2016的時候,Mollahosseini等人的論文[6]算是表情識別領域中,實驗最豐富的一篇文章。
推薦指數:?????
圖6|[6]提出的網絡結構
[6] Mollahosseini A, Chan D, Mahoor M H. Going deeper in facial expression recognition using deep neural networks[C]//2016 IEEE Winter conference on applications of computer vision (WACV). IEEE, 2016: 1-10.
7. RAF-DB和Locality-Preserving Loss
CVPR2017的一篇文章,最主要的貢獻點有2個:(1)提出了一個大規模的自然狀態下基于圖片的表情識別數據集RAF-DB,除了有基本的七類基本表情標簽外,還提供有十一類復合表情標簽(圖7);(2)提出Locality-Preserving loss以減小類內之間的距離,使同類特征在空間上的分布更加緊湊(圖8)。
推薦指數:?????
圖7|復合表情標簽實例
圖8|[7]中提出Locality-Preserving loss實驗效果
[7] Li S, Deng W, Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2852-2861.
8. 人臉表情識別中引入身份感知的概念
在表情識別中很有可能出現像下圖存在的問題,樣本轉化為同樣的特征空間后,相同表情的樣本(圖9(a)中的I1和I3)之間的距離D2大于不同表情但身份一樣的樣本(圖9(a)中的I1和I2)之間的距離D1。造成這一現象的主要原因在訓練過程中學習到了跟身份有關的特征,分類器容易把具有相同身份特征的樣本歸納為同一類。因此如果能區分出身份特征跟表情特征,并依據表情特征減小相同表情樣本在特征空間之間的距離(即圖9(b)的效果),表情識別效果也會大大提升。Meng等人的方法[8](圖10)就是輸入樣本對到不同的網絡中(卷積層權重共享),通過設置兩組對比損失函數學習身份特征以及表情特征,多個損失函數加權求和進行訓練,驗證/測試的時候只需輸入到一個網絡即可。同年CVPR workshop另一篇文章[9]也是在表情識別中加入身份感知(identity-aware)的概念,整體思路差不多,具體的實現方法有差異。
推薦指數:?????
圖9|復合表情標簽實例
圖10|[8]中提出的方法示意圖
[8] Meng Z, Liu P, Cai J, et al. Identity-aware convolutional neural network for facial expression recognition[C]//2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). IEEE, 2017: 558-565.
[9]?Liu X, Vijaya Kumar B V K, You J, et al. Adaptive deep metric learning for identity-aware facial expression recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2017: 20-29.
9. 基于人臉領域先驗經驗進行微調
Ding等人的工作[10]主要的兩個貢獻點在于:(1)基于人臉領域的先驗經驗進行微調(區別于以往都是在ImageNet等大型圖像分類進行預訓練再微調),后面的研究證明這點確實很有用;(2)提出了分階段進行微調、訓練的方法并應用到人臉表情識別。
推薦指數:?????
圖11|[10]中提出分階段訓練法
[10]?Ding H, Zhou S K, Chellappa R. Facenet2expnet: Regularizing a deep face recognition net for expression recognition[C]//2017 12th IEEE international conference on automatic face & gesture recognition (FG 2017). IEEE, 2017: 118-126.
10. Island Loss
Cai等人的文章[11]旨在通過優化損失函數來提升分類的準確率,文中提出的Island Loss是Center Loss的一個進階版。圖12(a)表示的是只使用交叉熵作為損失函數的分類結果;圖12(b)是交叉熵+Center Loss作為損失函數的分類結果,Center Loss的作用就是在特征空間中每個類別尋找到一個中心,然后減少同類別樣本與對應類別中心的距離;圖12(c)是交叉熵+Isand Loss作為損失函數的分類結果,Island Loss除了減少類內之間的距離,通過增大中心之間的距離來增大類間差距。
推薦指數:?????
圖12|三種損失函數的對比
[11]?Cai J, Meng Z, Khan A S, et al. Island loss for learning discriminative features in facial expression recognition[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018: 302-309.
11. 獲取人臉表情中的表情成分進行訓練
Yang等人[12]發表在2018年CVPR的文章。文章將人臉表情理解為中立人臉成分跟表情成分的組合,因此先利用GAN基于原始人臉表情圖片生成相對應的中立人臉,再利用殘余表情成分進行表情的識別。這種方法最大的優勢就是僅利用單張圖片就可以減少人臉表情識別中身份相同但表情不同的人被誤分為同一類(身份相同可能很多特征很相似)。
推薦指數:?????
圖13|[12]中提出的方法示意圖
[12]?Yang H, Ciftci U, Yin L. Facial expression recognition by de-expression residue learning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 2168-2177.
12. 解決人臉表情數據集標注不一致問題
一般的圖像分類任務,其標注往往具有客觀依據,如是否是同一樣物體(物體識別)或者是否為同一個人(人臉識別)。但在人臉表情識別中,表情的標簽很可能受到標注者主觀性的影響。如下圖14(a)中左邊相似的兩組表情,兩個不同的數據集提供的標注不太一樣,從而導致基于不同數據集訓練出來的模型在識別右邊未標注的其他數據,識別結果也不太一樣,圖14(b)則是通過數據展示了上述的差異。針對不同數據集標簽不一致問題,Zeng等人[13]提出了從不一致標簽中挖掘出潛在真實標簽的框架,框架主要分三步(圖15):(1)基于數據集A(B)訓練出模型A(B);(2)用模型A(B)預測數據集B(A)生成偽標簽,以及用模型A和B在一個無標簽數據集上進行預測;(3)將所有的數據以及他們對應的兩個標簽共同放到一個網絡進行訓練生成潛在的真實標簽(這一步是整個框架的核心,由于涉及到較多的公式推理,不詳細展開,感興趣的小伙伴可結合代碼做深入理解)。
推薦指數:?????
代碼:https://github.com/dualplus/LTNet
圖14|不同數據集標注不一樣,導致實驗結果也不太一樣
圖15|[13]中提出的方法示意圖
[13]?Zeng J, Shan S, Chen X. Facial expression recognition with inconsistently annotated datasets[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 222-237.
13. 解決人臉表情識別頭部姿態偏轉問題
在自然狀態下,人臉出現頭部姿態偏轉是一件很正常的現象。但在人臉表情識別任務中,算法很難辨別人臉是否發生姿態的偏轉,因此很難用統一的模式去識別相同的表情(如果人臉發生偏轉的話)。與此同時,不同偏轉角度也會對表情的識別造成不同程度的影響,當前的數據集并沒有足夠的人臉偏轉數據讓訓練模型理解人臉偏轉的表情。針對上述問題,Zhang等人[14]利用GAN對每個樣本生成不同人臉偏轉角度的新樣本,通過增加不同偏轉角度人臉的數量實現數據增強,再進行訓練(參考圖16)。同年在國際自動人臉和手勢識別會議(IEEE International Conference on Automatic Face & Gesture Recognition)上,也有另外一篇針對人臉姿態偏轉的文章[15],該文章提出一個多任務網絡,在利用GAN生成的同時正面人臉的同時能利用姿態特征識別具體的表情(如圖17)。
推薦指數:?????
代碼:https://github.com/FFZhang1231/Facial-expression-recognition
圖16|[14]中提出的方法示意圖
圖17|[15]中提出的方法示意圖
[14]?Zhang F, Zhang T, Mao Q, et al. Joint pose and expression modeling for facial expression recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 3359-3368.
[15]?Lai Y H, Lai S H. Emotion-preserving representation learning via generative adversarial network for multi-view facial expression recognition[C]//2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018). IEEE, 2018: 263-270.
總結
2015年左右,基于圖片的人臉表情識別這個領域也開始由大部分傳統方法完成任務轉向使用深度學習方法,所以早期的工作更多是改改模型或者簡單的遷移;但隨著這個領域的發展,可以看到,到2018年,研究的方法也越來越有針對性以及變得更加復雜。下一篇專欄我們將分享2019-2020的一些創造性或代表性工作。
有三AI知識星球
知識星球是有三AI的付費內容社區,里面包括各領域的模型學習,數據集下載,公眾號的付費圖文原稿,技術總結PPT和視頻,知識問答,書籍下載,項目推薦,線下活動等資源,了解詳細請閱讀以下文章:
【雜談】有三AI知識星球一周年了!為什么公眾號+星球才是完整的?
【雜談】萬萬沒想到,有三還有個保密的‘朋友圈’,那里面都在弄啥!
有三AI秋季劃-人臉圖像組
人臉圖像小組需要掌握與人臉相關的內容,學習的東西包括8大方向:人臉檢測,人臉關鍵點檢測,人臉識別,人臉屬性分析,人臉美顏,人臉編輯與風格化,三維人臉重建。了解詳細請閱讀以下文章:
【CV秋季劃】人臉算法那么多,如何循序漸進地學習好?
轉載文章請后臺聯系
侵權必究
往期精選
【CV秋季劃】模型優化很重要,如何循序漸進地學習好?
【CV秋季劃】人臉算法那么多,如何循序漸進地學習好?
【CV春季劃】170分鐘學習OpenCV與經典圖像處理算法基礎
【CV秋季劃】人臉關鍵點檢測,人臉識別視頻更新
【CV秋季劃】人臉檢測,活體人臉檢測,偽造人臉檢測視頻更新
【CV秋季劃】人臉識別經典難題介紹,抗遮擋,跨年齡,異質源,少樣本等
【CV秋季劃】人臉三維重建視頻更新
【CV秋季劃】人臉年齡,表情,姿態等屬性識別視頻更新
【CV秋季劃】人臉美顏與風格化視頻上新
【CV秋季劃】人臉編輯之統一屬性編輯方法視頻更新
【CV秋季劃】人臉編輯之表情,年齡,姿態編輯方法視頻更新
【CV秋季劃】深度學習換臉算法視頻更新
【人臉表情識別】基于圖片的人臉表情識別,基本概念和數據集
【人臉表情識別】如何做好表情識別任務的圖片預處理工作
總結
以上是生活随笔為你收集整理的【人脸表情识别】不得不读的重要论文推荐(2015-2018篇)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【直播课】图像分类竞赛技巧与多标签分类实
- 下一篇: 【人脸表情识别】不得不读的重要论文推荐(