人脸表情识别人脸表情识别系统
大家好,歡迎來到我們人臉表情識別的專欄,這是專欄的第一篇文章,今天我們討論的問題是關于表情識別的基本概念和數據集。
作者 | Menpinland
編輯 | 言有三
在較早之前,有三AI已經有一篇《人臉表情識別研究》的文章,里面已經對早期的人臉表情相關的內容做了一個較為詳細的綜述。但最近幾年,由于深度學習技術的發展,以及越來越多大規模人臉表情識別數據集的開源,人臉表情識別的相關研究也發生了比較多的變化。本專欄將在前面綜述的基礎上,進一步介紹當前人臉表情識別的研究現狀,同時跟蹤該領域最新的研究成果。歡迎對此方向感興趣或正在從事該領域相關研究的萌新、大佬提供意見和建議,一起學習,共同進步。
1 基本概念
有關表情的相關概述以及人臉表情識別的研究背景,可參考有三AI之前的綜述:《【 》,本文則不再贅述。
不過對于人臉表情識別的概念,此處進行補充。本專欄討論的內容是通過計算機視覺技術識別人的面部表情以理解人的情緒狀態,即人臉表情識別(Facial Expression Recognition)。但在筆者剛入坑查找相關文獻的時候,發現有許多類似的詞語,比如中文里面的“情緒識別”、”感情識別“,英文里面的”emotion“、”sentiment“、”affect“......其實之所以有這么多相似詞語,主要是因為不同領域表達方式及使用習慣不同。研究及理解情緒人的情緒狀態是一個很大的命題,除了面部表情,利用生理信號(如腦電信號、心跳、脈搏等)以及自然語言也可以理解人的情緒狀態。在基于生理信號的情緒研究中,“emotion”、“affect”是比較常見的字眼;而在基于NLP的情緒研究中,“sentiment”則出現得更為頻繁。也有相關學者對情緒識別領域里相似關鍵詞的使用做了專門的研究 [1],有興趣的讀者可自行查看。
2 研究現狀
在早期的人臉表情識別的研究中,大部分常用的數據集都是讓研究人員或者專業的演員在實驗室條件下(laboratory-controlled)進行“擺拍”獲得的。但通過這樣的數據集訓練得到的算法模型在實際使用的時候很容易出現較大的偏差。最主要的原因在于這些表情數據都是在比較理想的實驗室條件下得到的。跟其他人臉相關的任務一樣,現實當中人臉會出現遮擋、頭部姿態變換以及光照變換等更復雜的情況,除此之外,人在自然條件下的表情也不會有在實驗室條件下通過“擺拍”得到的表情那么明顯。因此,在理想條件下訓練得到的算法模型面對現實更苛刻的條件,識別率自然大大下降。針對上述問題,越來越多自然環境下(in the wild)自發式的表情數據集也逐步開源,同時相關算法的研究也越來越偏向于去提升人臉表情識別在更具挑戰性的現實條件下的魯棒性。
圖1|人臉表情識別存在的遮擋、頭部姿態變換、光照變換問題
在人臉表情識別中,按照數據格式、表情定義類型的不同,可劃分為更加細致的方向。按照數據格式劃分,可分為基于圖片的人臉表情識別以及基于(音)視頻的人臉表情識別;按照表情定義類型的不同,可劃分為基于離散標簽的人臉表情識別,基于連續模型的人臉表情識別以及基于人臉活動單元系統(Facial Action Coding System, FACS)的人臉表情識別。基于離散標簽的人臉表情識別就是將表情定義為六種基本的情緒:開心、悲傷、驚訝、害怕、厭惡、生氣(通常七類多個中立,八類多個輕蔑),用分類的方法完成識別的任務,這也是目前大部分人臉表情識別研究;基于連續模型的人臉表情識別,就是按照心理學的效價-喚醒環形模型(Valence–Arousal circumplex model)[2] 將表情定義為兩個連續的數值,用回歸的方法完成人臉表情預測的任務;基于FACS的人臉表情識別,就是將人臉劃分為多個活動單元(action unit, AU),將表情識別問題轉換為判斷哪幾個活動單元“活躍(active)”的問題。以上各種分類都會在本專欄有所涉及。首先先介紹基于圖片的人臉表情識別(沒特別說明,后面相關介紹,人臉表情定義類型都默認離散標簽)。
3 基于圖片的人臉表情數據集
在介紹相關算法之前,我們首先去了解在基于圖片的人臉表情識別使用得比較頻繁的幾個數據集:
1.The Japanese Female Facial Expression (JAFFE) Dataset [3]
鏈接:https://zenodo.org/record/3451524#.X2MFNG4zZPY
---數據采集方式:10位日本女性在實驗室條件下擺拍指定表情獲得
---表情標簽:開心、悲傷、驚訝、害怕、厭惡、生氣、中立
---數據集大小:共213張圖片,每個人每種表情大概3-4張圖片,每張圖片分辨率256*256像素
圖2|JAFFE中部分圖片示例
2.MMI Facial Expression Database [4,5]
鏈接:https://www.mmifacedb.eu/
---數據采集方式:32位參與者在實驗室條件下擺拍指定表情獲得
---表情標簽:開心、悲傷、驚訝、害怕、厭惡、生氣、中立;AU;時序狀態(表情開始幀-->峰值幀-->結束幀,onset-->apex-->offset)
---數據集大小:2900個視頻以及740張圖片,分辨率 720*576像素
圖3|MMI中部分圖片示例
3.Extended Cohn-Kanade Dataset (CK+) [6]
鏈接:http://www.pitt.edu/~emotion/ck-spread.htm
---數據采集方式:123位參與者在實驗室條件下擺拍指定表情獲得
---表情標簽:開心、悲傷、驚訝、害怕、厭惡、生氣、中立、輕蔑;AU
---數據集大小:593個視頻序列,分辨率640*490或者640*480,基于圖片的人臉表情識別中常常取最后幾幀作為樣本
圖4|CK+中部分圖片示例
4.FER2013 [7]
鏈接:https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge/overview
---數據采集方式:通過Google搜索引擎獲取(這種即被定義為自然狀態下自發式的表情數據)
---表情標簽:開心、悲傷、驚訝、害怕、厭惡、生氣、中立
---數據集大小:訓練集含28709張圖片, 驗證集含3589張圖片,測試集含3589張圖片,分辨率48*48,數據及標簽存放在csv文件里
圖5|FER2013中部分圖片示例
5.Real-world Affective Faces Database (RAF-DB) [8]
鏈接:http://www.whdeng.cn/RAF/model1.html
---數據采集方式:采集自互聯網
---表情標簽:開心、悲傷、驚訝、害怕、厭惡、生氣、中立;復合情緒(可參考圖6中的例子理解)
---數據集大小:總共29672張圖片
圖6|RAF-DB中部分圖片示例
6.AffectNet [9]
鏈接:http://mohammadmahoor.com/affectnet/
---數據采集方式:采集自互聯網
---表情標簽:開心、悲傷、驚訝、害怕、厭惡、生氣、中立;二維連續模型
---數據集大小:總計1800000張圖片,其中450000是提供離散以及連續的標簽,是目前自然條件下最大的表情識別圖片數據集,也是提供二維連續模型標簽中最大的數據集
圖7|AffectNet中部分圖片示例
4 參考文獻
[1] Munezero M, Montero C S, Sutinen E, et al. Are they different? Affect, feeling, emotion, sentiment, and opinion detection in text[J]. IEEE transactions on affective computing, 2014, 5(2): 101-111.
[2] Russell J A. A circumplex model of affect[J]. Journal of personality and social psychology, 1980, 39(6): 1161.
[3] Lyons M, Akamatsu S, Kamachi M, et al. Coding facial expressions with gabor wavelets[C]//Proceedings Third IEEE international conference on automatic face and gesture recognition. IEEE, 1998: 200-205.
[4] Valstar M, Pantic M. Induced disgust, happiness and surprise: an addition to the mmi facial expression database[C]//Proc. 3rd Intern. Workshop on EMOTION (satellite of LREC): Corpora for Research on Emotion and Affect. 2010: 65.
[5] Pantic M, Valstar M, Rademaker R, et al. Web-based database for facial expression analysis[C]//2005 IEEE international conference on multimedia and Expo. IEEE, 2005: 5 pp.
[6] Lucey P, Cohn J F, Kanade T, et al. The extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression[C]//2010 ieee computer society conference on computer vision and pattern recognition-workshops. IEEE, 2010: 94-101.
[7] Goodfellow I J, Erhan D, Carrier P L, et al. Challenges in representation learning: A report on three machine learning contests[C]//International conference on neural information processing. Springer, Berlin, Heidelberg, 2013: 117-124.
[8] Li S, Deng W, Du J P. Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2852-2861.
[9] Mollahosseini A, Hasani B, Mahoor M H. Affectnet: A database for facial expression, valence, and arousal computing in the wild[J]. IEEE Transactions on Affective Computing, 2017, 10(1): 18-31.
總結
本文首先介紹了人臉表情識別的相關概念以及研究現狀,然后了解了目前基于圖片的人臉表情識別領域最常用的幾個數據集。后面的1-2篇專欄將會圍繞近幾年基于圖片的人臉表情識別論文介紹相關的預處理以及識別的方法。
如果想長期在有三AI社區學習人臉相關的技術,可以參考有三AI秋季劃人臉圖像小組,臉圖像小組需要掌握與人臉相關的內容,學習的東西包括8大方向:人臉檢測,人臉關鍵點檢測,人臉識別,人臉屬性分析,人臉美顏,人臉編輯與風格化,三維人臉重建。了解詳細請閱讀以下文章:
「CV秋季劃」人臉算法那么多,如何循序漸進地學習好?
總結
以上是生活随笔為你收集整理的人脸表情识别人脸表情识别系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: p开头的变白饮料有哪些?
- 下一篇: 文件包含