ACM MM 2021 | 面向多模态情绪识别的双流异质图递归神经网络
本文介紹一篇于 ACM MM 2021 上發(fā)表,備受關(guān)注的 Oral 論文《HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition》,該論文以多模態(tài)情感數(shù)據(jù)的高精度分類(lèi)為研究目標(biāo),提出了一種雙流異質(zhì)圖遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行多模態(tài)情緒數(shù)據(jù)的分類(lèi)。
盡管現(xiàn)有方法能夠達(dá)到較高的分類(lèi)表現(xiàn),但是如何充分利用多模態(tài)生理時(shí)間序列的時(shí)-頻-空域特征互補(bǔ)性、異質(zhì)性和相關(guān)性進(jìn)行情感識(shí)別仍然具有挑戰(zhàn)。該論文提出了一種新穎的異質(zhì)圖神經(jīng)網(wǎng)絡(luò) HetEmotionNet,在統(tǒng)一的框架下同時(shí)建模了多模態(tài)數(shù)據(jù)的特征互補(bǔ)性、相關(guān)性和異質(zhì)性。HetEmotionNet 在兩個(gè)真實(shí)世界數(shù)據(jù)中與現(xiàn)有的 SOTA 模型相比較實(shí)現(xiàn)了最佳的性能。
原文地址:
https://arxiv.org/abs/2108.03354
論文源碼:
https://github.com/ziyujia/HetEmotionNet
作者主頁(yè):
https://ziyujia.github.io/
PPT文件:
https://ziyujia.github.io/slides/HetEmotionNet_slides.pdf
研究背景
情緒是由思維感覺(jué)和行為表現(xiàn)組成的生理和心理的狀態(tài)。提到情緒識(shí)別,人們的第一反應(yīng)是通過(guò)圖像、文本、聲音等形式進(jìn)行識(shí)別,一般不會(huì)想到利用生理信號(hào)。盡管圖像、文本、聲音數(shù)據(jù)比較容易收集,也能夠達(dá)到不錯(cuò)的效果,但人的面部表情和聲音容易被偽裝、掩蓋,不一定能反映真實(shí)情感。基于生理信號(hào)的情緒識(shí)別可以避免此類(lèi)情況,生理信號(hào)是人生理情況的客觀(guān)反應(yīng),不容易被偽裝。此外,多模態(tài)的生理信號(hào)也是未來(lái)發(fā)展的趨勢(shì)。
研究動(dòng)機(jī)
基于生理信號(hào)的情緒識(shí)別在情感計(jì)算中起著重要的作用,但現(xiàn)有的工作仍存在下面幾個(gè)問(wèn)題:
1. 如何有效的利用時(shí)頻空域信息的互補(bǔ)性。生理信號(hào)空間域中的時(shí)域信息和頻域信息通常具有不同的激活程度。例如,圖 1 顯示了不同情緒狀態(tài)下 EEG 信號(hào)在空間域中時(shí)域和頻域特征的差異。例如,在時(shí)空域中,時(shí)域信息的激活程度直接反映了大腦的活動(dòng)。高激活度通常與積極情緒有關(guān),低激活度通常與消極情緒有關(guān)。在頻空域中,𝛾 波段的激活度通常在消極情緒中較高,在積極情緒中較低。
▲ 圖1:腦電信號(hào)在時(shí)頻空域中的互補(bǔ)性
現(xiàn)有工作大多數(shù)僅分別從時(shí)空或頻空方面提取信號(hào)特征并進(jìn)行分類(lèi)。而最新的同時(shí)考慮時(shí)頻空特征的研究 SST-EmotionNet 基于通道電極的空間關(guān)系采用了網(wǎng)格圖的方式來(lái)組織通道數(shù)據(jù)并對(duì)空白區(qū)域填充了 0。圖 2(a) 示意了該網(wǎng)格圖的構(gòu)造方法。
但這樣做存在兩方面的問(wèn)題:1. 由于事實(shí)上沒(méi)有放置電極的腦部區(qū)域仍舊有著電信號(hào)。所以填充 0 會(huì)引入噪聲。2. 物理位置相近的通道間不一定有著數(shù)據(jù)上的高關(guān)聯(lián)。而圖 2(b)中圖的構(gòu)造方法可以反應(yīng)通道間的拓?fù)潢P(guān)系且不用填入噪聲。
▲ 圖2:兩種EEG通道的空間表示。(a):將EEG信號(hào)組織成2D map形式。(b):將EEG信號(hào)組織成圖的形式
2. 如何同時(shí)建模多模態(tài)數(shù)據(jù)中的相關(guān)性和異質(zhì)性。多模態(tài)生理信號(hào)存在異質(zhì)性和相關(guān)性。模態(tài)之間的異質(zhì)性體現(xiàn)在從不同器官收集的各種信號(hào)的屬性之間的差異。例如在圖 3 中 EEG 信號(hào)和 ECG 信號(hào)在波形和振幅上有很大的差異。相關(guān)性包括模態(tài)內(nèi)相關(guān)性和跨模態(tài)相關(guān)性。模態(tài)內(nèi)相關(guān)性是同一模態(tài)中通道之間的關(guān)系,如圖 2(b)所示的功能連接。跨模態(tài)相關(guān)性是不同模態(tài)的通道之間的關(guān)系。
例如,當(dāng)參與者處于恐懼狀態(tài)時(shí),心電信號(hào)反映更大的心率加速,伴隨著 GSR 信號(hào)的增加以及右額葉腦電信號(hào)的高激活程度。但現(xiàn)有方法僅分別建模了多模態(tài)生理信號(hào)的相關(guān)性或異質(zhì)性。
▲ 圖3:多模態(tài)生理信號(hào)的異質(zhì)性
本文針對(duì)以上問(wèn)題,提出了一種基于多模態(tài)生理信號(hào)的雙流異質(zhì)圖遞歸神經(jīng)網(wǎng)絡(luò) HetEmotionNet。
論文貢獻(xiàn)
該模型構(gòu)造了情緒異質(zhì)圖序列并輸入到了雙流結(jié)構(gòu)中,同時(shí)捕獲多模態(tài)生理信號(hào)的時(shí)-頻-空三類(lèi)特征;同時(shí)該模型利用了 GTN 來(lái)建模多模態(tài)生理信號(hào)的異質(zhì)性,GCN 來(lái)建模多模態(tài)生理信號(hào)的相關(guān)性,并用 GRU 來(lái)提取多模態(tài)生理信號(hào)時(shí)域和頻域間的依賴(lài)關(guān)系。本文的主要貢獻(xiàn)可被概述如下:
構(gòu)建了多模態(tài)生理信號(hào)數(shù)據(jù)的時(shí)空和頻空?qǐng)D表示。
提出了一種基于圖的同時(shí)融合生理信號(hào)時(shí)-頻-空信息的雙流結(jié)構(gòu)。
同時(shí)提取了多模態(tài)生理數(shù)據(jù)的相關(guān)性和異質(zhì)性。
在公開(kāi)的多模態(tài)情緒識(shí)別數(shù)據(jù)集 DEAP 與 MAHNOB-HCI 上的實(shí)驗(yàn)表明,該模型相較基線(xiàn)方法有著出色的性能。
HetEmotionNet:雙流異質(zhì)圖遞歸神經(jīng)網(wǎng)絡(luò)
▲ 圖4:模型架構(gòu)圖
模型由結(jié)構(gòu)一致但相互獨(dú)立的時(shí)空流與頻空流組成,它們分別用于提取多模態(tài)生理信號(hào)的時(shí)空特征與頻空特征,輸入分別為構(gòu)建的時(shí)空和頻空?qǐng)D序列。每一流都是一個(gè)異質(zhì)圖遞歸神經(jīng)網(wǎng)絡(luò),由圖轉(zhuǎn)換網(wǎng)絡(luò)(Graph Tansformer Network),圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolution Network)和門(mén)控循環(huán)單元層(Gated Recurrent Units)組合而成。最后,本文將兩流網(wǎng)絡(luò)提取得到的時(shí)頻空域特征融合并用于情緒分類(lèi)。
我們的模型的關(guān)鍵點(diǎn)有以下三個(gè):
設(shè)計(jì)了一種面向多模態(tài)情緒識(shí)別的異質(zhì)時(shí)空和頻空?qǐng)D表示。
通過(guò)整合基于圖的時(shí)空流和頻空流在一個(gè)模型中來(lái)同時(shí)提取和融合多模態(tài)生理信號(hào)的時(shí)頻空特征。
采用了 GTN 來(lái)建模多模態(tài)生理數(shù)據(jù)的異質(zhì)性;GCN 來(lái)捕獲不同通道數(shù)據(jù)間的相關(guān)性。GRU 來(lái)捕獲時(shí)域和頻域中的依賴(lài)關(guān)系。
(1)異質(zhì)圖構(gòu)造
對(duì)于每個(gè)樣本,我們分別構(gòu)建了一個(gè)異質(zhì)的時(shí)空?qǐng)D序列和一個(gè)異質(zhì)的頻空?qǐng)D序列,如圖 5 所示。這些異質(zhì)圖被用來(lái)描述多模態(tài)信號(hào)時(shí)域信息和頻域信息在空間上的分布。我們主要分成以下三個(gè)步驟來(lái)構(gòu)建時(shí)空?qǐng)D序列:
先計(jì)算一個(gè)樣本內(nèi)不同通道間 128 個(gè)時(shí)間點(diǎn)數(shù)據(jù)的互信息值作為邊的權(quán)重和鄰接矩陣。步驟如圖 5 中 ① 所示。
為了構(gòu)造異質(zhì)圖,我們分別將每個(gè)時(shí)間點(diǎn)的所有通道的值作為節(jié)點(diǎn)特征并和上一步計(jì)算得到的鄰接矩陣構(gòu)成了異質(zhì)圖。步驟如圖 5 中 ② 所示。
最后我們將 128 個(gè)時(shí)間點(diǎn)構(gòu)建的異質(zhì)圖拼接起來(lái)構(gòu)成了異質(zhì)時(shí)空?qǐng)D序列。步驟如圖 5 中 ③ 所示。
與構(gòu)建時(shí)空?qǐng)D序列類(lèi)似,本文也構(gòu)建了頻空?qǐng)D序列:
?首先對(duì)每個(gè)通道的值分別在四個(gè)頻段上計(jì)算差分熵(DE)特征,步驟如圖 5中 ④ 所示。
然后分別將每個(gè)頻帶的所有通道值作為節(jié)點(diǎn)特征并和鄰接矩陣組成了異質(zhì)圖,步驟如圖 5 中 ⑤ 所示。
最后將四個(gè)頻帶構(gòu)建的異質(zhì)圖拼接得到異質(zhì)頻空?qǐng)D序列。步驟如圖 5 中 ⑥ 所示。
▲ 圖5:異質(zhì)圖序列構(gòu)造過(guò)程
(2)異質(zhì)圖遞歸神經(jīng)網(wǎng)絡(luò)的組成
由于模型的時(shí)空流和頻空流有著相同的結(jié)構(gòu),都是一個(gè)異質(zhì)圖遞歸神經(jīng)網(wǎng)絡(luò),所以我們以時(shí)空流為例介紹。異質(zhì)圖遞歸神經(jīng)網(wǎng)絡(luò)由圖轉(zhuǎn)換網(wǎng)絡(luò)(GTN),圖神經(jīng)網(wǎng)絡(luò)(GCN)和門(mén)控循環(huán)單元(GRU)構(gòu)成。三個(gè)部分的作用分別如下:
GTN 主要通過(guò)從異質(zhì)圖中自動(dòng)提取一些元路徑(即不同通道間的關(guān)系)來(lái)建模多模態(tài)數(shù)據(jù)的異質(zhì)性。
GCN 利用 GTN 提取得到的元路徑進(jìn)行圖卷積。對(duì)于相同的節(jié)點(diǎn)特征,文中分別為使用不同元路徑的結(jié)果設(shè)置了不同的權(quán)重并進(jìn)行了加權(quán)求和以重新構(gòu)筑提取后的時(shí)空?qǐng)D序列。
GRU 利用 GCN 得到的圖序列來(lái)建模不同時(shí)間點(diǎn)。對(duì)于提取得到的圖序列,文中將每個(gè)時(shí)間點(diǎn)的圖對(duì)應(yīng)的送入 GRU 層相應(yīng)的單元并將提取后所有單元的信息拼接起來(lái)送入分類(lèi)器進(jìn)行分類(lèi)。
實(shí)驗(yàn)
本文在 DEAP 與 MAHNOB-HCI 兩個(gè)多模態(tài)情緒識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并對(duì)模型進(jìn)行評(píng)估,結(jié)果如下:
HetEmotionNet 在兩個(gè)數(shù)據(jù)集上均取得了優(yōu)于所有基線(xiàn)方法的性能。我們認(rèn)為模型分類(lèi)性能提升的原因有以下幾點(diǎn):
1. 不同于現(xiàn)有的方法,HetEmotionNet 在基于圖的結(jié)構(gòu)下同時(shí)捕獲了多模態(tài)生理信號(hào)的時(shí)-頻-空域特征,并利用了各種特征之間的互補(bǔ)性進(jìn)行情緒分類(lèi)。
2. 同時(shí)建模了多模態(tài)生理信號(hào)數(shù)據(jù)的異質(zhì)性和相關(guān)性并提升了分類(lèi)表現(xiàn)。
結(jié)論
本文提出了一種多模態(tài)情緒識(shí)別模型 HetEmotionNet。該模型使用基于圖的雙流結(jié)構(gòu)同時(shí)捕獲多模態(tài)生理信號(hào)的時(shí)-頻-空三類(lèi)特征;同時(shí)該模型利用了 GTN 來(lái)建模多模態(tài)生理信號(hào)的異質(zhì)性,GCN 來(lái)建模多模態(tài)生理信號(hào)的相關(guān)性并用 GRU 來(lái)提取多模態(tài)生理信號(hào)時(shí)域和頻域間的依賴(lài)關(guān)系。在公開(kāi)的多模態(tài)情緒識(shí)別數(shù)據(jù)集 DEAP 與 MANODB-HCI 上的實(shí)驗(yàn)表明,該模型有著出色的性能并優(yōu)于基線(xiàn)方法。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對(duì)于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
·
總結(jié)
以上是生活随笔為你收集整理的ACM MM 2021 | 面向多模态情绪识别的双流异质图递归神经网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 两概率分布交叉熵的最小值是多少?
- 下一篇: 外地人可以买上海新能源二手车吗现在?