基于情感脑电信号时-频-空特征的3D密集连接网络
?PaperWeekly 原創(chuàng) ·?作者|蔡晞陽
學(xué)校|北京交通大學(xué)
研究方向|時間序列分析與挖掘
?
?
本文介紹一篇北京交通大學(xué)網(wǎng)絡(luò)科學(xué)與智能系統(tǒng)研究所于計算機領(lǐng)域頂級會議 ACM MM 2020 發(fā)表的論文,該研究提出了一種基于注意力機制的 3D DenseNet 對多媒體刺激產(chǎn)生的情感腦電信號進行分類,該模型在統(tǒng)一的框架下同時提取數(shù)據(jù)中的空間、頻率、時間特征;并且設(shè)計了一種 3D 注意機制來自適應(yīng)地探索具有判別力的局部模式提升情緒分類效果,在現(xiàn)有的多個數(shù)據(jù)集上分類表現(xiàn)均為最優(yōu)。該文提出的模型是一個多變量腦電信號的通用框架,可以被拓展到其余信號分類任務(wù)中。
論文標(biāo)題:
SST-EmotionNet: Spatial-Spectral-Temporal based Attention 3D Dense Network for EEG Emotion Recognition
論文鏈接:
https://dl.acm.org/doi/abs/10.1145/3394171.3413724
代碼鏈接:
https://github.com/ziyujia/SST-EmotionNet
論文作者主頁:
https://ziyujia.github.io/
背景簡介
情緒會影響人類的行為,且在日常生活中發(fā)揮著重要作用。許多精神疾病與情緒有關(guān),例如自閉癥和抑郁癥。因此,情緒常被用作評估患者精神障礙的參考。越來越多的研究人員專注于針對特定刺激模式引起的不同情緒的腦電圖分析。研究主要集中在使用多媒體材料(包括圖像,聲音,文本等)設(shè)計實驗來刺激大腦并暴露其認(rèn)知活動以進行情感分類。
動機
2.1 挑戰(zhàn)
2.1.1 挖掘腦電信號時-頻-空特征的互補性
現(xiàn)存的腦電情緒模型大多僅單獨使用了腦電信號的時域、頻域、空域信息或是以上兩種特征的組合。這些模型忽略了腦電信號時-頻-空特征之間的互補性,會在一定程度上限制腦電分類模型的性能表現(xiàn)。如何利用腦電信號中時-頻-空特征之間的互補性,這是一個挑戰(zhàn)。
2.1.2 捕獲時-頻-空特征之間的局部特征
腦電信號的時-頻-空特征中會存在一些反映大腦情緒的局部特征。如圖中的紅框所示,受試者處于積極情緒時,大腦顳葉在頻段下的激活程度會比消極時更高。這些局部特征的存在有助于情緒的識別。因此,如何捕獲情緒識別任務(wù)中腦電信號的局部時-頻-空特征是另一個挑戰(zhàn)。
2.2 貢獻
1. 基于構(gòu)建的腦電的時-頻-空特征,我們提出了一種雙流 3D 密集連接網(wǎng)絡(luò),在統(tǒng)一的網(wǎng)絡(luò)框架下融合了腦電信號的時-頻-空特征;
2. 我們設(shè)計了一種并行的時-頻-空注意力機制,用于動態(tài)捕獲在不同腦區(qū)、頻段、時間之間的局部判別特征;
3. 在基準(zhǔn)數(shù)據(jù)集的實驗結(jié)果表明,提出的 SST-EmotionNet 優(yōu)于傳統(tǒng)的基線方法,取得了 SOTA 的性能。
數(shù)據(jù)表示與問題定義
腦電信號的 3D 表示的過程如圖。具體而言,在本研究中,定義 為長為 個時間點的 個 EEG 電極的數(shù)據(jù)。
利用各個電極的空間位置信息,我們 將變換成2D時間平面圖 , 和 分別為 2D 平面圖的高與寬。將所有時間點下形成的 個 2D 平面圖堆疊起來,我們能夠得到信號的 3D 時空表示:
?
我們定義??為包含了 B 個頻段的 EEG 信號的頻域特征。其中, 為在頻段 下的所有電極的數(shù)據(jù)。
與時域同理, 會被變換成 2D 頻域平面圖 。將所有頻段下形成的 個2D平面圖堆疊起來,我們能夠得到信號的 3D 頻空表示 。
此處,我們使用了 5 個頻段的 EEG 頻域特征,即 。
EEG 情緒識別問題被定義如下,模型需要學(xué)習(xí)一個映射函數(shù) ,將輸入映射到對應(yīng)的情緒標(biāo)簽:
此處 表示映射函數(shù), 表示情緒的分類標(biāo)簽。
SST-EmotionNet
SST-EmotionNet 的總體架構(gòu)如圖所示。我們總結(jié)了本文模型的四大關(guān)鍵點:
1. 基于構(gòu)建的腦電 3D 時-頻-空特征,在一個統(tǒng)一的網(wǎng)絡(luò)框架下融合了腦電信號的時-頻-空特征;
2. 提出了一種并行的空-頻/時注意力機制,用于動態(tài)捕獲在不同腦區(qū)、頻段、時間中的局部判別特征;
3. 設(shè)計了 3D 密集連接模塊和過渡層幫助特征重用,加強特征傳播過程,以達(dá)到更高的模型效率;
4. 使用偽 3D 模塊提高 3D 卷積的內(nèi)存效率與計算效率。
4.1 空-頻/時注意力機制
腦電信號在不同情緒狀態(tài)下的時-頻-空特征激活中且存在一些有判別力的局部特征。我們設(shè)計了一種空-頻/時注意力機制(SST-Attention)用于動態(tài)捕獲這些有價值的局部特征。SST-Attention 由兩個子組件構(gòu)成:空間注意力機制與頻段/時間注意力機制。
由于空-頻注意力機制與空-時注意力機制在結(jié)構(gòu)上較為相似,此處我們將以空-頻注意力機制為例進行展示。空-頻注意力機制組件的結(jié)構(gòu)如圖所示。首先,跨通道的全局池化(channel-wise global average pooling, cGAP)被用于減少計算成本,它被定義如下:
其中, 在通道維度 上退化可得到 ; 表示 cGAP 函數(shù); 表示在張量 的 處的跨通道數(shù)據(jù)向量。
4.1.1 空間注意力機制
空間注意力機制用于動態(tài)關(guān)注空間上對情緒識別任務(wù)有價值的大腦區(qū)域。最開始,跨頻段全局池化(band-wise global average pooling, bGAP)將用于退化頻段維度,其過程定義如下:
其中 表示頻域特征在空間上的分布情況,它由 退化頻段維度 得到; 表示 bGAP 函數(shù); 表示一個在張量 的 處的一個包含著跨頻段數(shù)據(jù)的向量。
隨后,空間注意力矩陣將由一個帶有 激活的全連接層得到:
其中 和 為可學(xué)習(xí)的參數(shù); 為歸一化后的 2D 空間注意力矩陣。
4.1.2 頻/時注意力機制
為了動態(tài)捕獲不同頻帶、時間點中對情緒識別有辨識度的特征,我們設(shè)計了頻/時注意力。以頻域注意力機制為例,我們首先對輸入的張量作空間全局池化(spatial-wise global average pooling, sGAP)用于退化空間維度,其過程定義如下:
其中, 表示頻域特征在不同頻帶上的分布情況,它由 退化空間維度 得到; 表示 sGAP 函數(shù); 表示 上第 個頻帶上對應(yīng)的平面。
而后,頻域注意力矩陣將由一個帶有 激活的全連接層得到:
其中 和? 為可學(xué)習(xí)參數(shù); 為歸一化后的頻域注意力矩陣。
在得到了空間注意力矩陣 與頻域注意力矩陣 以后,頻-空注意力機制被定義如下:
其中 代表逐元素相乘操作。在乘積操作過程中,頻域注意力與空間注意力的數(shù)值將會分別沿著空間維度與頻域維度被廣播。 為空-頻/時注意力機制的輸出張量。
4.2 3D密集連接模塊
為了加強特征傳播、達(dá)到更好的參數(shù)效率,受到 2D DenseNet 的啟發(fā),我們設(shè)計了一種 3D 密集連接模塊(3D Densely Connected Module, 3DCM)。每個 3DCM 由若干個密集連接的偽 3D 卷積組成。頻-空流中的 3DCM 結(jié)構(gòu)如圖所示。
密集連接:3DCM 中采用了密集連接機制。對于該模塊內(nèi)的第 層,它將前序的所有層的特征圖作為輸入:
其中 表示 進行拼接; 表示每層內(nèi)進行的偽 3D 卷積。
偽 3D 卷積:傳統(tǒng)的 3D 卷積核為 ,其中 為卷積核在空間維度的邊長、 為頻/空維度的長度,而傳統(tǒng) 3D 卷積的計算開銷較大。為了減少計算開銷,偽 3D 卷積將傳統(tǒng)的 的 3D 卷積核分解為了等價于空域上 2D 卷積的 卷積核的與時/頻域上的 1D 卷積的 卷積核。為了加快計算速度,我們在 3DCM 中使用偽 3D 卷積代替了傳統(tǒng)的 3D 卷積操作。這樣一來,前面的 可被定義為:
其中 表示偽 3D 卷積模塊的輸入; 表示捕獲空間特征的 2D 卷積; 表示捕獲頻域或時域 EEG 特征的 1D 卷積。
4.3 過渡層
為了提高模型的緊湊性,我們采用了 DenseNet 的一個重要組成部分——過渡層。過渡層通過減少特征圖的數(shù)量使模型變得緊湊。過渡層由一個 Batch Normalization 層、一個 的卷積層、一個 的平均池化層構(gòu)成。 的卷積層被用于減少特征圖的數(shù)量,平均池化層用來減小特征圖的大小。若一個 3DCM 包含 個特征圖,則跟隨它的過渡層將會輸出 個特征圖,其中 被稱為壓縮率。
4.4 融合分類層
SST-EmotionNet 從頻空流中提取腦電信號的頻空特征,并從時空流中提取腦電信號的時空特征。頻空流和時空流的輸出被融合層所融合,從而進行高精度分類。融合層由連接層和具有激活的完全連接層組成。
實驗
5.1 數(shù)據(jù)集
我們在 SEED(SJTU Emotion EEG Dataset)與 SEED-IV 數(shù)據(jù)集上評估了我們提出的模型。SEED 數(shù)據(jù)集包含來自 15 名受試者在 3 個時間段內(nèi)觀看的 15 個能夠誘發(fā) 3 種情緒電影片段的 EEG 記錄;SEED-IV 數(shù)據(jù)集則包含來自 15 名受試者在 3 個時間段內(nèi)觀看的 15 個能夠誘發(fā) 4 種情緒電影片段的 EEG 記錄。EEG 信號在 5 個頻帶下的差分熵特征(differential entropy, DE)被提取作為輸入的頻域特征。
5.2 結(jié)果
我們與 8 種 Baseline 方法進行了比較,結(jié)果如表 2 所示:
SST-EmotionNet 在兩個數(shù)據(jù)集上均取得了優(yōu)于所有基線方法的性能。我們推測模型分類性能提升原因有以下幾點:
1. 不同于現(xiàn)有的方法,SST-EmotionNet 同時捕獲腦電信號的空間、頻率、時間特征,并利用了各種特征之間的互補性進行情緒分類;
2. 空-頻/時注意力機制的引入使模型更專注于對情緒識別有辨識力的時-頻-空局部模式的識別,提升了分類表現(xiàn)。
5.3 消融實驗
為了進一步驗證我們模型各個組件的有效性,我們設(shè)計了一系列消融實驗。
雙流消融: 我們首先將雙流的模型結(jié)構(gòu)消融成了單流的模型結(jié)構(gòu),實驗結(jié)果如圖所示:
在使用雙流模型的情況下,模型的準(zhǔn)確率能夠比單獨使用時-空、頻-空流的模型分別高出 9.48% 與 3.51%。該結(jié)果表明利用不同特征之間的互補性能夠有效提高分類準(zhǔn)確率。
注意力機制消融: 我們對 SST-Attention 的兩個子組件分別進行了消融,實驗結(jié)果如圖所示:
在消融各個注意力機制時,各類評價指標(biāo)均有下降。如僅使用時/頻注意力機制的模型比原模型的分類準(zhǔn)確率下降了 1.94%,僅使用空間注意力機制的模型則下降了 3.30%。該實驗結(jié)果表明了 SST-Attention 模塊能夠捕獲有價值的局部特征從而提高模型的分類性能。
結(jié)論
本文提出了一種腦電情緒識別模型 SST-EmotionNet,該模型使用雙流的結(jié)構(gòu)同時捕獲腦電信號具有互補性的空間、頻率、時間三類特征;同時,設(shè)計了一種空-頻/時注意力機制,使該模型能夠動態(tài)關(guān)注一些對情緒識別任務(wù)較有辨識度的時-頻-空局部模式。在公開的腦電情緒識別數(shù)據(jù)集 SEED 與 SEED-IV 上的實驗表明,該模型有著出色的性能優(yōu)于傳統(tǒng)的基線方法。此外,該文提出的模型是一個多變量生理時間序列的通用框架,未來可以應(yīng)用于睡眠分期、疲勞駕駛監(jiān)測等相關(guān)領(lǐng)域中。
更多閱讀
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的基于情感脑电信号时-频-空特征的3D密集连接网络的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 直播 | 清华大学博士生姚远:对抗语言游
- 下一篇: 王者荣耀是谁开发的 腾讯推出的MOBA类