當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW

發(fā)布時間：2025/3/12 编程问答 16 豆豆

生活随笔收集整理的這篇文章主要介紹了语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一：LLDs特征和HSFs特征
（1）首先區(qū)分一下frame和utterance，frame就是一幀語音。utterance是一段語音，是比幀高一級的語音單位，通常指一句話，一個語音樣本。utterance由多幀語音組成，通常對一個utterance做分幀來得到多幀信號。
（2）LLDs（low level descriptors）LLDs指的是手工設(shè)計的一些低水平特征，一般是在一幀語音上進行的計算，是用來表示一幀語音的特征。
（3）HSFs（high level statistics functions）是在LLDs的基礎(chǔ)上做一些統(tǒng)計而得到的特征，比如均值，最大值等等。HSFs是對utterance上的多幀語音做統(tǒng)計，所以是用來表示一個utterance的特征。
（4）后面講的一些特征集，是由一些專家設(shè)計的一些特征，包括了LLDs和HSFs。

二：GeMAPS特征集
（1）GeMAPS特征集總共62個特征，這62個都是HSF特征，是由18個LLD特征計算得到。下面先介紹18個LLD特征，然后介紹62個HSF特征。這里只簡單介紹每個特征的概念，不涉及具體計算細節(jié)。
（2）18個LLD特征包括6個頻率相關(guān)特征，3個能量/振幅相關(guān)特征，9個譜特征。
（3）基音F0的概念：先理解一個常用的概念，基音，通常記作F0（F0一般也指基音頻率），一般的聲音都是由發(fā)音體發(fā)出的一系列頻率、振幅各不相同的振動復(fù)合而成的。這些振動中有一個頻率最低的振動，由它發(fā)出的音就是基音，其余為泛音。
（4）6個頻率相關(guān)特征包括：Pitch（log F0，在半音頻率尺度上計算，從27.5Hz開始）；Jitter（單個連續(xù)基音周期內(nèi)的偏差，偏差衡量的是觀測變量與特定值的差，如果沒有指明特定值通常使用的是變量的均值）；前三個共振峰的中心頻率，第一個共振峰的帶寬。
（5）3個能量/振幅的特征包括：Shimmer（相鄰基音周期間振幅峰值之差），Loudness（從頻譜中得到的聲音強度的估計，可以根據(jù)能量來計算），HNR（Harmonics-to-noise）信噪比。
（6）9個譜特征包括，Alpha Ratio（50-1000Hz的能量和除以1-5kHz的能量和），Hammarberg Index（0-2kHz的最強能量峰除以2-5kHz的最強能量峰），Spectral Slope 0-500 Hz and 500-1500 Hz（對線性功率譜的兩個區(qū)域0-500 Hz和500-1500 Hz做線性回歸得到的兩個斜率），Formant 1, 2, and 3 relative energy（前三個共振峰的中心頻率除以基音的譜峰能量），Harmonic difference H1-H2（第一個基音諧波H1的能量除以第二個基音諧波的能量），Harmonic difference H1-A3（第一個基音諧波H1的能量除以第三個共振峰范圍內(nèi)的最高諧波能量）。
（7）對18個LLD做統(tǒng)計，計算的時候是對3幀語音做symmetric moving average。首先計算算術(shù)平均和coefficient of variation（計算標準差然后用算術(shù)平均規(guī)范化），得到36個統(tǒng)計特征。然后對loudness和pitch運算8個函數(shù)，20百分位，50百分位，80百分位，20到80百分位之間的range，上升/下降語音信號的斜率的均值和標準差。這樣就得到16個統(tǒng)計特征。上面的函數(shù)都是對voiced regions（非零的F0）做的。對Alpha Ratio，Hammarberg Index，Spectral Slope 0-500 Hz and 500-1500 Hz做算術(shù)平均得到4個統(tǒng)計特征。另外還有6個時間特征，每秒loudness峰的個數(shù)，連續(xù)voiced regions（F0>0）的平均長度和標準差，unvoiced regions（F0=0）的平均長度和標準差，每秒voiced regions的個數(shù)。36+16+4+6得到62個特征。

三：eGeMAPS特征集
（1）eGeMAPS是GeMAPS的擴展，在18個LLDs的基礎(chǔ)上加了一些特征，包括5個譜特征：MFCC1-4和Spectral flux（兩個相鄰幀的頻譜差異）和2個頻率相關(guān)特征：第二個共振峰和第三個共振峰的帶寬。
（2）對這擴展的7個LLDs做算術(shù)平均和coefficient of variation（計算標準差然后用算術(shù)平均規(guī)范化）可以得到14個統(tǒng)計特征。對于共振峰帶寬只在voiced region做，對于5個譜特征在voiced region和unvoiced region一起做。
（3）另外，只在unvoiced region計算spectral flux的算術(shù)平均，然后只在voiced region計算5個譜特征的算術(shù)平均和coefficient of variation，得到11個統(tǒng)計特征。
（4）另外，還加多一個equivalent sound level 。
（5）所以總共得到14+11+1=26個擴展特征，加上原GeMAPS的62個特征，得到88個特征，這88個特征就是eGeMAPS的特征集。

四：ComParE特征集
（1）ComParE，Computational Paralinguistics ChallengE，是InterSpeech上的一個挑戰(zhàn)賽，從13年至今（2018年），每年都舉辦，每年有不一樣的挑戰(zhàn)任務(wù)。
（2）從13年開始至今（2018年），ComParE的挑戰(zhàn)都會要求使用一個設(shè)計好的特征集，這個特征集包含了6373個靜態(tài)特征，是在LLD上計算各種函數(shù)得到的，稱為ComParE特征集。
（3）可以通過openSmile開源包來獲得，另外前面提到的eGeMAPS也可以用openSmile獲得。

五：2009 InterSpeech挑戰(zhàn)賽特征
（1）前面說的6373維特征集ComparE是13年至今InterSpeech挑戰(zhàn)賽中用的。（2）有論文還用了09年InterSpeech上Emotion Challenge提到的特征，總共有384個特征，計算方法如下。
（3）首先計算16個LLD，過零率，能量平方根，F0，HNR（信噪比，有些論文也叫vp，voice probability 人聲概率），MFCC1-12，然后計算這16個LLD的一階差分，可以得到32個LLD。
（4）對這32個LLD應(yīng)用12個統(tǒng)計函數(shù)，最后得到32x12 = 384個特征。
（5）同樣可以通過openSmile來獲得。
（6）另外還有2010年InterSpeech的Paralinguistic Challenge上的特征，稱為10IS，共有1582維特征。也可以從openSmile中獲得，這工具挺好的，可以幫你提取很多特征，建議使用。

六：BoAW
（1）BoAW，bag-of-audio-words，是特征的進一步組織表示，是根據(jù)一個codebook對LLDs做計算得到的。這個codebook可以是k-means的結(jié)果，也可以是對LLDs的隨機采樣。
（2）在論文會看到BoAW特征集的說法，指的是某個特征集的BoAW形式。比如根據(jù)上下文“使用特征集有ComparE和BoAW”，可以知道，這樣的說法其實是指原來的特征集ComparE，和ComparE經(jīng)過計算后得到的BoAW表示。
（3）可以通過openXBOW開源包來獲得BoAW表示。

七：YAAFE特征：
（1）使用YAAFE庫提取到的特征，具體特征見YAAFE主頁。

八：參考資料
[1]?論文：eGeMAPS特征集（2016 IEEE trans on Affective Computing）
[2]?論文：2013 InterSpeech ComparE挑戰(zhàn)賽（2013 InterSpeech）
[3]?論文：2009 InterSpeech情感挑戰(zhàn)（2009 InterSpeech）
[4]?論文：BoAW用于語音情感識別（2016 InterSpeech）
[5]?YAAFE主頁

總結(jié)

以上是生活随笔為你收集整理的语音情感识别----语音特征集之eGeMAPS，ComParE，09IS，BoAW的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：损失函数｜交叉熵损失函数
下一篇： Linux系统下解压缩安装MongoDB