语音情感识别----语音特征集之eGeMAPS,ComParE,09IS,BoAW
一:LLDs特征和HSFs特征
(1)首先區(qū)分一下frame和utterance,frame就是一幀語音。utterance是一段語音,是比幀高一級的語音單位,通常指一句話,一個語音樣本。utterance由多幀語音組成,通常對一個utterance做分幀來得到多幀信號。
(2)LLDs(low level descriptors)LLDs指的是手工設(shè)計的一些低水平特征,一般是在一幀語音上進行的計算,是用來表示一幀語音的特征。
(3)HSFs(high level statistics functions)是在LLDs的基礎(chǔ)上做一些統(tǒng)計而得到的特征,比如均值,最大值等等。HSFs是對utterance上的多幀語音做統(tǒng)計,所以是用來表示一個utterance的特征。
(4)后面講的一些特征集,是由一些專家設(shè)計的一些特征,包括了LLDs和HSFs。
二:GeMAPS特征集
(1)GeMAPS特征集總共62個特征,這62個都是HSF特征,是由18個LLD特征計算得到。下面先介紹18個LLD特征,然后介紹62個HSF特征。這里只簡單介紹每個特征的概念,不涉及具體計算細節(jié)。
(2)18個LLD特征包括6個頻率相關(guān)特征,3個能量/振幅相關(guān)特征,9個譜特征。
(3)基音F0的概念:先理解一個常用的概念,基音,通常記作F0(F0一般也指基音頻率),一般的聲音都是由發(fā)音體發(fā)出的一系列頻率、振幅各不相同的振動復(fù)合而成的。這些振動中有一個頻率最低的振動,由它發(fā)出的音就是基音,其余為泛音。
(4)6個頻率相關(guān)特征包括:Pitch(log F0,在半音頻率尺度上計算,從27.5Hz開始);Jitter(單個連續(xù)基音周期內(nèi)的偏差,偏差衡量的是觀測變量與特定值的差,如果沒有指明特定值通常使用的是變量的均值);前三個共振峰的中心頻率,第一個共振峰的帶寬。
(5)3個能量/振幅的特征包括:Shimmer(相鄰基音周期間振幅峰值之差),Loudness(從頻譜中得到的聲音強度的估計,可以根據(jù)能量來計算),HNR(Harmonics-to-noise)信噪比。
(6)9個譜特征包括,Alpha Ratio(50-1000Hz的能量和除以1-5kHz的能量和),Hammarberg Index(0-2kHz的最強能量峰除以2-5kHz的最強能量峰),Spectral Slope 0-500 Hz and 500-1500 Hz(對線性功率譜的兩個區(qū)域0-500 Hz和500-1500 Hz做線性回歸得到的兩個斜率),Formant 1, 2, and 3 relative energy(前三個共振峰的中心頻率除以基音的譜峰能量),Harmonic difference H1-H2(第一個基音諧波H1的能量除以第二個基音諧波的能量),Harmonic difference H1-A3(第一個基音諧波H1的能量除以第三個共振峰范圍內(nèi)的最高諧波能量)。
(7)對18個LLD做統(tǒng)計,計算的時候是對3幀語音做symmetric moving average。首先計算算術(shù)平均和coefficient of variation(計算標準差然后用算術(shù)平均規(guī)范化),得到36個統(tǒng)計特征。然后對loudness和pitch運算8個函數(shù),20百分位,50百分位,80百分位,20到80百分位之間的range,上升/下降語音信號的斜率的均值和標準差。這樣就得到16個統(tǒng)計特征。上面的函數(shù)都是對voiced regions(非零的F0)做的。對Alpha Ratio,Hammarberg Index,Spectral Slope 0-500 Hz and 500-1500 Hz做算術(shù)平均得到4個統(tǒng)計特征。另外還有6個時間特征,每秒loudness峰的個數(shù),連續(xù)voiced regions(F0>0)的平均長度和標準差,unvoiced regions(F0=0)的平均長度和標準差,每秒voiced regions的個數(shù)。36+16+4+6得到62個特征。
三:eGeMAPS特征集
(1)eGeMAPS是GeMAPS的擴展,在18個LLDs的基礎(chǔ)上加了一些特征,包括5個譜特征:MFCC1-4和Spectral flux(兩個相鄰幀的頻譜差異)和2個頻率相關(guān)特征:第二個共振峰和第三個共振峰的帶寬。
(2)對這擴展的7個LLDs做算術(shù)平均和coefficient of variation(計算標準差然后用算術(shù)平均規(guī)范化)可以得到14個統(tǒng)計特征。對于共振峰帶寬只在voiced region做,對于5個譜特征在voiced region和unvoiced region一起做。
(3)另外,只在unvoiced region計算spectral flux的算術(shù)平均,然后只在voiced region計算5個譜特征的算術(shù)平均和coefficient of variation,得到11個統(tǒng)計特征。
(4)另外,還加多一個equivalent sound level 。
(5)所以總共得到14+11+1=26個擴展特征,加上原GeMAPS的62個特征,得到88個特征,這88個特征就是eGeMAPS的特征集。
四:ComParE特征集
(1)ComParE,Computational Paralinguistics ChallengE,是InterSpeech上的一個挑戰(zhàn)賽,從13年至今(2018年),每年都舉辦,每年有不一樣的挑戰(zhàn)任務(wù)。
(2)從13年開始至今(2018年),ComParE的挑戰(zhàn)都會要求使用一個設(shè)計好的特征集,這個特征集包含了6373個靜態(tài)特征,是在LLD上計算各種函數(shù)得到的,稱為ComParE特征集。
(3)可以通過openSmile開源包來獲得,另外前面提到的eGeMAPS也可以用openSmile獲得。
五:2009 InterSpeech挑戰(zhàn)賽特征
(1)前面說的6373維特征集ComparE是13年至今InterSpeech挑戰(zhàn)賽中用的。(2)有論文還用了09年InterSpeech上Emotion Challenge提到的特征,總共有384個特征,計算方法如下。
(3)首先計算16個LLD,過零率,能量平方根,F0,HNR(信噪比,有些論文也叫vp,voice probability 人聲概率),MFCC1-12,然后計算這16個LLD的一階差分,可以得到32個LLD。
(4)對這32個LLD應(yīng)用12個統(tǒng)計函數(shù),最后得到32x12 = 384個特征。
(5)同樣可以通過openSmile來獲得。
(6)另外還有2010年InterSpeech的Paralinguistic Challenge上的特征,稱為10IS,共有1582維特征。也可以從openSmile中獲得,這工具挺好的,可以幫你提取很多特征,建議使用。
六:BoAW
(1)BoAW,bag-of-audio-words,是特征的進一步組織表示,是根據(jù)一個codebook對LLDs做計算得到的。這個codebook可以是k-means的結(jié)果,也可以是對LLDs的隨機采樣。
(2)在論文會看到BoAW特征集的說法,指的是某個特征集的BoAW形式。比如根據(jù)上下文“使用特征集有ComparE和BoAW”,可以知道,這樣的說法其實是指原來的特征集ComparE,和ComparE經(jīng)過計算后得到的BoAW表示。
(3)可以通過openXBOW開源包來獲得BoAW表示。
七:YAAFE特征:
(1)使用YAAFE庫提取到的特征,具體特征見YAAFE主頁。
八:參考資料
[1]?論文:eGeMAPS特征集(2016 IEEE trans on Affective Computing)
[2]?論文:2013 InterSpeech ComparE挑戰(zhàn)賽(2013 InterSpeech)
[3]?論文:2009 InterSpeech情感挑戰(zhàn)(2009 InterSpeech)
[4]?論文:BoAW用于語音情感識別(2016 InterSpeech)
[5]?YAAFE主頁
總結(jié)
以上是生活随笔為你收集整理的语音情感识别----语音特征集之eGeMAPS,ComParE,09IS,BoAW的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 损失函数|交叉熵损失函数
- 下一篇: Linux系统下解压缩安装MongoDB