语音识别声学模型介绍
關(guān)于聲學模型,主要有兩個問題,分別是特征向量序列的可變長和音頻信號的豐富變化性。可變長特征向量序列問題在學術(shù)上通常有動態(tài)時間規(guī)劃(Dynamic Time Warping, DTW)和隱馬爾科夫模型(Hidden Markov Model, HMM)方法來解決。而音頻信號的豐富變化性是由說話人的各種復(fù)雜特性或者說話風格與語速、環(huán)境噪聲、信道干擾、方言差異等因素引起的。聲學模型需要足夠的魯棒性來處理以上的情況。
在過去,主流的語音識別系統(tǒng)通常使用梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)或者線性感知預(yù)測(Perceptual Linear Prediction, PLP)作為特征,使用混合高斯模型-隱馬爾科夫模型(GMM-HMM)作為聲學模型。在近些年,區(qū)分性模型,比如深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)在對聲學特征建模上表現(xiàn)出更好的效果。基于深度神經(jīng)網(wǎng)絡(luò)的聲學模型,比如上下文相關(guān)的深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫模型(CD-DNN-HMM)在語音識別領(lǐng)域已經(jīng)大幅度超越了過去的GMM-HMM模型。
我們首先介紹傳統(tǒng)的GMM-HMM聲學模型,然后介紹基于深度神經(jīng)網(wǎng)絡(luò)的聲學模型。
1.3. 傳統(tǒng)聲學模型(GMM-HMM)
HMM模型對時序信息進行建模,在給定HMM的一個狀態(tài)后,GMM對屬于該狀態(tài)的語音特征向量的概率分布進行建模。
1.3.1. 混合高斯模型
如果一個連續(xù)隨機變量服從混合高斯分布,則它的概率密度函數(shù)為
混合高斯模型分布最明顯的性質(zhì)是它的多模態(tài),這使得混合高斯模型可以描述很多顯示出多模態(tài)性質(zhì)的屋里數(shù)據(jù),比如語音數(shù)據(jù),而單高斯分布則不合適。數(shù)據(jù)中的多模態(tài)性質(zhì)可能來自多種潛在因素,每一個因素決定分布中特定的混合成分。如果因素被識別出來,那么混合分布就可以被分解成有多個因素獨立分布的集合。
?
那么將上面公式推廣到多變量的多元混合高斯分布,就是語音識別上使用的混合高斯模型,其聯(lián)合概率密度函數(shù)的形式如下:
在得到混合高斯模型的形式后,需要估計混合高斯模型的一系列參數(shù)變量:=,我們主要采用最大期望值算法(Expectation Maximization, EM)進行參數(shù)估計,公式如下:
?
其中,j是當前迭代輪數(shù),?為t時刻的特征向量。GMM參數(shù)通過EM算法進行估計,可以使其在訓練數(shù)據(jù)上生成語音觀察特征的概率最大化。此外,GMM模型只要混合的高斯分布數(shù)目足夠多,GMM可以擬合任意精度的概率分布。
1.3.2. 隱馬爾可夫模型
為了描述語音數(shù)據(jù),在馬爾可夫鏈的基礎(chǔ)上進行了擴展,用一個觀測的概率分布與馬爾可夫鏈上的每個狀態(tài)進行對應(yīng),這樣引入雙重隨機性,使得馬爾可夫鏈不能被直接觀察,故稱為隱馬爾可夫模型。隱馬爾可夫模型能夠描述語音信號中不平穩(wěn)但有規(guī)律可學習的空間變量。具體的來說,隱馬爾可夫模型具有順序排列的馬爾可夫狀態(tài),使得模型能夠分段的處理短時平穩(wěn)的語音特征,并以此來逼近全局非平穩(wěn)的語音特征序列。
隱馬爾可夫模型主要有三部分組成。對于狀態(tài)序列···,
1. 轉(zhuǎn)移概率矩陣A=[],i,j[1,N],描述馬爾可夫鏈狀態(tài)間的跳轉(zhuǎn)概率:
=P(=j |?=i )
2. 馬爾可夫鏈的初始概率:,其中
3. 每個狀態(tài)的觀察概率分布,按照上一節(jié)的介紹,我們會采用GMM模型來描述狀態(tài)的觀察概率分布。在這種情況下,公式可以表述為:
?
隱馬爾可夫模型的參數(shù)通過Baum-Welch算法(在HMM上EM算法的推廣)進行估計。
?
1.4. CD-DNN-HMM
雖然GMM-HMM在以往取得了很多成功,但是隨著深度學習的發(fā)展,DNN模型展現(xiàn)出了明顯超越GMM模型的性能,替代了GMM進行HMM狀態(tài)建模。不同于GMM模型,DNN模型為了獲得更好的性能提升,引入了上下文信息(也即前后特征幀信息),所以被稱為CD-DNN-HMM(Context-Dependent DNN-HMM)模型。在很多測試集上CD-DNN-HMM模型都大幅度超越了GMM-HMM模型。
首先簡單介紹一下DNN模型,DNN模型是有一個有很多隱層的多層感知機,下圖就是具有5層的DNN,模型結(jié)構(gòu)上包括輸入層、隱層和輸出層。對于第層,有公式
?
其中?分別表示,L層的輸出向量,權(quán)重矩陣,輸入向量以及偏差向量(bias); f(·) 一般稱為激活函數(shù),常用的激活函數(shù)有sigmoid函數(shù)
或者整流線性單元(Rectifier Linear Unit)ReLU(x)=max(0,x)。在語音識別上應(yīng)用的DNN模型一般采用softmax將模型輸出向量進行歸一化,假設(shè)模型有 L 層,在特征向量為 O,輸出分類數(shù)為 C,則第 i 類的輸出概率為
?
相比于GMM模型,DNN模型具有一些明顯的優(yōu)勢:首先,DNN是一種判別模型,自身便帶有區(qū)分性,可以更好區(qū)分標注類別;其次,DNN在大數(shù)據(jù)上有非常優(yōu)異的表現(xiàn),伴隨著數(shù)據(jù)量的不斷增加,GMM模型在2000小時左右便會出現(xiàn)性能的飽和,而DNN模型在數(shù)據(jù)量增加到1萬小時以上時還能有性能的提升;另外,DNN模型有更強的對環(huán)境噪聲的魯棒性,通過加噪訓練等方式,DNN模型在復(fù)雜環(huán)境下的識別性能甚至可以超過使用語音增強算法處理的GMM模型。
除此之外,DNN還有一些有趣的性質(zhì),比如,在一定程度上,隨著DNN網(wǎng)絡(luò)深度的增加,模型的性能會持續(xù)提升,說明DNN伴隨模型深度的增加,可以提取更有表達性、更利于分類的特征;人們利用這一性質(zhì),提取DNN模型的Bottle-neck特征,然后在訓練GMM-HMM模型,可以取得和DNN模型相當?shù)恼Z音識別效果。
DNN應(yīng)用到語音識別領(lǐng)域后取得了非常明顯的效果,DNN技術(shù)的成功,鼓舞著業(yè)內(nèi)人員不斷將新的深度學習工具應(yīng)用到語音識別上,從CNN到RNN再到RNN與CTC的結(jié)合等等,伴隨著這個過程,語音識別的性能也在持續(xù)提升,未來我們可以期望將可以和機器進行無障礙的對話。
總結(jié)
以上是生活随笔為你收集整理的语音识别声学模型介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: arcmap点图层获取tif图像素值,A
- 下一篇: locales 删除不必要的语言环境