人工智能之语音识别技术(三)
生活随笔
收集整理的這篇文章主要介紹了
人工智能之语音识别技术(三)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 語音識別系統框架
1.1 語音識別系統的基本內容
- 語音特征特區
- 聲學模型
- 語言模型
語音識別系統的框架如圖所示,首先語音信號經過特征提取轉換成數字語音信號,然后結合聲學模型和語言模型對數字信號進行解碼,最后完成語音的識別。
2 語音特征提取
2.1 音頻信號提取
- 在任意一個語音識別系統中,第一步就是提取特征。換句話說,我們需要把音頻信號中具有辨識性的成分提取出來。
- 語音通常是指人說話的聲音。從生物學的角度來看,是氣流通過聲帶、咽喉、口腔、鼻腔等發出聲音;從信號的角度來看,不同位置的震動頻率不一樣,最后的信號是由基頻和一些諧波構成。
2.3 聲譜圖
- 語音被分為很多幀,每幀語音都對應于一個頻譜(通過短時FFT計算),頻譜表示頻率與能量的關系。在實際使用中,頻譜圖有三種,即線性振幅譜、對數振幅譜、自功率譜
2.4 聲譜圖旋轉
- 先將其中一幀語音的頻譜通過坐標表示出來。現在我們將左邊的頻譜旋轉90度。得到中間的圖。然后把這些幅度映射到一個灰度級表示。
2.5 spectrogram聲譜圖
- 我們會得到一個隨著時間變化的頻譜圖,這個就是描述語音信號的spectrogram聲譜圖。
3 聲學模型
3.1 聲學模型
- 首先回顧一下語音識別的任務,輸入input是音頻wav文件,保存的一般是經過抽樣量化編碼之后數字信號,也就是每個樣點的值。輸出是文字序列,代表這段音頻的內容。
3.2 主流的聲學模型建模技術
- 深度神經網絡超強的特征學習能力大大簡化了特征抽取的過程,降低了建模對于專家經驗的依賴,因此建模流程逐步從之前復雜多步的流程轉向了簡單的端到端的建模流程。
總結
以上是生活随笔為你收集整理的人工智能之语音识别技术(三)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能之语音识别技术(二)
- 下一篇: 自然语言处理综述(一)