从零开始语音识别(5)--- 端到端的语音识别系统
為什么需要端到端的系統
- 傳統語音識別系統非常復雜,需要分別訓練聲學模型、語言模型、發音模型
- 需要領域特殊的專業知識
通過端到端的模型可以直接將輸入的聲學特征轉變為文本
端到端語音識別系統介紹
Seq2Seq
此模型長用于機器翻譯、語音識別。其優點是輸入輸出不需要等長,而且兩者長度不固定。
此模型包含兩個RNN結構,分別用于編碼與解碼。Decoder網絡直到解碼的序列是END才停止,因此可以實現變長的輸出。Encoder將輸入進行編碼,將整個輸入的隱狀態輸入給Decoder,可以實現輸入的變長。
seq2seq的瓶頸如圖中橙色方框標記所示,Encoder與Decoder之間傳遞信息是通過Encoder最后一個的隱狀態。如果輸入的整個句子比較長那么和有可能最后一個隱狀態所包含的信息不夠。因此可以通過Attention解決這個問題。
Attention
關鍵點:在decoder的每一個步,只關注句子的特定部分。
從Attention官網中截取的圖片可以看到,Decoder通過Attention機制生成的d1d_1d1?隱狀態更關注于Encoder的e1e_1e1?、e2e_2e2?這兩個隱狀態。
將Encoder的輸入換成語音特征就可以實現端到端的語音識別。
-
Attention具體的計算步驟:
(1)Decoder在t時刻的隱狀態sts_tst?,與encoder在t時刻的所有隱狀態進行點乘再進行softmax獲得sts_tst?在每個encoder隱狀態的分數。
(2)將得到的分數與Encoder的狀態相乘得到Attention的分布(Distribution)
(3)此分布再與Decoder進行向量相乘或其他操作得到最后的decoder隱藏層參數 -
Self-Attention
values和query只來自Decoder的其中一個,而在Attention中values是Encoder的隱狀態,query是Decoder的每一步。
這樣的好處是:能夠替換RNN,對時序進行建模;易并行,計算快 -
scaled Dot-Product Attention
圖中Q是query,V是value。Q,K,V如果是相同的向量或矩陣那么就是self-attention
-
Multi-head Attention
多個Attention共同的組合
也是Encoder、Decoder框架的一種
[1] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems. 2017.
4.CTC
核心觀點就是利用單個RNN實現將語音特征序列映射到文本序列。通過在輸出集合中引入空符號解決輸入與輸出不等長的問題。
5. RNN Transducer(RNN-T)
是對CTC的增強
RNN-T相比其他E2E模型的優點:
? 使用單向Encoder時,可以進行流式語音識別 ,也就是拿到一幀就可以解碼一步(主要是因為存在Pred.Network結構)
? LAS、Speech Transformer等必須等到一句話說完才
可以解碼
總結
以上是生活随笔為你收集整理的从零开始语音识别(5)--- 端到端的语音识别系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【报告分享】2019-2020动画电影市
- 下一篇: 网络工程专业毕业设计选题