【语音识别】基于DTW算法实现0~9数字含Matlab源码
1 簡介
語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術,語音識別是一門交叉學科。人們預計,不久的未來年,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別是人機交互里很重要的模塊,從PC時代到現在的移動互聯時代,人機交互由鼠標鍵盤走向智能手機、Pad等的多點觸摸。到了智能硬件時代,交互則更加多元,不僅有觸摸,還有基于語音、視覺的交互。原本是以機器為中心的人機交互,逐漸走向以人為中心的自然交互。
語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。語音識別常見的五種算法:動態時間伸縮算法(Dynamic Time Warping,DTW)、基于規則的人工智能、人工神經網絡(Artificial Neural Network,ANN)方法、隱馬爾可夫(Hidden Markov Model、HMM)方法,HMM和ANN混合模型。本文利用MATLAB強大的數學運算能力,實現孤立語音信號的識別。本文應用DTW為識別算法,采用MFCC(MEL頻率倒譜系數)為主要語音特征參數。其中包括語音信號處理,特征參數提取,識別模板訓練,識別匹配算法。識別效果可以達到預期。
DTW算法原理:在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動態時間歸整)算法,該算法基于動態規劃(DP)的思想,解決了發音長短不一的模板匹配問題,是語音識別中出現較早、較為經典 的一種算法。
用于孤立詞識別,DTW算法與HMM算法在訓練階段需要提供大量的語音數據,通過反復計
總結
以上是生活随笔為你收集整理的【语音识别】基于DTW算法实现0~9数字含Matlab源码的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [html] 请说说你在写布局时对于浏
- 下一篇: [html] 如何优化大数据列表(10