AI-语音处理理论和应用-语音识别、语音合成
學習目標
???? 了解語音處理的基礎知識及應用
???? 掌握語音處理的基本步驟
???? 掌握語音處理的主要技術
???? 了解語音處理的難點與展望
語音識別
???什么是語音識別技術
??????? 語音識別技術就是讓機器通過識別和理解把語音信號轉變為相應的文本或命令的技術。
??????? 語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。
???語音識別發展史
??????? 1952年,貝爾研究所研究成功了世界上第一個能識別10個英文數字發音的試驗系統;
??????? 1970年以后,在小詞匯和孤立詞的識別方面取得了實質性進展;
??????? 1980年以后,孤立詞轉向連接詞(識別一句話)識別;
??????? 1987年12月,李開復開發出世界上第一個“非特定人連續語音識別系統”,用統計方法提升了語音識別率;
??????? 1990年以后,大詞匯量連續語音識別得到優化;
??????? 1997年,IBM Viavoice首個語音聽寫產品問世;
??????? 2010年,Google Voive Action支持語音操作與搜索;
??????? 2011年初,微軟的DNN在語音搜索任務上取得成功,科大訊飛將DNN首次成功應用到中文語音識別領域;
??????? 2011年10月,蘋果iPhone 4S自帶的語音助手Siri一炮走紅;
??????? 2013年,Google發布Google Glass,蘋果發布iWatch都嵌入語音交互功能;
??????? 趨勢:
?????????? 語音識別任務越來越復雜
?????????? 用到的模型越來越復雜
?????????? 技術從實驗室走入生活
???語音識別任務處理流程
??????1.得到語音文件(mp3、wav……)
??????2.將語音文件進行還原
??????3.還原后進行預處理,滿足一定數據要求
??????4.通過聲學模型、分幀、聲學特征提取得到語言模型、單詞、文本文件
??????5.對于現代的語音識別的任務來說,有些過程是合并在一起的,成為一個end-to-end的形式
???語音識別的應用
??????? 語音打字機:說一句話快速翻譯出來;搜狗聽寫
??????? 語音搜索:購物網站購物可以通過語音搜索
??????? 語音撥號
??????? 語音助手
語音合成
???什么是語音合成
??????? 語音合成,又稱文語轉換(Text-To-Speech TTS)技術,能將任意文字信息轉化為相應語音朗讀出來。
??????? 語音合成涉及聲學、語言學、數字信號處理、計算機科學等多個學科技術,是中文信息處理領域的一項前沿技術。
??????? 為了合成出高質量的語言,除了依賴于各種規則,包括語義學規則、詞匯規則、語音學規則外,還必須對文字的內容有很好的理解,這也涉及到自然語言理解的問題。
???語音合成應用場景
??????大部分都和語音識別相結合,語音識別通過人向機器傳輸信息,語音合成通過機器向人傳輸信息;比如:
??????? 服務機器人
??????? 客服系統
??????? 智慧家具
??????? 出行導航
??????? 閱讀軟件
???語音合成系統
??????? 一個完整的語音合成系統過程是先將文字序列轉換成音韻序列,再由系統根據音韻序列生成語音波形。其中:
??????? 第一步涉及語言學處理,例如分詞、字音轉換等,以及一整套有效的音律控制規則;
??????? 第二步需要先進的語音合成技術,能按要求實時合成出高質量的語音流。
??????? 語音合成技術的研究已有兩百多年的歷史,但真正具有實用意義的近代語音合成技術是隨著計算機技術和數字信號處理技術的發展而發展起來的,主要是讓計算機能夠產生高清晰度、高自然度的連續語音。
???語音合成處理流程
??????1.拿到文本文件
??????2.對文本進行分析
?????????文本歸一化:把縮寫的詞完整化
?????????語音分析:分詞
?????????韻律分析:這句話代表什么情緒、代表什么角色
??????3.語音內部表示
??????4.波形合成
??????5.形成完整的波形文件
??????6.對波形文件進行評估看是否滿足需求
???文本分析
??????? 語音識別中的文本分析主要的工作是把文本數據轉換成語音內部表示(Phonemic Internal Representation)。具體內容包括:
??????? 文本歸一化:對形形色色的自然文本數據進行預處理或者歸一化,包括句子的詞例還原,非標準詞,同形異義詞排歧等;
??????? 語音分析:文本歸一化之后的下一步就是語音分析,具體方法包括通過大規模發音詞典,字位-音位轉換規則;
??????? 韻律分析:分析文本中的平仄格式和押韻規則,這里主要包含三方面的內容,包括:韻律的機構,韻律的突顯度,音調。
???語音合成方法
??????? 在語音合成技術的發展過程中,早期的研究主要是采用參數合成方法,后來隨著計算機技術的發展又出現了波形拼接的合成方法。
??????? 參數合成
?????????? 在語音合成技術的發展中,早期的研究主要是采用參數合成方法。值得提及的是Holmes的并聯共振峰合成器(1973)和Klatt的串/并聯共振峰合成器(1980),只要精心調整參數,這兩個合成器都能合成出非常自然的語音。但準確提取共振峰參數比較困難,合成語音的音質難以達到實用要求。
??????? 波形拼接
?????????? 自八十年代末期至今,語言合成技術又有了新的進展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基于時域波形拼接方法合成的語音的音色和自然度大大提高,自然度比以前基于LPC方法或共振峰合成器的自然度要高,并且基于PSOLA方法的合成器結構簡單,易于實時實現,有很大的商用前景。
總結
以上是生活随笔為你收集整理的AI-语音处理理论和应用-语音识别、语音合成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关闭windows defender教程
- 下一篇: Netplus收发消息的基本流程