启明云端WT516P6Core离线语音模块发布后,开发者朋友提出的问题最多的是:是否可以自己编译指令
關于這個問題,開發者朋友后期可以在esp32.8ms.xyz.平臺上進行二次開發,方便定制,目前正在完善測試中,很快發布。
目前市面上的離線語音大多無法做到自定義控制指令,用戶如果需要按照業務場景自行編輯,就無法實現;
WT516P6Core離線語音模塊暫時是出廠前都會燒上固件程序,配上麥和喇叭就可以了。方便開發愛好者做測試應用。
離線語音模塊麥和喇叭的選擇
A: 靈敏度 -32dbm 信噪比65db
驅動Speaker 1.8W x 1 @ 8Ω; 2.9W x 1 @ 4Ω
模塊默認波特率:115200
語音控制方式因為簡單、自然、高度符合人類的交互習慣,已經越來越受到用戶的青睞。之前為大家介紹了啟明云端通過ESP32不需要連接中間環節直連天貓精靈和亞馬遜AWS的方案,今天重點推介本周新品–WT516P6Core 離線語音模塊。
推薦理由:
低功耗、低成本、高集成嵌入式音頻模塊,串口傳輸,方便與主MCU通訊
支持100條語音命令,支持喚醒詞、命令詞、回復播報語自定義
可自由設置發音人音色配置
支持雙語控制,普通話、英語隨你選
內嵌智能降噪算法,語音識別距離可支持5M遠講
語音識別響應時間200~600ms
最重點的是:AI語音算法是基于深度學習,已經做過多標簽多場景訓練學習,用戶在應用中,不需要重新對定義的指令進行訓練學習。
語音算法:語音識別研究的根本目的是研究出一種具有聽覺功能的機器,能直接接受人的口呼命令,理解人的意圖并作出相應的反應。語音算法是根據語音來檢索和識別詞語的算法,語音算法一般建立在聲學模型上,通過語音算法學習的知識,對語音進行識別并進行檢索。
聲學模型是語音識別系統中最底層的模型并且也是識別系統最關鍵的一部分。聲學模型的目的是提供一種有效的方法計算語音的特征矢量系列與每個發音模板的距離,因為發音在每個時刻都受到其前后發音的影響,為了模仿自然連續語音中的協同發音的作用和鑒別這些協同發音,通常要使用復雜的聲學模型,聲學模型單元的大小(字發音模型、半發音模型或音素模型)對語音訓練數據量大小、系統識別率、以及靈活性有較大的影響。對大詞匯量語音識別系統來講,通常識別單元小,則計算量也小,所需的模型存儲量也小,但帶來的問題是對應語音段的定位和分割較困難,識別模型規則也變得更復雜。通常大的識別單元在模型中應包括協同發音(指的是一個音受前后相鄰音的影響而發生變化,從發聲機理上看就是人的發聲器官在一個音轉向另一個音時其特性只能漸變,從而使得后一個音的頻譜與其他條件下的頻譜產生差異),這有利于提高系統的識別率,但要求的訓練數據相對增加。
檢測到語音的起點后就可以開始對檢測出來的語音信號段進行分析處理。從中抽取語音識別所需的信號特征,即對語音信號進行分析處理,去除對語音識別無關緊要的冗余信息,以獲得影響語音識別的重要信息。語音特征參數是分幀提取的,每幀特征參數一般構成一個矢量,因此語音特征量是一個矢量序列。
總結
以上是生活随笔為你收集整理的启明云端WT516P6Core离线语音模块发布后,开发者朋友提出的问题最多的是:是否可以自己编译指令的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ESP32彩屏开发板(WT32-SC01
- 下一篇: 启明云端WT32-CAM操作视频,让你快