乱码 讯飞 语音识别_一段讯飞、百度等语音识别API无法识别的语音最终解决办法...
最近在做語音識(shí)別、字幕扒詞相關(guān)的工作,遇到了一段錄音(https://download.csdn.net/download/u014220286/12169183,各位有興趣的可以下載下來試試),音質(zhì)什么的和其他處理過的無二異,也是普通話,照常理說應(yīng)該能識(shí)別出來,可為了類似這樣的語音丟了工作機(jī)會(huì)(前一次沒重視人工速錄交了,后來又遇到了,琢磨了好長(zhǎng)時(shí)間解決了,過了交稿時(shí)間,產(chǎn)生信任危機(jī)了,沒有機(jī)會(huì)合作了。)記錄下這次的解決過程,希望給你有需要的人幫助。
首先用ffmpeg查看該音頻,發(fā)現(xiàn)是32是浮點(diǎn)數(shù),立體聲,轉(zhuǎn)成16K單聲道的,沒有解決,后來想到是不是因?yàn)樵肼暤木壒?#xff0c;做了噪聲消除后效果依舊;甚至懷疑到了和聲音內(nèi)容有關(guān)(兩次音頻都是和法律相關(guān)的),以前也做過庭審的例子,拿出來用ffmpeg查看音頻信息,摸索半天發(fā)現(xiàn)可能是聲道的問題。
找到了問題可能的點(diǎn),于是在強(qiáng)大的音頻處理軟件audacity中進(jìn)行了嘗試,具體步驟如下:
在audacity中導(dǎo)入音頻,在左側(cè)面板中下拉三角的菜單中選擇“分離立體聲”,分離好后“禁用”一個(gè)聲道,然后在菜單中選擇“導(dǎo)出”,導(dǎo)出音頻,導(dǎo)出的音頻就可以識(shí)別了。
雖然沒有嘗試用程序解決,但有了方法,又不太耗時(shí),總算解決了一個(gè)難點(diǎn),下次不至于為此類問題失去工作機(jī)會(huì)了。
解決前訊飛的識(shí)別結(jié)果:
處理后的識(shí)別結(jié)果:
HTWCore下載:
鏈接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取碼:qs52
或者加QQ群:414750884
總結(jié)
以上是生活随笔為你收集整理的乱码 讯飞 语音识别_一段讯飞、百度等语音识别API无法识别的语音最终解决办法...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php论坛系统教程,国内php原创论坛
- 下一篇: c3p0 参数 模糊查询_Hiberna