android 语音识别 离线,Android离线语音识别 PocketSphinx
本文將使用PocketSphinx來實現Android平臺的離線語音識別
優點: 離線,不用聯網 識別較準(大家都說99% ?我覺得只有80%)
缺點: 自定義語音命令麻煩 ?只能小范圍識別
網上看了很多例子 我跟你說 那都是坑 ?根本就是錯誤的教程...
不廢話 開始教程:
1.先確定要識別的詞組
我的需求是實現離線識別 以下詞組
中文: ?向前 向后 向左 向右
英文: FORWARD BACKWARD TURNLEFT TURNRIGHT
(很多這樣的教程 好像基本沒教怎么識別英文來著...)
2.生成并修改lm和dic文件
先生成中文的 新建一個txt文件 ?命名為 text.txt
并把 向前 向后 向左 向右這四個詞寫上去,然后保存..
如圖
注意很多文章都說這樣的格式 向前
這樣的格式 ?我只想跟你說 你被坑了... ?這樣做出來的語音識別demo是沒有任何識別反應的 真害人..
打開這個鏈接? 在線轉換lm文件 ?, 點擊選擇文件選擇剛才的text.txt文件
然后點擊 COMPILE KNOWLEDGE BASE ?提交
然后分別打開這兩個文件 查看內容 ? ?并分別復制內容到新建的text.dic和text.lm文件里, 保存 ?(如果亂碼 請使用谷歌瀏覽器 或 修改瀏覽器顯示編碼)
例如 我的 text.dic文件文本內容為:(我本來是寫向前 向后 向左 向右 現在你看 順序亂了 我不知道這樣的目的 我建議保留轉換后的順序 可能與優先級有關吧)
向前
向右
向后
向左
而text.lm的內容為
Language model created by QuickLM on Tue Nov 22 03:42:55 EST 2016
Copyright (c) 1996-2010 Carnegie Mellon University and Alexander I. Rudnicky
The model is in standard ARPA format, designed by Doug Paul while he was at MITRE.
The code that was used to produce this language model is available in Open Source.
Please visit http://www.speech.cs.cmu.edu/tools/ for more information
The (fixed) discount mass is 0.5. The backoffs are computed using the ratio method.
This model based on a corpus of 4 sentences and 6 words
\data\
ngram 1=6
ngram 2=8
ngram 3=4
\1-grams:
-0.7782 -0.3010
-0.7782 -0.2218
-1.3802 向前 -0.2218
-1.3802 向右 -0.2218
-1.3802 向后 -0.2218
-1.3802 向左 -0.2218
\2-grams:
-0.9031 向前 0.0000
-0.9031 向右 0.0000
-0.9031 向后 0.0000
-0.9031 向左 0.0000
-0.3010 向前 -0.3010
-0.3010 向右 -0.3010
-0.3010 向后 -0.3010
-0.3010 向左 -0.3010
\3-grams:
-0.3010 向前
-0.3010 向右
-0.3010 向后
-0.3010 向左
\end\
還有的說有什么UTF-8編碼問題? 我只想說 我沒遇到 我用的Sublime Text3文本編輯器? 你如果有問題 你換我這個文本編輯器試試
完成上面的然后 腦殘的一步來了? 手動找字典(拼音)
哪里來的拼音字典? 先去這里下載一個壓縮文件
https://sourceforge.net/projects/cmusphinx/files/pocketsphinx/0.7/然后找到 pocketsphinx-0.7.tar.gz 點擊下載(下不動用迅雷)
下載好后解壓
pocketsphinx-0.7\pocketsphinx-0.7\model\hmm\zh\tdt_sc_8k 為中文語言模型文件
pocketsphinx-0.7\model\lm\zh_CN\xxxx.dic為拼音讀音字典
同理
pocketsphinx-0.7\model\hmm\en_US\hub4wsj_sc_8k 為英文語言模型文件
pocketsphinx-0.7\model\lm\en_US\xxxx.dic 為英文讀音字典
你還會發現有臺灣的等等
我目錄的中文語言文件字典為mandarin_notone.dic ?打開 你會發現里面有很多文字對應讀音(拼音)
這時 我們回到剛才的text.dic和text.lm文件? 打開text.dic文件
一個詞一個詞 在mandarin_notone.dic字典中快捷鍵查找? (詞找不到就單個字找)? 然后復制拼音到相應的詞語右邊 注意拼音和詞語要至少留一個空格? 然后拼音和拼音之間也要留一個空格
編輯text.dic文件,我的找好了 如下:
向前x iang q ian
向右x iang y ou
向后x iang h ou
向左x iang z uo
好了 保存...
英文的也一樣步驟 ?字典的話,要從英文字典上查 ? 英文最好都大寫 并且多個單詞時最好不留空格
3.沒了(第一篇簡書 ~ 就是這么草率...)
編寫安卓程序?
代碼太多 略.. 但我文章下面直接放demo
網上其他教程很多都是打開demo就閃退 其實原因是
你還要手動復制模型和字典文件到sd卡上
我寫的這個demo也是基于它, ?但我解決了這個問題? 我把文件放在 assets里 ?并且我把模型文件和字典都整合放到一起了 ,如下
這樣? 就能自動復制文件到臨時路徑? 并讓你們快速實現離線語音功能 程序員不需要擔心其他操作.
實際情況下那demo遺留了一個 嚴重的bug? 就是過100s左右會c庫異常閃退 這個問題我也解決了
還有個 文字不斷重復 和回調一直回調同一個識別答案這個問題也解決了...
我做了判斷 , 文件都放在data/data/com.packagename.xxx/file/下
并且根據手機語言切換識別中文還是英文...
publicRecognizerTask(Context context) {
String?dataPath?=?context.getFilesDir().getAbsolutePath();
File?zhPath?=newFile(dataPath?+"/voice/zh");
if(!zhPath.exists())?{
zhPath.mkdirs();
}
File?enPath?=newFile(dataPath?+"/voice/en");
if(!enPath.exists())?{
enPath.mkdirs();
}
pocketsphinx
.setLogfile(dataPath?+"/voice/pocketsphinx.log");
String?rootPath?=?isZh(context)???zhPath.getPath()?:?enPath.getPath();//根據環境選擇中英文識別
String?dicPath?=?rootPath?+"/text.dic";
String?imPath?=?rootPath?+"/text.lm";
if(!newFile(dicPath).exists())?{
releaseAssets(context,"/",?dataPath);
}
Config?c?=newConfig();
c.setString("-hmm",?rootPath);
c.setString("-dict",?dicPath);
c.setString("-lm",?imPath);
c.setFloat("-samprate",8000.0);
c.setInt("-maxhmmpf",2000);
c.setInt("-maxwpf",10);
c.setInt("-pl_window",2);
c.setBoolean("-backtrace",true);
c.setBoolean("-bestpath",false);
this.ps?=newDecoder(c);
this.audio?=null;
this.audioq?=newLinkedBlockingQueue();
this.use_partials?=false;
this.mailbox?=?Event.NONE;
}
代碼很簡單的 ?放Demo吧
我去, 怎么簡書沒代碼高亮提示 ?還有怎么上傳資源... 知道的說下.. 我只能傳CSND的了
~~~~~點我下載~~~~~
總結
以上是生活随笔為你收集整理的android 语音识别 离线,Android离线语音识别 PocketSphinx的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 红米3s进不了recovery_红米手机
- 下一篇: 人口流动趋势matlab,中国人口增长模