语音识别软件测试面试,软件测试之ASR(语音识别)评测学习
testkuaibao|軟件測(cè)試自學(xué)公眾號(hào)
一、引言
小編新接觸語(yǔ)音SDK項(xiàng)目,SDK無(wú)UI、底層調(diào)用多個(gè)C++算法庫(kù)、提供的是AI服務(wù)。語(yǔ)音AI項(xiàng)目,識(shí)別效果是至關(guān)重要的一環(huán),識(shí)別效果評(píng)測(cè)也是一項(xiàng)測(cè)試重點(diǎn)。為了制定一個(gè)專業(yè)、全面的效果評(píng)測(cè)的方案,小編學(xué)習(xí)了相關(guān)知識(shí),對(duì)方案制定有了初步思路。希望對(duì)測(cè)試小伙伴有所幫助~~(●—●)
二、ASR流程、系統(tǒng)結(jié)構(gòu)、評(píng)測(cè)指標(biāo)及評(píng)測(cè)模型
1、語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)
語(yǔ)音識(shí)別,也被稱自動(dòng)語(yǔ)音識(shí)別,所要解決的問題是讓機(jī)器能夠“聽懂”人類的語(yǔ)音,將語(yǔ)音中包含的文字信息“提取”出來(lái),相當(dāng)于給機(jī)器安裝上“耳朵”,使其具備“能聽”的功能。
語(yǔ)音識(shí)別是一門涉及面很廣的交叉學(xué)科,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、信息理論、模式識(shí)別理論以及神經(jīng)生物學(xué)等學(xué)科都有非常密切的關(guān)系。語(yǔ)音識(shí)別的目標(biāo)是將人類的語(yǔ)音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字。
2、語(yǔ)音識(shí)別基本流程、系統(tǒng)結(jié)構(gòu)
語(yǔ)音識(shí)別原理的4個(gè)基本流程:“輸入——編碼——解碼——輸出”
語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),主要包括信號(hào)處理和特征提取、聲學(xué)模型(AM)、語(yǔ)言模型(LM)和解碼搜索四部分。
3、ASR評(píng)測(cè)模型
評(píng)測(cè)模型,各家評(píng)測(cè)模型殊途同歸。下圖參考為例:
首先要有測(cè)試的數(shù)據(jù)集,測(cè)試的數(shù)據(jù)集也是有一段音頻和標(biāo)注。標(biāo)注的就是標(biāo)注音頻內(nèi)容,說的是什么。注意:評(píng)測(cè)的數(shù)據(jù)集和訓(xùn)練的數(shù)據(jù)集是嚴(yán)格隔離的。
準(zhǔn)備好數(shù)據(jù)集后,SDK讀取數(shù)據(jù)集中的音頻(批量評(píng)測(cè)),每條音頻都嚴(yán)格按照待識(shí)別效果評(píng)測(cè)模塊的實(shí)際邏輯流程,得到每條音頻的識(shí)別結(jié)果,最后得到這個(gè)數(shù)據(jù)集的指標(biāo)衡量的統(tǒng)計(jì)結(jié)果。
4、語(yǔ)音識(shí)別(ASR)評(píng)測(cè)指標(biāo)
語(yǔ)音識(shí)別(ASR)評(píng)測(cè)指標(biāo):WER(字錯(cuò)誤率)和SER(句錯(cuò)誤率)
(1). WER 字錯(cuò)誤率
為了使識(shí)別出來(lái)的詞序列和標(biāo)準(zhǔn)的詞序列之間保持一致,需要進(jìn)行替換、刪除或者插入某些詞,這些插入、替換或刪除的詞的總個(gè)數(shù),除以標(biāo)準(zhǔn)的詞序列中詞的總個(gè)數(shù)的百分比,即為WER。
公式為:
Substitution——替換(錯(cuò)誤識(shí)別)
Deletion——?jiǎng)h除(漏識(shí)別)
Insertion——插入(多識(shí)別)
N——單詞數(shù)目(標(biāo)注中含有字?jǐn)?shù)總和)
結(jié)果比較示例:
比如下圖是某個(gè)小功能需求更換模型參數(shù)識(shí)別效果評(píng)測(cè),其中一個(gè)測(cè)試集的WER統(tǒng)計(jì)。
(2). SER句錯(cuò)誤率
SER表述為句子中如果有一個(gè)詞識(shí)別錯(cuò)誤,那么這個(gè)句子被認(rèn)為識(shí)別錯(cuò)誤。ASR句子識(shí)別錯(cuò)誤的個(gè)數(shù),除以音頻中句子總數(shù)即為SER
其計(jì)算公式如下所示:
三、ASR評(píng)測(cè)影響因素
1、語(yǔ)?識(shí)別準(zhǔn)確率影響因素
影響到準(zhǔn)確率的因素逐漸增多,其中主要因素有以下幾種:
(1). 說話人的口音、多語(yǔ)種混合識(shí)別(Code-switching,如中英混合等)等問題仍對(duì)識(shí)別性能影響較大。
(2). 語(yǔ)音方式:目前人機(jī)對(duì)話場(chǎng)景下,講話相對(duì)會(huì)收著說,吐字相對(duì)清晰,識(shí)別精度會(huì)有保證。但是自然對(duì)話場(chǎng)景下,斷斷續(xù)續(xù)(停頓造成的斷句錯(cuò)誤)、吞音、咬字不清、語(yǔ)速快慢等問題對(duì)識(shí)別效果有影響。
(3). 語(yǔ)音場(chǎng)景(環(huán)境):語(yǔ)音識(shí)別近講、遠(yuǎn)講場(chǎng)景,環(huán)境噪音、混響等問題對(duì)識(shí)別效果影響很大。
(4). 識(shí)別領(lǐng)域:針對(duì)特定場(chǎng)景,需要預(yù)先對(duì)語(yǔ)言模型進(jìn)行優(yōu)化,確保領(lǐng)域內(nèi)的專有名詞,語(yǔ)言習(xí)慣都能夠正確識(shí)別。
上述四項(xiàng)中,前三項(xiàng)與聲學(xué)模型相關(guān),第四項(xiàng)與語(yǔ)言模型有關(guān)。
2、語(yǔ)?識(shí)別評(píng)測(cè)影響因素
(1). 聲音來(lái)源(人聲 錄音聲 廣播聲 耳機(jī) 麥克風(fēng) 單/雙通道/立體聲)
(2). 語(yǔ)種分類(普通話 方言 英語(yǔ) 小語(yǔ)種 混合語(yǔ)言)
(3). 語(yǔ)音內(nèi)容/領(lǐng)域(日常話語(yǔ) 非日常話語(yǔ))【不同行業(yè) 不同場(chǎng)景】
(4). 音色(男音 女音)【不同年齡段的男/女音:兒童 少年 中年 老年】
(5). 環(huán)境(室內(nèi) 室外 公共場(chǎng)所 安靜 嘈雜 回音)
(6). 音量(分貝值大 小 時(shí)大時(shí)小)
(7). 語(yǔ)音方式(哼唱 斷斷續(xù)續(xù) 正常說話 咬字不清)
(8). 語(yǔ)速(快 中等 慢 時(shí)快時(shí)慢)
(9). 錄入語(yǔ)音時(shí)長(zhǎng)(0秒 1秒 1分鐘內(nèi) >1分鐘)
(10).對(duì)話方式(間隔 連續(xù) 單人 多人)
(11).特殊發(fā)音(比如普通話中sh與s ping與pin l與n f與h)
四、ASR評(píng)測(cè)方案制定
評(píng)測(cè)方案具體設(shè)計(jì)流程
(1). 了解業(yè)務(wù)邏輯、實(shí)現(xiàn)流程,和針對(duì)具體評(píng)測(cè)項(xiàng)目的主流方法;
(2). 設(shè)計(jì)專項(xiàng)評(píng)測(cè)方案;
(3). 組內(nèi)根據(jù)方案設(shè)計(jì)文檔進(jìn)行討論、補(bǔ)充;與相關(guān)項(xiàng)目組成員組會(huì)溝通,確保所有內(nèi)容的認(rèn)知達(dá)成一致,且對(duì)評(píng)測(cè)方案認(rèn)可通過;
(4). 完成專項(xiàng)評(píng)測(cè)方案,并撰寫評(píng)測(cè)報(bào)告;
(5). 根據(jù)需求變更或者版本變更定期更新維護(hù)專項(xiàng)評(píng)測(cè)。
1、ASR評(píng)測(cè)方案設(shè)計(jì)——確定測(cè)試場(chǎng)景(簡(jiǎn)單舉例)
考慮評(píng)測(cè)的各種影響因素,需要先確定某些維度(下例),制定一個(gè)測(cè)試場(chǎng)景評(píng)測(cè):
確定:語(yǔ)種分類(普通話)、聲音來(lái)源(人聲錄音)、對(duì)話方式(單人)、語(yǔ)音內(nèi)容(日常話語(yǔ))、音色(青年女音)、語(yǔ)音方式(正常說話)、語(yǔ)速(中等)、錄入語(yǔ)音時(shí)長(zhǎng)(2分鐘)
距離 聲源和麥克風(fēng)之間的距離
角度 聲源和麥克風(fēng)之間的角度
中等語(yǔ)速 每分鐘字?jǐn)?shù)大約150左右
2、ASR評(píng)測(cè)方案設(shè)計(jì)——確定測(cè)試標(biāo)準(zhǔn)(簡(jiǎn)單舉例)
3、ASR評(píng)測(cè)方案設(shè)計(jì)——制備輸?語(yǔ)料、選取數(shù)據(jù)集
目前現(xiàn)狀:標(biāo)注數(shù)據(jù)集,數(shù)量有限,擴(kuò)充、更新慢;
數(shù)據(jù)集要反映用戶的實(shí)際情況,做識(shí)別效果評(píng)測(cè),需要更多、貼近用戶的數(shù)據(jù)集;
評(píng)測(cè)集拓展:新的語(yǔ)料來(lái)源:自己錄制;調(diào)研用戶top N的數(shù)據(jù)內(nèi)容類型;收集?頻的badcase;
4、ASR評(píng)測(cè)方案執(zhí)行——過程設(shè)計(jì)
小編所在項(xiàng)目的ASR評(píng)測(cè)需要基于語(yǔ)音SDK進(jìn)行,具體執(zhí)行方案還在修訂,遇到的問題和解決方案,小編在實(shí)踐總結(jié)后再總結(jié)分享~~
注:參考
https://my.oschina.net/u/4594489/blog/4441264
https://www.zhihu.com/question/53001402/answer/148537722
MTSC2019
來(lái)源:搜狗測(cè)試,如有侵權(quán)請(qǐng)聯(lián)系刪除
覺得文章不錯(cuò)就點(diǎn)個(gè)在看唄,轉(zhuǎn)發(fā)就更好了
評(píng)測(cè)方案設(shè)計(jì)之用戶場(chǎng)景設(shè)計(jì)
軟件測(cè)試實(shí)用工具之手機(jī)的心電監(jiān)護(hù)儀PrefDog
作為測(cè)試人員,如何理解線程同步異步
這五個(gè)新自動(dòng)化測(cè)試框架,你可以了解一下
軟件測(cè)試技能之查看log日志
總結(jié)
以上是生活随笔為你收集整理的语音识别软件测试面试,软件测试之ASR(语音识别)评测学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式Linux中的根文件系统
- 下一篇: mysql备份到带库_RMAN备份恢复—