浅谈语音质量保障:如何测试 RTC 中的音频质量?
作者|柯淮
審校|泰一
背景介紹
音頻質(zhì)量是指正常網(wǎng)絡(luò)下的聽(tīng)覺(jué)質(zhì)量和音頻 3A 算法質(zhì)量。聽(tīng)覺(jué)質(zhì)量,是在無(wú)損網(wǎng)絡(luò)情況下人耳對(duì)語(yǔ)音優(yōu)劣的主觀感受。但在實(shí)際生活中,不同人對(duì)同一聲音可能會(huì)有不同的優(yōu)劣判斷,另外還會(huì)受到收聽(tīng)環(huán)境和收聽(tīng)心理影響。在測(cè)試時(shí),我們可以從聲音三要素:響度、音高、音色緯度出發(fā),對(duì)一些指標(biāo)進(jìn)行量化評(píng)估。另外業(yè)內(nèi)標(biāo)準(zhǔn)還會(huì)將這些量化指標(biāo)通過(guò)一定的加權(quán)處理以期望擬合主觀感受,比如 POLQA、PESQ 等。
音頻 3A 算法是指:
AGC: Automatic gain control(自動(dòng)增益控制)
ANS: Adaptive noise suppression(噪聲抑制)
AEC: Acoustic echo cancellation(回聲消除)
這部分內(nèi)容公眾號(hào)中已有較多文章較詳細(xì)介紹原理及實(shí)現(xiàn),這里不再贅述。
往期文章
詳解 WebRTC 高音質(zhì)低延時(shí)的背后 — AGC(自動(dòng)增益控制)
硬貨專欄 |深入淺出 WebRTC AEC(聲學(xué)回聲消除)
本系列文章將從音頻質(zhì)量、適配測(cè)試、Qos 質(zhì)量、自動(dòng)化方案四個(gè)維度去介紹阿里云視頻云如何保障 RTC 語(yǔ)音質(zhì)量,本文先介紹音頻質(zhì)量部分(正常網(wǎng)絡(luò)下的聽(tīng)覺(jué)質(zhì)量和音頻 3A 算法質(zhì)量)。
RTC 語(yǔ)音測(cè)試鏈路拆解
在正式測(cè)試前,我們先了解 RTC 語(yǔ)音傳輸?shù)恼麄€(gè)鏈路框架圖,聲音通過(guò)麥克風(fēng)采集,而后上行音頻算法進(jìn)行前處理,編解碼傳輸后通過(guò)揚(yáng)聲器播放出來(lái)。若想測(cè)試上行音頻算法可在(1)處輸入聲音,而后在(2)處拉取輸出音頻進(jìn)行分析。系統(tǒng)測(cè)試時(shí),我們往往從端到端角度評(píng)估,即從(1)處輸入聲音而后在(4)拉取聲音進(jìn)行分析,本文后續(xù)測(cè)試方法均基于端到端。
音頻質(zhì)量測(cè)試方案
阿里云視頻云采用業(yè)內(nèi)常用的客觀指標(biāo)+主觀評(píng)價(jià)相結(jié)合的方法來(lái)保障音頻質(zhì)量,具體指標(biāo)請(qǐng)參考下圖:
客觀測(cè)試方法
有效頻寬
Line in 輸入掃頻文件 +48K 采樣率的人聲音頻(音頻素材參考如下),Line out 錄制輸出音頻,通過(guò)頻率分析讀取有效頻寬;
端到端延遲
方法一:使用 VQT 測(cè)試,測(cè)試結(jié)果中輸出延遲時(shí)間。
方法二:自研。Line in 測(cè)試素材,Line out 錄制未經(jīng)過(guò)傳輸及輸出音頻,計(jì)算音頻延遲時(shí)間。
- 測(cè)試素材:一段連續(xù)的單音。
- 指標(biāo)計(jì)算:錄制文件中讀取未經(jīng)過(guò)傳輸?shù)囊纛l起始時(shí)間記為 t1,讀取經(jīng)過(guò)會(huì)議傳輸?shù)囊纛l起始時(shí)間記為 t2,則 Delay=t2-t1。
ANS
考察 ANS 算法在純?cè)肼暫驼Z(yǔ)噪混合場(chǎng)景下的表現(xiàn),分析指標(biāo)包含:降噪一致性、信噪比提升、收斂時(shí)間、消噪后人聲音質(zhì)。
測(cè)試拓?fù)?/h5>
通過(guò)音量 Line in 或者外放輸入背景素材及語(yǔ)音素材,在拉流端 Line out 錄制輸出音頻進(jìn)行指標(biāo)分析。
測(cè)試素材
指標(biāo)計(jì)算
AGC
考察AGC算法在不同音量下表現(xiàn),分析指標(biāo)包括:聲音平穩(wěn)性、輸出響度。
測(cè)試拓?fù)?/h5>
參考 ANS 測(cè)試拓?fù)鋱D,通過(guò)音量 Line in 或者外放輸入語(yǔ)音素材,在拉流端 Line out 錄制輸出音頻進(jìn)行指標(biāo)分析。
測(cè)試素材
指標(biāo)計(jì)算
AEC
考察 AEC 算法單講和雙講場(chǎng)景下是否存在漏回聲、人聲抑制等問(wèn)題。
測(cè)試拓?fù)?/h5>
【單講】
推流端播放單講語(yǔ)音素材,拉流端默認(rèn)配置放在空曠會(huì)議室中。Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲。
【雙講】
同時(shí)向推流端和拉流端播放雙講測(cè)試素材,Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲和人聲抑制。
同時(shí)向推流端和拉流端播放雙講測(cè)試素材,Line out 錄制推流端的輸出,判斷拉流端是否存在漏回聲和人聲抑制。
測(cè)試素材
指標(biāo)計(jì)算
STOI
短時(shí)客觀可懂度,當(dāng)前學(xué)術(shù)上比較精確,可靠的客觀評(píng)估方法來(lái)計(jì)算語(yǔ)音可懂度,客觀測(cè)試結(jié)果可以一定程度上反映語(yǔ)音可懂性和自然性。存在局限性:需降采樣到 16K 進(jìn)行計(jì)算。
- 測(cè)試拓?fù)?#xff1a;參考 ANS 測(cè)試拓?fù)洹?/li>
- 測(cè)試素材:ITU-P863 提供標(biāo)準(zhǔn)人聲素材。
- 指標(biāo)計(jì)算:如下框架圖展示了 STOI 計(jì)算流程,當(dāng)前業(yè)內(nèi)已有 matlab 和 python 對(duì)該算法的工程實(shí)現(xiàn)。
POLQA
ITU-T P.863 提供測(cè)試方法,可得到 MOS 分和音頻延遲。支持 8K、16K、48K 測(cè)試,局限性是設(shè)備貴。
- 測(cè)試拓?fù)?#xff1a;參考 ANS 測(cè)試拓?fù)洹?/li>
- 測(cè)試素材:ITU-P863 提供標(biāo)準(zhǔn)人聲素材 &VQT 內(nèi)置語(yǔ)音測(cè)試素材。
- 指標(biāo)計(jì)算:POLQA MOS 分。
PESQ
ITU-T P.862 提供測(cè)試方法,可得到 MOS 分,局限性是僅可支持 8K 和 16K。
- 測(cè)試拓?fù)?#xff1a;參考 ANS 測(cè)試拓?fù)洹?/li>
- 測(cè)試方法:測(cè)試素材:ITU-P863 提供標(biāo)準(zhǔn)人聲素材。
- 指標(biāo)計(jì)算:PESQ MOS 分
主觀測(cè)試方法
采用 “YD/T 2309 音頻質(zhì)量主觀測(cè)試方法(ITU-R BS.1284)” 中提及的評(píng)分規(guī)則和維度,在不同場(chǎng)景下為專家和普通用戶進(jìn)行打分測(cè)試。
評(píng)分方法
評(píng)價(jià)維度
測(cè)試場(chǎng)景
測(cè)試素材采用“惠威試音碟”和“TUT-acoustic-scenes-2017-development”。
本文為 RTC 音頻測(cè)試系列的第一篇,后續(xù)我們將從適配測(cè)試、Qos 質(zhì)量、自動(dòng)化方案的維度去介紹阿里云視頻云如何保障 RTC 語(yǔ)音質(zhì)量,歡迎關(guān)注公眾號(hào)「視頻云技術(shù)」。
原文鏈接:https://developer.aliyun.com/article/792346?
版權(quán)聲明:本文內(nèi)容由阿里云實(shí)名注冊(cè)用戶自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,阿里云開(kāi)發(fā)者社區(qū)不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。具體規(guī)則請(qǐng)查看《阿里云開(kāi)發(fā)者社區(qū)用戶服務(wù)協(xié)議》和《阿里云開(kāi)發(fā)者社區(qū)知識(shí)產(chǎn)權(quán)保護(hù)指引》。如果您發(fā)現(xiàn)本社區(qū)中有涉嫌抄襲的內(nèi)容,填寫侵權(quán)投訴表單進(jìn)行舉報(bào),一經(jīng)查實(shí),本社區(qū)將立刻刪除涉嫌侵權(quán)內(nèi)容。 與50位技術(shù)專家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的浅谈语音质量保障:如何测试 RTC 中的音频质量?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【免费下载】“后红海”时代,独家揭秘当下
- 下一篇: 云拨测助力节卡机器人,全面优化海外网站性