浅谈实时语音质量监控系统
今天小王學長跟大家談談實時語音質量監控系統的前世今生, 實時語音想必大家都不陌生,微信語音聊天、視頻直播,生活中的例子比比皆是。
在過去的語音通信系統中,影響語音質量的因素有很多,包括但不僅限于延時(delay)、丟包(packet loss)、包延遲變化(packet delay variation)、回聲(echo)、以及由于編碼造成的失真。
語音質量評估方法總的來說可以分為三種:有參考客觀評價方法、主觀評價方法和無參考客觀評價方法。
有參考客觀評價方法:
是指把原始參考音視頻與失真音視頻在每一個對應幀中的每一個對應像素之間進行比較。準確的講,這種方法得到的并不是真正的視頻質量,而是失真音視頻相對于原始音視頻的相似程度或保真程度。最簡單的方法如均方誤差 MSE 和峰值信噪比 PSNR,其應用比較廣泛。
PESQ 語音質量作為衡量語音傳輸性能的一個重要指標,如何得到準確、可靠的 QoE(體驗質量)評價系統已成為當前研究的重點,PESQ(perceptual evaluation of speech quality,語音質量評價算法)是由 ITU 提出的基于 QoE 的語音質量評價算法,并隨之成了 ITU-T P.862 標準。 PESQ 算法是當前比較流行的語音質量評價算法,說到 P.862 標準,P.861 PSQM 是最早的標準,ITU-T P.861 也叫做 PSQM,是根據 PAQM 推倒出來的一種語音質量評估體系。目前,P.862 PESQ、PESQ-WB 是應用最廣泛的有參考評價方法,最新的有參考評價方法有 P.863 POLQA,這些都是依賴無損參考信號的。
無參考客觀評價方法:
語音質量客觀評價研究自七十年代以來得到了迅速發展,國內外學者提出了數以千計的客觀評價方法。客觀評價主要依據的就是原始語音信號和失真語音信號的時頻域或變換域的特征參數對比。其主要是針對主觀評價方法的不足,人們早就希望有客觀評價方法來評價語音設備的音質,這之后許多人陸續提出了基于客觀測度的客觀音質評價方法。希望采用這些方法方便、快捷地給出被測語音系統的語音質量評價值,只不過評價的主體是由機器硬件或軟件來完成。目前國內外采用較多的客觀評價方法有 PSQM、PAMS 和 PSQM+等方法。其中 P.563 是最著名的窄帶無參考評價方法。像 ANIQUE+這樣的據作者稱準確度超過有參考的 PESQ,其它的還有像 E-Model/P.1201 參數域評價方法以及 xxNet 深度學習域評價方法。
客觀評價方法也有許多弊端:
- 有參考方法: 只能用在上線前
- 無參考方法-傳統信號域: 應用場景窄、魯棒性差
- 無參考方法-傳統參數域: 僅在有限弱網條件下可以保持精度
- 無參考方法-深度學習: 應用場景和語料有限,復雜度略高
通常,我們可以從不同方向提出各種客觀語音質量評估方法,但是客觀語音質量評估必須最終通過其與主觀語音質量評估的相關性來確定其性能和可靠性,我們通常通過主觀和客觀語音質量評估的擬合過程做出上述判斷。擬合的過程是通過主觀和客觀語音質量評估輸入不同條件下的語音主觀和客觀值,然后對主觀和客觀值進行最小二乘擬合,其中水平軸上的目標值為目標值在垂直軸上。畫出語音的主客觀質量評價曲線,得出主客觀語音質量評價的比較關系。人們通常使用預測的均方誤差值來反映主觀和客觀語音質量評估的相關程度。預測的均方誤差值越接近,主觀和客觀語音質量評估之間的相關性越好,即,客觀語音質量評估的性能越好。相反,它表明主觀和客觀言語質量評估之間的相關性越差,即客觀言語質量評估的性能越差。
發展到現在以線下測試的線上化為主,具有高精度、廣覆蓋、低復雜度、強魯棒等特點。
- 質量評估足夠準確
- 覆蓋絕大多數業務場景
- 不引入過多算法復雜度
- 和語音內容弱相關
上行鏈路質量評價方法: 采集-AEC-NS-AGC-診斷,具有獨立檢測+統一檢測
特點:設備采集穩定性、回聲消除能力、噪聲抑制能力、音量調整能力
下行鏈路質量評價方法: 采用編碼-傳輸-解碼-播放
舉一個某實驗室的例子,其驗證數據繪制全球音頻質量地圖的核心指標有:編解碼器性能、網絡質量、弱網對抗算法質量、設備播放能力。
其在多弱網、多設備、多模式的測試 case 下,該方法的打分與 POLQA 的參考打分 MAE 小于 0.1 分,MSE 小于 0.01 分,誤差最大值小于 0.15 分
下圖是某設備某模式的多弱網測試結果
某設備某模式的多弱?測試結果在這里簡單說下 NOMA 吧,NOMA(Non Othogonal Multiple Access),NOMA 的理論基礎叫做多用戶信息論。NOMA 即非正交多址接入技術,是非常有希望的 5G 技術。其優點是可以提高頻譜效率(rate/bandwigth)和接入量,這恰好符合了即將到來的 5G 時代的爆炸性的數據增長和接入需求。在上下路鏈路質量評價方法中可以利用 NOMA 技術進行一個簡單的比較。
上下行鏈路質量評價方法比較
1. 用戶發送功率的分配不同。
在下行 NOMA 技術中,每個用戶的發送功率是受基站的總發送功率以及其他各個用戶的發送功率影響的,且對于信道質量不同的用戶分配的發送功率不同(信道質量差即信道增益低的用戶分配得高發送功率,反之則分配得低發送功率。
上行鏈路是每個用戶的發送功率只是受到其設備的最大的發送功率影響。且對于信道質量有差異的用戶都讓其使用本身最大的發送功率(即每個用戶都以自己最大的發射功率來發),信道質量差異很小的情況下則會采用在保證信道質量差的性能的同時提高信道質量好的分配方法,但是往往在這種情況下會對信道質量差的用戶造成不好的影響。
2. SIC 解碼順序不同。
在下行鏈路中,每個接收端都收到了來自基站的疊加信號,且每個接收端都有自己的 SIC 接收機,對于接收到的信號,通過連續的解碼,得到各自需要的信號。對于某一個接收端來說,疊加信號傳過來的時候經歷的信道是一樣的,所以在算速率的時候大家乘的信道增益是一樣的,這個時候則先解調接收功率最大的。
而在上行鏈路中的解碼順序則恰恰相反,因為發射用戶可以理解成硬件的發射機性能沒有差別,它們信道增益有高低之分,但是他們都會以自己的發射機的最大功率發射,這樣距離基站近的用戶的信號到了基站那邊其接收功率更大(接收功率=發射功率 x 信道增益),這個時候則先解調接收功率最大的(也即信道增益最大的,因為此時發射功率一樣)。
解碼順序:會對信道質量好的(即在接收端接收功率大的)進行優先解碼;所以,在 NOMA 系統中,不管上行還是下行,在接收端優先解調的都是在接收端的接收功率最大的。
3、用戶所受干擾不同。
在下行鏈路中,由于信道質量差的用戶分配有高的發送功率,所以信道質量差的用戶更容易在簇內對其他用戶產生干擾,即為信道質量好的用戶更容易受到干擾;
在上行鏈路中,由于是用戶各自給基站發送信號從而產生疊加信號由基站接收,所以信道質量較差的用戶比信道質量較好的更容易受到干擾。
4、實現難易度不同。
上行鏈路相較于下行鏈路更容易實現。在 NOMA 技術中,要最終實現多用戶檢測和連續干擾消除,其中連續干擾消除需要通過 SIC 接收機區分不同用戶信號接受功率來實現。對于***下行鏈路***來說,是由基站發送疊加信號到用戶,所以需要用戶終端來實現多用戶檢測和連續干擾消除技術;在***上行鏈路***則是由各用戶將各自信號發至基站,只需在基站處實現多用戶檢測和連續干擾消除技術。用戶終端相較于基站而言處理能力過于有限,所以很難在用戶終端實現多用戶檢測及連續干擾消除。
如果對 NOMA 技術感興趣的小伙伴可以去搜下相關論文和資料學習下,定位就是有前景的 5G 技術。
下面簡單說下實時語音過程中漏回聲、噪音、雜音以及音量小的原因~
漏回聲的原因:
- 在延時抖動過程中:可能會存在線程繁忙、設備非線性嚴重、雙設備、非因果等
- 大混響環境:混響長度超出濾波器長度
- 采集信號溢出:導致濾波器不收斂
- 雙講:強依賴 NLP,容易顧此失彼
噪音、雜音原因
- 設備噪聲:比如單頻音、工頻噪聲、筆記本風扇聲、無序雜音
- 環境噪聲:Babble、鳴笛等
- 信號溢出:爆破音
- 算法引入:殘留回聲等
音量小的原因
- 設備采集能力弱、說話聲音小 (這個占大多數)
- 設備播放能力弱
- 模擬增益、模擬 boost 增益小
- 數字增益小
?最后在獨立監測模塊可以分為:嘯叫檢測、雜音監測、噪音檢測、硬件檢測四大部分。
小展望
在未來我認為感知、反饋和監控一定會呈現一體化,也會變得更細、更廣、更快、更全;內部狀態也會變得更細、體驗覆蓋更廣、反饋速度會更快、覆蓋通話也更全。也相信我國 5G 技術和實時音視頻傳輸技術和質量評價體系會越來愈好。
總結
以上是生活随笔為你收集整理的浅谈实时语音质量监控系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HyperLogLog原理与在Redis
- 下一篇: Himall商城枚举帮助类EnumHel