对话王晶:音频人才亟待培养,高水平研究人员尤其欠缺
點擊上方“LiveVideoStack”關注我們
策劃:Alex、包研
編輯:Alex
王晶
年終訪談
#007#
編者按:春節前夕的最后一次采訪,LiveVideoStack有幸邀請到了北京理工大學信息與電子學院副教授王晶。王教授目前在北京理工大學信息與電子學院通信技術研究所從事教學科研工作,講授本科生《數字通信網》和研究生《語音信號數字處理(全英文)》課程。在教學的同時,王教授還承擔有國家自然科學基金、國家重大科技專項、國際合作項目及與中國移動、華為等的企事業橫向科研項目。她長期參與信息技術領域標準化工作,目前為AVS中國數字音視頻編解碼標準組織成員,CCF語音對話與聽覺專委會委員。在此次與LiveVideoStack的對話中,王教授分享了過去幾年音頻領域的重要發展和創新、音頻編解碼器的獨特之處、AI與音頻編碼技術結合的突破以及目前音頻領域人才培養和輸出所面臨的困境等。
北京理工大學信息與電子學院副教授 王晶
LiveVideoStack:?王教授,您好,非常歡迎您參加LiveVideoStack的年終訪談,還請您跟我們的讀者介紹一下自己。
王晶:本人現在北京理工大學信息與電子學院通信技術研究所從事教學科研工作,講授本科生《數字通信網》和研究生《語音信號數字處理(全英文)》課程。博士期間研究課題為“低速率和變速率語音編碼”,并且對聲音質量評價技術有近20年的研究積累,承擔ITU/3GPP/AVS等國內外標準化組織和知名企事業單位委托的音質評測任務。自進入到實驗室工作便參與北京理工大學和瑞典愛立信公司國際合作項目,對2G/3G/4G/5G/B5G移動通信中語音和音頻關鍵技術進行研究。所承擔的國家和省部級研究課題涉及音頻編碼、多媒體質量評價、VoIP、語音增強、聲音事件檢測、空間音頻、虛擬現實等技術領域。當前的主要研究興趣包括基于深度學習的聲音處理技術和沉浸式音視頻通信技術等。
LiveVideoStack:?據您觀察,過去幾年,音頻領域有哪些重要的發展和創新?目前的音頻技術研究主要有哪幾個方向?
王晶:音頻領域廣義上包含語音、音樂、環境聲等各類人耳可聞的聲音處理技術研究,涉及信號處理算法、計算機編程、聲學系統設計和底層芯片開發等一系列軟硬件技術。在過去幾年,聲音通信從單一的語音通信發展到語音和音樂混合,立體聲及多聲道音頻,三維音頻和虛擬現實音頻,逐步提升用戶的聽音體驗。自2012年以來,音頻領域和人工智能技術的結合使得聲音分析、理解和生成等研究獲得飛速發展和技術創新,基于深度學習的語音識別技術突破了傳統框架的限制,使得智能語音交互應用更為廣泛;近年來神經網絡模型嘗試用于語音壓縮編碼,使得沉寂許久的低速率聲音編碼技術引起業界關注;虛擬現實和通信網絡的發展使得全方位的空間音頻體驗成為可能。在硬件設計方面,陣列麥克、藍牙音頻傳輸,聲場定位、智能語音處理芯片等技術使得手機通訊、無線耳機、揚聲器回放、車載環境等相關產品的音頻體驗有了極大的提升。
目前的音頻技術研究從技術差異角度來看主要包括智能語音交互、音頻壓縮編碼、空間音頻處理、聲音質量評價、音樂計算、聽覺場景分析等方向,在不同應用領域可能涉及與計算機、通信網絡、物理聲學、心理學、語言學、生物醫學、腦科學、藝術等交叉領域的研究問題。
LiveVideoStack:?和視頻編解碼器相比,音頻編解碼器有哪些獨有的特點?二者相比,哪一個更復雜?
王晶:音頻編碼和視頻編碼從理論上來看都屬于信源壓縮編碼,都是將一種格式的音頻/視頻文件/信號轉換為另一種格式,通過去除信號或數據冗余達到壓縮的目的。視頻編碼處理的是連續的二維或三維圖像序列,通常需要去除空間和時間上的冗余,并借助人眼感知特性去除感知冗余,典型的視頻壓縮技術主要使用幀內壓縮、幀間壓縮和熵編碼等。音頻編解碼器從技術框架上來看與視頻編解碼有較大區別,其中從信源類型上又可分為偏語音類、偏音樂類、語音音樂混合類的編碼技術。音頻編碼處理的是一維的非平穩語音或音頻信號,通常需要去除時間上的冗余,并借助人耳感知特性去除聽覺上的冗余,在三維音頻編碼場合對于多通道信號還需要去除通道間冗余。典型的音頻編碼技術可以使用線性預測、感知編碼、時頻分析、頻帶擴展、熵編碼、聲道去相關等技術手段。
從技術原理上來看,音頻編碼由于涉及到非平穩信號處理及復雜的人耳聽覺特性,需要考慮的技術模塊相對較多,往往需要通過主觀測試才能得到可靠的音質評級;從硬件實現上來看,音頻編碼處理一維信號的復雜度比視頻編碼相對較小,所需要的硬件資源消耗也更少一些。
LiveVideoStack:?我們知道,數字音頻編碼又被分為語音編碼和音頻編碼,您能否給我們介紹一下,這兩種編碼技術在應用領域和發展趨勢上有何不同??
王晶:語音編碼通常用于語音通信和語音存儲場合,更關注人聲的編解碼效果。目前中高速率以上的編碼標準和算法已經比較普遍,例如ITU-T的G.711、G.729等G.xxx系列,3GPP AMR、EVS系列,VoIP中的Opus編碼算法等都屬于語音編碼,并兼顧考慮對音樂信號的支持,但低速率語音編碼尤其是3kbps以下編碼的音質還未達到通信級別的聽音要求,ITU-T在4kbps以下的低速率編碼標準化進程也停滯了很久。
音頻編碼通常用于廣播、影視制作、流媒體等場合,更關注對音樂信號或者混合音頻信號的壓縮效果。國際上MPEG標準化組織相繼推出了MP3、AAC、MPEG-H等一系列的音頻編碼標準,國內AVS標準工作組自2002年開始面向國內需求研制適合我國數字音視頻產業的音頻編碼標準,此外杜比、DTS、Fraunhofer IIS等也都是國際上比較知名的音頻編碼研究機構。當前音頻編碼從單聲道、立體聲發展為多通道和三維音頻編解碼,并朝下一代沉浸音頻編碼方向發展。
另外,近年來谷歌公司推出的AI語音和音頻編碼器結合神經網絡模型突破了傳統技術框架,尤其在低速率下體現出更為優勢的聲音編碼質量,成為業界關注的焦點。
LiveVideoStack:?去年谷歌推出了兩款基于AI的音頻編解碼器——Lyra和SoundStream,您認為這兩款音頻編解碼器會給整個行業帶來什么樣的變化?在音頻編碼與AI的技術結合上,未來可能會有哪些突破??
王晶:谷歌推出的AI編解碼器Lyra和SoundStream給沉寂已久的語音和音頻編碼研究領域注入了新的活力,尤其是SoundStream采用了端到端的神經網絡模型,從數據驅動角度出發,不依賴于傳統的信號處理和編解碼框架,體現出比傳統編碼和上一代Lyra更新的技術特點和性能優勢,例如壓縮效率更高,支持語音和音樂等多類型信號,同時可以兼顧壓縮和增強,尤其在低速率下性能表現更好,并在繼續推進開發版本和工具的整合,以期在實際應用中發揮作用。這兩款音頻編解碼器打破了行業許久以來對低速率編碼技術研究和應用的沉寂,進一步推動了AI編解碼器的發展,促進了人工智能和編解碼器的深度融合,引起產業界和研究界的廣泛關注。在音頻編碼與AI技術的結合上,未來可能會在傳統信號處理和AI建模相結合的方式上進行繼續探究,并由語音擴展為音頻甚至多通道音頻的壓縮效率提升,進一步可能通過引入新的AI模型及算法優化策略在需要統一多類型信號編碼框架以及對速率要求較低的場合下實現技術應用上的突破。
LiveVideoStack:?最近元宇宙是一個比較熱的話題。您認為元宇宙的到來,音頻會在其中發揮什么樣的作用?
王晶:元宇宙Metaverse確實是當下比較熱門的話題,從一開始概念的提出到后來飽受爭議,再到當前成為廣泛關注的熱點,投資熱潮不斷追捧,甚至連Facebook都將公司名字改為Meta。2016年被稱作是虛擬現實VR元年,2022年有望成為元宇宙的元年,元宇宙和虛擬現實、數字孿生有密切的關聯性,但更多的是實現虛擬和現實的融合與交互,未來比較大的場景是將虛擬現實、人工智能、區塊鏈、下一代互聯網等技術融為一個大的體系。當前元宇宙引發的數字資產(例如數字人)、數字孿生等研究熱點仍然是以計算機圖形圖像呈現技術為主,鮮有元宇宙音頻應用場景的深入討論,大概因為音頻業界人士還在積極推進全景音頻、沉浸音頻等技術的深入研究和應用落地。
未來音頻技術將會是以虛實交互為主的元宇宙中不可或缺和非常重要的信息內容,例如在元宇宙的世界里進行語音和音頻交互時,人們將會更為關注聲音的真實感、空間感、沉浸感以及音視頻的時間、空間同步等體驗,VR音頻里6DoF技術也將會成為元宇宙音頻中的必備支撐技術之一。
LiveVideoStack:?王教授,您一直在參與信息技術領域標準化工作,同時也是AVS中國數字音視頻標準組織成員,您能否跟我們介紹一下我國音頻編碼標準的發展現狀?
王晶:AVS工作組在2002年6月由原信產部(現工信部)批準成立,自成立以來就一直致力于我國數字音視頻編解碼技術的標準化工作,聯合國內外相關企事業單位及高校進行編解碼相關技術研發、知識產權管理以及產品開發和產業應用推廣等。AVS音頻組迄今為止研制的音頻標準包括:
AVS1-P3 《信息技術 先進音視頻編解碼 第3部分:音頻》,支持雙聲道、5.1聲道,無損和有損編碼,于2009年提交標準報批稿;
AVS1-P10《信息技術 先進音視頻編解碼 第10部分:移動語音與音頻編碼》,主要面向移動通信業務支持低碼率下的寬帶語音和音頻編碼,于2013年12月頒布為國家標準(GB/T 20090.10-2013);
AVS2-P3《信息技術? 高效多媒體編碼 第3部分:音頻》,支持基于聲道、對象的三維音頻編解碼以及無損編碼,于2018年6月頒布為國家標準(GB/T 33475.3-2018);
AVS VR-P3音頻《信息技術 虛擬現實內容表達 第3部分:音頻》自2016年開始制定,并于2021年確定國標號(20214282-T-469),支持基于聲道、對象、場景等沉浸式音頻內容的呈現,以及3DoF和6DoF等虛擬現實場景下音頻渲染技術等,目前處于WD標準工作草案階段。
自2021年初,AVS音頻組開始著手制定面向8k和5G等應用場景的下一代音頻標準,目前AVS3-P3《信息技術 智能媒體編碼 第3部分:沉浸式音頻》的第一階段“端到端模式的沉浸音頻高效壓縮方法”于2022年1月形成標準報批稿。
LiveVideoStack:?與視頻相比,您認為音頻有哪些無可替代的優勢?
王晶:音頻和視頻都是多媒體內容的重要組織部分,這兩種內容的信號特點、感知特性以及技術處理手段有差異,從信息壓縮角度來看,視頻相比音頻需要更大的傳輸帶寬,但對于用戶體驗來講音視頻感受都同等重要。與視頻相比,音頻不受人眼視場角的影響,可以全方位地感受周圍的聲音信息。從認知神經的角度來看,聲音對聽覺記憶的影響因人而異,有很多關鍵的事件信息往往更容易通過音頻獲得。從應用場景角度來看,除了影像照片這種只需要視覺呈現的場合,大多數應用場景都需要音視頻的配合,例如影視播放、視頻會議、手機視訊等;某些應用場景只需要音頻,例如音頻廣播、音樂播放、有聲讀物等;某些背景信息的震撼感則必須配以環境音效來更好的呈現。對于虛擬現實或者說未來元宇宙場景,沉浸音頻更顯得異常重要,當用戶轉動頭部或移動身體的時候,周圍重現的聲音應當和實際中聽音的方位及空間感受保持一致,音頻相比視頻更能提供全方位的信息指引,這些都需要有更好的音頻技術作為支撐。我們無法想象,未來在一個沒有音頻或僅能發聲的“元宇宙”里人們保持交流或與周圍環境進行交互就能達到和現實世界一樣的體驗。
LiveVideoStack:?感覺同視頻相比,音頻相對小眾,從事音頻相關工作的人不是很多,實際情況是這樣嗎?作為一名大學教授,您如何看待音頻人才的培養和輸出?
王晶:縱觀學術會議、標準組織、企業構架、產品發布等有關信息,視頻領域的研究及從業人員相比音頻領域的人數顯得更多一些,這可能是因為視覺的沖擊感更容易讓人直觀地感受到,且視頻的信息量相比同步的音頻而言會更大一些,對于通信網絡、硬件資源的需求也更大。而音頻則會被誤以為只要能聽清就可以(實際上音頻對主觀測試的要求要更高,用戶的聽音體驗也是需要提升和普及的),相比視頻而言對于帶寬和復雜度的要求相對較低,這也造成了很多實際產品的關注焦點大多是視頻或者視覺特征。
尤其是國內對音頻的技術研究和人才儲備遠不如視頻多,往往是國際上一些知名企業推出新的音頻應用之后,國內企業才著手跟進和開發,例如杜比公司推出的Atoms全景音頻體驗,蘋果近年來推出的TWS耳機附帶空間音頻功能,谷歌引發的AI編解碼器研究熱點等。實際上音頻技術相比視頻技術要復雜一些,需要更多的非平穩信號處理和音頻聽覺感知基礎知識以及交叉學科的常識。對人才培養而言,語音和音頻處理能夠貫通從本科到研究生階段所涉及的信息學科、計算機學科等各種知識儲備,是一種非常典型的信號和信息處理場景,無論對于音頻領域還是其他信號處理場合的人才培養都很有借鑒意義。每年各大互聯網公司、信息技術領域的企業對語音和音頻相關應聘崗位的需求量還是很大的,但從事音頻技術研究的人才培養還有所欠缺,尤其是高端人才有待加強,這對于提升我國數字音頻領域的自主技術研發能力和國際競爭力顯得異常重要。
LiveVideoStack:?對于未來想從事音頻工作的同學,您有哪些建議和意見?
王晶:相比計算機視覺、通信網絡、人工智能等概念較大的發展方向,目前專門從事音頻信號處理或者音頻相關技術的研究人員并不太多,但實際的工作崗位需求還是挺大的,尤其是高水平研究人員相對欠缺。事實上,從事音頻工作的人員由于對信號處理和計算機編程能力都需要兼顧,也很容易過渡到其他技術崗位。音頻領域(廣義上包括語音和音頻處理)當前和計算機技術、通信網絡、人工智能、虛擬現實甚至生物醫學等結合都非常緊密,相比傳統單純從信號處理或計算機編程的角度來看,很多實際應用問題的解決更傾向于需要交叉學科基礎。
對于未來想從事音頻工作的同學們,尤其是想在理論結合實踐上有技術突破,建議首先學習數字信號處理、信息論、計算機編程、通信網絡、人工智能等基礎知識,然后深入掌握音頻信號處理的各類常用算法和典型應用場景,研究課題或者工作內容的選擇可以針對實際應用場景的需求開展具體研究。目前網絡上開源代碼和學習材料非常多,尤其是基于AI的聲音處理技術,建議同學們在系統學習基礎知識的同時多加編程實踐練習,以便更好地理解算法思路,至少應當獨立完成一到兩個案例的實現。進入研究生學習階段的同學則需多關注領域內的頂級會議和刊物,參加一些學術或者行業會議與同行進行交流,善于發現研究中的問題,并利用所學知識進行分析和解決。
掃描圖中二維碼或點擊閱讀原文
了解大會更多信息
喜歡我們的內容就點個“在看”吧!
總結
以上是生活随笔為你收集整理的对话王晶:音频人才亟待培养,高水平研究人员尤其欠缺的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 面向在线教育业务的流媒体分发演进
- 下一篇: 【视频编解码性能优化与实现】