音视频技术开发周刊 | 228
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
K歌中的歌唱評價與嗓音分析
作為國內首創的綜合評分功能,音街的綜合評分系統可對用戶的音準、節奏、氣息、顫音、滑音、情感等維度進行綜合評價,這些多維度評分在增加演唱趣味性的同時,也可為作品分發提供可用的標簽等等。本次LiveVideoStackCon 2021北京線下峰會我們邀請到了網易云音樂高級音頻算法工程師高月潔老師,本次分享將圍繞歌唱與嗓音分析,介紹相關的體系與算法實現。
用神經網絡重新審視 VVC 的 SAO 環路濾器
Philippe 首先介紹道,在最近的視頻編解碼器中,環路后處理濾波已經成為一種至關重要的組件。它可以減少壓縮偽影,并減少與原始樣本的失真。AVC 首先引入了去塊濾波器,之后 HEVC 額外引入了 Sample Adaptive Offset 后處理濾波器,以減少振鈴效應和顏色偏差。最近發布的 VVC 標準設計了一種自適應的環路濾波器,使用基于維那濾波器的自適應濾波系數,來最小化重建像素和原始像素之間的 MSE。
深入解析QUIC協議
QUIC(Quick UDP Internet Connection)是Google提出的一個基于UDP的傳輸協議,因其高效的傳輸效率和多路并發的能力,已經成為下一代互聯網協議HTTP/3的底層傳輸協議。除了應用于Web領域,它的優勢同樣適用于一些通用的需要低延遲、高吞吐特性的傳輸場景。本文從QUIC的由來和優勢出發,分享實際項目中需要考慮的問題和解決思路,通過測試對比QUIC和TCP的實際傳輸能力,希望有助于大家理解和實踐QUIC協議。
關于WebRTC發展的擔憂和思考
本篇為WebRTC技術專家Tsahi Levent-Levi發布在BlogGeek.me上的文章,我們翻譯了其中部分內容發布在LiveVideoStack的公眾號上。感謝Tsahi的授權。
我對WebRTC的主要擔心是:一場大戰蓄勢待發。一方面,谷歌雖然一直引領WebRTC的發展,但作為一家大公司,它很可能沒有從WebRTC中看到足夠的價值。另一方面,行業中的其他人對于WebRTC的主要庫libwebrtc(歸谷歌所有,由其控制和維護)正在發生的事感到沮喪不已。這就導致了不同分支的產生——人們不斷討論和嘗試為WebRTC這一規模宏大的項目找到更好的結構解決方案。
全 IP 制作中的現實挑戰
本次演講中,Gordon Castle 介紹了 Eurosport 技術轉型的背景、優勢以及面臨的挑戰。ETT(Eurosport Technology Transformation) 指代 Eurosport 技術轉型。ETT 旨在替換老化的基礎設施,因為它限制了改變的能力,限制了靈活性導致難以擴展,技術不足以支持新的發展,而且運營成本不斷上升。而我們想要做的是建立一個全新的、基于 2110 的基礎設施,采用不同的技術方法允許位置和商業靈活性,降低添加新服務的技術成本,讓我們更快地進入新服務市場和消費者測試。
技術干貨 | WebRTC 技術解析之 Android VDM
WebRTC 中的Android VDM(Video Device Manager)技術模塊,是指 WebRTC 基于 Android 系統,對視頻數據采集、編碼、 解碼和渲染的管理。當你拿到一部Android 手機,通過網易云信 SDK 進行 RTC 通信時,你是否好奇, Android 系統的 VDM 是如何實現的?WebRTC 又是如何使用 Android VDM 的?本文對 WebRTC 中 Android VDM 的實現進行了分解和梳理。
王者QQ微信都在用的動畫神器要開源了:把交付時間縮短90%
PAG團隊自研實現了一套輕量純GPU繪圖引擎,通過最大化利用平臺端提供的所有能力,以500K左右的包體覆蓋了Skia的絕大部分功能,并且在接口設計上充分暴露了針對現代GPU渲染的優化能力。因此,包體減小的同時,渲染性能的上限實際得到了進一步的提升。
另外,PAG 4.0版本基于這個全新的2D繪圖引擎,也將正式拓展對Web端的支持。據悉,目前PAG 4.0版本已經走完騰訊開源審核流程。
使用 Amazon Voice Focus AMI 降低音頻中的噪音
Amazon Chime SDK 團隊為客戶推出了Amazon Voice Focus AMI,以幫助降低噪音并提高其音頻內容的質量。Amazon Voice Focus 是一種深度學習噪聲抑制算法,用于 Amazon Chime SDK 會議。它現在打包為 Amazon Linux 2 (AL2) Machine Image (AMI)。Amazon Voice Focus AMI 可幫助建設者、內容創作者和媒體制作人減少背景噪音(如風扇、割草機和狗叫聲)以及前景噪音(如打字和洗牌)。
https://aws.amazon.com/cn/blogs/business-productivity/using-amazon-voice-focus-ami-to-reduce-noise-in-audio/
理解直播及其工作原理
直播是指通過互聯網實時傳輸演出的音頻和視頻內容。隨著實時視頻的流行,直播儼然已成為眾多企業和組織市場戰略的重要組成部分。直播可用于活動(賽事)直播、提供客戶服務以及舉行網絡研討會等一切內容。
本篇文章將帶你探索什么是直播、直播的工作原理以及如何將它用于你自己的企業或者組織中。讓我們一起來看一個典型的直播架構,然后為你詳細解釋轉碼、封裝、DRM、廣告插入、基于CDN的傳輸、回放以及其他組成直播管道的服務。
字節跳動智創語音團隊發布高保真、低延遲、高并發的AI歌唱合成技術
字節跳動智能創作語音團隊SAMI(Speech, Audio and Music Intelligence)近日上線一項高保真、低延遲、高并發歌唱合成技術。該技術在兼顧保真度和速度上實現了一定的突破:一方面,AI模型可以模擬人類獨特的音色、技巧和情感,使得演唱效果媲美真人;同時,該模型可以提供超低延遲、高并發的歌唱合成服務,可以輕松適配C端業務場景。
谷歌推出全能扒譜AI:只要聽一遍歌曲,鋼琴小提琴的樂譜全有了
谷歌近日推出了“多任務多音軌”音樂轉音符模型MT3。作者使用單一的通用Transformer架構T5,而且是T5“小”模型,其中包含大約6000萬個參數。該模型在編碼器和解碼器中使用了一系列標準的Transformer自注意力“塊”。為了產生輸出標記序列,該模型使用貪婪自回歸解碼:輸入一個輸入序列,將預測出下一個出現概率最高的輸出標記附加到該序列中,并重復該過程直到結束 。生成的樂譜通過開源軟件FluidSynth渲染成音頻。MT3使用梅爾頻譜圖作為輸入。對于輸出,作者構建了一個受MIDI規范啟發的token詞匯,稱為“類MIDI”。
車載激光雷達白皮書(附下載)
目前,超過 100 家不同的開發公司已投入約 10 億美元,用于開發高分辨率激光雷達( LiDAR )傳感器。隨著多家 OEM 廠商宣布將激光雷達解決方案納入暢銷車型,其在汽車市場中的應用也將提速。
自動駕駛中可解釋AI綜述和未來研究方向
該研究為開發自動駕駛車輛的可解釋人工智能(XAI)方法提供了全面的信息。首先,全面概述了目前最先進的自動駕駛汽車行業在可解釋方面存在的差距。然后,展示該領域中可解釋和可解釋受眾的分類。第三,提出了一個端到端自動駕駛系統體系結構的框架,并論證了XAI在調試和調控此類系統中的作用。最后,作為未來的研究方向,提供自主駕駛XAI方法的實地指南,提高操作安全性和透明度,公開獲得監管機構、制造商和所有密切參與者的批準。
閱讀推薦
SRS的2021,鹽堿地里種西瓜的王婆
開源的基礎是開發者,包括開發者的能力、習慣和協作方式,國內目前相對比較初級的階段。從國內發起的開源項目,還比較少能算上成功的。我的感覺,目前國內做開源,就好像王婆在鹽堿地里種西瓜,不僅收成不好,還要自賣自夸。當然,鹽堿地也是我們自己的土地,除了堅持做持續做,沒有第二條路可以走。
活動推薦
低代碼音視頻開發訓練營
2022年1月5日,我們邀請到了阿里云視頻云資深技術專家即低代碼音視頻工廠研發負責人重磅發布“低代碼音視頻開發訓練營”,阿里云視頻云專家親自授課,講解vPaaS架構、技術特性與演進方向,帶領學員們一起完成低代碼音視頻工廠的實戰,迅速集成高品質音視頻能力。
報名地址:
https://developer.aliyun.com/learning/trainingcamp/vPaaS?utm_content=g_1000316180
插圖源自Pexels
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 228的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LiveVideoStack 2022迎
- 下一篇: LiveVideoStackCon 20