音视频技术开发周刊 | 220
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
拍樂云基于AV1的實時視頻系統技術實踐
實時視頻系統對于時延的要求極高,視頻編碼器必須滿足實時性的要求。新一代視頻標準AV1相比主流H.264在Rate-distortation性能的提升上是以復雜度的上升為代價的,當前應用設備的碎片化非常嚴重、設備的運算能力差異巨大,這些都是新技術落地實時系統面臨的挑戰。本次分享將圍繞拍樂云在設計Pano Venus實時AV1通信系統時的一些技術實踐展開深入分析與講解,期望和大家共同探索實時視頻技術的未來。
自監督、半監督學習在內容安全中的應用
在深度學習領域中,半監督、自監督算法通過借助無標簽數據與無監督訓練任務,可有效改善傳統有監督算法中“泛化性能不足”、“模型過擬合”、“嚴重依賴數據標注質量”等問題。在此次LiveVideoStackCon 2021 音視頻技術大會 北京站,我們邀請到了網易易盾資深算法工程師——崔若璇,為我們介紹了半監督學習領域的發展脈絡,并展示半監督、自監督算法在網易易盾內容安全業務上的創新應用。
編解碼再進化:Ali266與下一代視頻技術
過去的一年見證了人類百年不遇的大事記,也見證了多種視頻應用的厚積薄發。而因此所帶來的視頻數據量的爆發式增長更加加劇了對高效編解碼這樣的底層硬核技術的急迫需求。正是在這樣的大環境下,在ITU-T VCEG和ISO/IEC MPEG兩大標準組織再次聯手推出的最新視頻編解碼標準VVC定稿不久之后,阿里巴巴的視頻團隊開始全力投入開展VVC軟件編解碼的開發工作。本次LiveVideoStackCon2021北京峰會我們邀請到了阿里巴巴研究員,阿里云智能云視頻標準與實現負責人葉琰老師來分享視頻業界現狀、Ali266自研VVC編解碼器的技術演進史和業務展望、以及視頻業界所面臨的未來機遇和挑戰。
沖刺最后一公里——音視頻場景下的邊緣計算實踐
近年來,邊緣計算逐漸從未來風口變成了進行時,而內容分發這個天生與“下沉”密不可分的領域,在邊緣計算實踐中可謂一馬當先。網心從2014年開始探索邊緣傳輸網絡的商業可行性,實現了傳統CDN到邊緣CDN的技術演進,也見證了邊緣CDN從超前概念到行業標配的發展歷程。當數據下沉到最后一公里時,在如此復雜的節點和網絡環境下構建百萬量級的邊緣節點網絡,同時服務好需求不斷深化的音視頻業務,是一個不小的挑戰。在此次LiveVideoStackCon 2021 音視頻技術大會 北京站,我們邀請到了網心科技首席架構師——曾偉紀,與大家分享一些實踐歷程和關鍵問題,以供參考。
下一代音視頻SDK的方案設計
經過五年的努力,騰訊云終端團隊不斷完善并積累出了一套完整的終端SDK方案體系,包含即時通信,主播推流,直播播放、點播播放、RTC實時互動、短視頻錄制,特效編輯等一系列音視頻和實時通信相關的功能特性。在這些功能背后,團隊是如何完成了框架設計、組件打磨、數據流轉、性能優化的呢?本次LiveVideoStackCon 2021北京站我們邀請到了騰訊云的常青來從產品能力、架構設計、以及技術原理等多個角度進行剖析分享。
基于神經網絡視頻編碼的通用測試規范
JVET第20次會議為基于神經網絡的編碼成立了EE1,這個EE專門用于探索深度學習在視頻編碼方面的潛能。為了規范和統一測試條件,JVET專門制定了相應的通用測試條件(Common Test Conditions ,CTC),最新版CTC為JVET-X2016(公眾號后臺回復“JVET-X2016”獲取)。CTC規定了配置、測試序列、訓練序列、參考軟件、訓練方法、評價指標等。
用于大規模視頻流的硬件編碼架構
本次演講將介紹基于硬件的視頻編碼的進展。目前大規模視頻服務和平臺被迫降低其運營成本,同時減少碳足跡。演講將比較 GPU、FPGA 和基于 ASIC 硬件的數據中心視頻編碼。并介紹 ASIC 能夠解鎖新視頻應用并提高現有解決方案的經濟可行性的特定用例。
一問一答,淺談Penguins AI-Codec
騰訊會議天籟實驗室攜手騰訊AI Lab,共同打造的Penguins,于2021騰訊技術生態大會上正式面世。Penguins是一款超低碼率、高質量AI-Codec,支持多種運行模式,以滿足RTC場景下多種應用訴求。其核心技術點在于,緊密結合經典信號處理和最新的深度學習技術,最大化提升帶寬利用率。
奈飛TV流媒體的AV1實踐
AV1 是由開放媒體聯盟(AOMedia)提供的第一個免版稅許可的高效視頻編解碼器,Netflix 作為 AOMedia 的創始成員和 AV1 發展的主要貢獻者,希望將 AV1 流媒體帶到 Netflix 用戶的 TV 上。為此 Netflix 做出了許多努力,克服了許多問題與挑戰,這里簡要介紹了四大挑戰以及 Netflix 的解決方案。最終 Netflix 實現了用戶體驗質量的提升,延遲的降低。
航拍 HDR 視頻的 VVC 和 AV1 編碼
本文來自 SPIE Optical Engineering + Applications, 2021,作者從以下三個角度研究了航拍 HDR 視頻:a) 轉換為 VVC 或 AV1 格式碼流的方便性;b) 轉換為 VVC 或 AV1 格式碼流的效率;c) 是否存在復雜度或播放上的問題。
軟硬一體的算法實踐,阿里云如何以算法實現場景“再創新”?
音視頻消費的新場景催生了越來越多新的技術需求,從當下的直播、點播、RTC,到未來的XR和元宇宙,音視頻技術對新場景的支撐越來越趨向于綜合性,近年來AI算法發展迅猛,但是較好的算法效果往往需要消耗很大的算力資源,這使算法商業化落地面臨非常大的挑戰。我們應該如何充分發揮軟硬一體的能力?如何有效平衡算法效果和性能?
小波去噪的基本原理及其實現方法(Matlab)
小波去噪方法就是一種建立在小波變換多分辨分析基礎上的算法,其基本思想是根據噪聲與信號在不同頻帶上的小波分解系數具有不同強度分布的特點,將各頻帶上的噪聲對應的小波系數去除,保留原始信號的小波分解系數,然后對處理后的系數進行小波重構,得到純凈信號。
WebRTC 實現 Android 傳屏 demo
目前,WebRTC的應用已經不局限在瀏覽器與瀏覽器之間,通過官方提供的SDK,我們可以很容易的實現本地應用間的音視頻傳輸。在Android平臺上,我們也非常容易的集成WebRTC框架,用非常簡潔的代碼就能實現強大、可靠的音視頻傳輸功能。
深入理解 TCP 擁塞控制
隨著網絡技術的飛速發展,越來越多的工作依賴網絡完成,基于互聯網的實時通信系統的質量和實時性也很大程度也依賴于網絡質量。然而,在Internet的TCP/IP體系結構中,擁塞的發生是其固有的屬性。網絡擁塞是指用戶對網絡資源(包括鏈路帶寬、存儲空間和處理器處理能力等)的需求超過了固有的處理能力和容量, 相比UDP,TCP自身具有擁塞控制機制,并且需要保障數據可靠傳輸,這會對基于TCP的音視頻實時傳輸造成一定的困擾。本文將深入講解TCP的擁塞控制機制以及如何基于TCP傳輸來設計一個實時音視頻系統。
Python 三維姿態估計+Unity3d 實現 3D 虛擬現實交互游戲
隨著人機交互技術飛速發展,人體姿態估計技術越來越受到重視。姿態估計作為人體行為識別的重要組成部分,近年來逐漸成為計算機視覺領域的一個重要的研究熱點。由于人體結構和姿態的復雜性以及視覺理論的局限性,最初人體姿態估計算法僅從圖像或者視頻當中預測人體二維骨架節點的坐標位置。2015年馬普所提出了由姿態與體型參數驅動的蒙皮多人線性模型,由于該模型具有出色的建模效果與快速的計算效率,許多團隊提出了利用該模型進行人體姿態估計的方法。
NeurIPS 2021 | 視覺Transformer和CNN看到的特征是相同的嗎?谷歌大腦新作
近年來,Vision Transformer (ViT) 勢頭強勁。本文將解釋論文《Do Vision Transformers See Like Convolutional Neural Networks?》 (Raghu et al., 2021) 由? Google Brain 發表,并探討傳統CNN 和 Vision Transformer 之間的區別。
基于點線特征的激光雷達單目視覺里程計
本文介紹了一種新穎的使用點和線的激光雷達+單目視覺的里程計方法。與以往的基于lidar+視覺里程計相比,通過在姿態估計中引入點和線特征來利用更多的環境結構信息。提出了一種穩健的點線特征深度提取方法,并將提取的深度值作為點線捆集平差法的先驗因子。該方法大大降低了特征的三維模糊度,提高了姿態估計精度。
DROID-SLAM: 單目、雙目、RGBD相機的深度視覺SLAM
本文提出了DROID-SLAM, 一個全新的基于深度學習的SLAM系統. DROID-SLAM通過一個深度BA層來循環迭代的更新相機位姿和像素深度值. 實驗證明, DROID-SLAM比傳統SLAM取得了更高的精度和魯棒性, 在實驗場景中幾乎不會失敗. 盡管我們只在單目視頻上訓練了我們的網絡, 但是在測試階段,這個網絡仍然可以在雙目和RGB-D視頻上取得很好的表現。
活動推薦
【城市沙龍】LiveVideoStack Meet|成都:蜀主風流
11月20日,LiveVideoStack Meet 成都站 將采用線上直播形式,我們邀請到了京東、新東方、順豐和咪咕視頻等企業的嘉賓進行干貨分享,與大家暢談成都的音視頻環境與發展。也期待疫情過后,有更多零距離的交流。
報名鏈接:
https://www.huodongxing.com/event/9621015759400
插圖源自Pexels
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 220的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 冲刺最后一公里——音视频场景下的边缘计
- 下一篇: 拥抱智能,AI视频编码技术的新探索