音视频技术开发周刊 | 213
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
?
聲學照相機——讓聲音“眼見為實”
日常生活中,總有各種各樣的聲音圍繞著我們,無時無刻不在通過振動敲擊著我們的耳膜,并通過內耳毛細胞將振動轉變為電信號傳輸至大腦。然而,在獲取信息時,人類通過聽覺捕獲的信息量不足視覺的四分之一,且聽覺在空間定位方面遠遜于視覺。那么,有什么技術手段可以讓我們看見聲音呢?答案就是——聲學照相機。
詳情見>>???????聲學照相機——讓聲音“眼見為實”
?
極致流暢體驗的密碼:網易云信 QoS 策略介紹 | 體驗共享技術專題
近日,艾媒咨詢發布了《2021年中國泛娛樂行業體驗共享專題報告》,首次提出「體驗共享」將成為泛娛樂行業日后發展的重要方向。針對該趨勢,網易云信推出「體驗共享」技術專題,從 QoS 策略、WE-CAN 全球智能路由網絡、視頻、音頻等維度解讀一起聽、一起看、一起唱、一起玩等場景背后的技術支持。本篇文章是該系列的第一篇。
詳情見>>極致流暢體驗的密碼:網易云信 QoS 策略介紹 | 體驗共享技術專題
?
未來流媒體工作流的核心技術
本文作者以行業內資深大佬的眼光,首先概述了當下 OTT 領域的關鍵技術,然后展望了未來有前景的新技術,內容豐富,涵蓋廣泛。原文中有大量推薦閱讀及參考鏈接,感興趣的讀者請進原文觀看。
詳情見>>未來流媒體工作流的核心技術
?
DeepMind研究科學家:NLP基準測試的現在、過去和未來
NLP 基準測試所面臨的挑戰、機遇和一些改進的建議。我們希望這篇文章可以讓讀者了解這方面科研的最新進展,也要讓初學者全面了解NLP。文中還涉及到最近的論文、ACL 2021 演講以及ACL 2021 基準測試研討會的觀點,其中許多觀點涉及到了過去、現在和未來。
詳情見>>Mind研究科學家:NLP基準測試的現在、過去和未來
?
????【競賽小匯】NTIRE2021 視頻超分競賽
TIRE2021的視頻超分競賽仍然延續NTIRE2020以及AIM2019/20采用了REDS數據集,它的訓練集、測試集以及驗證機分別包含24000,3000,3000高清()視頻序列,每個序列包含100連續幀(命名為:'00000000.png'-'00000099.png')。本文對NTIRE2021視頻超分競賽進行了簡單的介紹,總而言之一句話:BasicVSR是最大贏家。
詳情見>>【競賽小匯】NTIRE2021 視頻超分競賽
ITU簡史(三)
自1865年起的一個半世紀以來, ITU(國際電信聯盟)一直處于通信發展的核心地位,無論是從電報問世還是到以衛星、移動電話和互聯網為標志的現代世界。ITU講述的是政府、私營公司和其他利益攸關方之間開展國際合作的故事。我們的持續使命是,在新技術發展的過程中,找到整合新技術的最佳實際解決方案,使所有人均能享受新技術的好處。(進入文章后,文末含ITU簡史(一)、(二)部分鏈接可點擊瀏覽)
詳情見>>ITU簡史(三)
如何實現 iOS 短視頻跨頁面的無痕續播?
在一切皆可視頻化的今天,短視頻內容作為移動端產品新的促活點,受到了越來越多的重視與投入。盒馬在秒播、卡頓率、播放成功率等基礎優化之外,在用戶使用體驗上引入了無痕續播能力,提升用戶觀看視頻內容的延續性。本篇將分享盒馬在 iOS 短視頻方面的實踐干貨。
詳情見>>如何實現iOS短視頻跨頁面的無痕續播
?
用于VVC質量增強和超分辨率的多任務學習
本次演講主要對論文《Multitask learning for VVC Quality Enhancement and Super-Resolution》進行了介紹。論文中介紹了一種多任務的訓練方式,可以使用單個模型分別進行超分和壓縮視頻質量增強,并且取得相比于單個模型更好的效果。
詳情見>>???????用于VVC質量增強和超分辨率的多任務學習
三星電子推出X-net架構用于語音通話
近日,三星電子推出X-net,這是一種聯合學習的Scale-down和Scale-up架構,用于語音編碼中的預處理和后處理,作為在帶寬受限的語音通話信道上擴展帶寬的一種手段。其中,在發送端和接收端分別部署Scale-down和Scale-up,以進行下采樣和上采樣處理。并對子模塊進行單獨監督訓練,這樣即使缺少一個子模塊,X-net也能夠正常工作。在三星電子發表的X-net論文中(X-net: A Joint Scale Down and Scale Up Method for Voice Call),有結果表明,聯合訓練的 X-net 在客觀和主觀指標上,比常見的音頻超分辨率方法有明顯改進,即使在只有 1k 參數量級的輕量級網絡上也是如此。
詳情見>>三星電子推出X-net架構用于語音通話
Easy Tech:什么是I幀、P幀和B幀?
I幀、P幀和B幀(I-frames、P-frames and B-frames)的概念是視頻壓縮領域的基礎。這三種幀類型在特定情況下用于提高編解碼器的壓縮效率、壓縮流的視頻質量,以及使得流去應對傳輸和存儲時候的錯誤和故障。
詳情見>>Easy Tech:什么是I幀、P幀和B幀?
關于幀內預測技術的一些梳理和思考
預測在中文的解釋是:預先測定或推測,即為在所有已知條件下,推測未知的信息。在視頻編碼里的預測技術分為兩種,如果預測過程信息源來自當前幀,則稱之為幀內預測(intra prediction),如果預測信息源來自其他幀,則稱之為幀間預測(inter prediction)。對編碼器來講,它們都有著一樣的輸入、輸出和結果目標。
詳情見>>關于幀內預測技術的一些梳理和思考???????
ICASSP2021:AV1幀內模式編碼改進
本文來自ICASSP2021論文IMPROVED INTRA MODE CODING BEYOND AV1。在AV1中幀內預測模式分為角度幀內預測模式和非角度幀內預測模式,和VP9一樣有8種角度幀內預測模式,在每種方向上還有7個delta角度(-3~+3)用于擴展方向的粒度,總共56個方向模式。
詳情見>>ICASSP2021:AV1幀內模式編碼改進
基于線性預測的語音編碼原理解析
早期的音頻系統都是基于聲音的模擬信號實現的,在聲音的錄制、編輯和播放過程中很容易引入各種噪聲,從而導致信號的失真。隨著信息技術的發展,數字信號處理技術在越來越多領域得到了應用,數字信號更是具備了易于存儲和遠距離傳輸、沒有累積失真、抗干擾能力強等等,信號和信號處理都往數字化發展。為了使得數字音頻可以被高效地壓縮存儲并高品質地還原,數字音頻的編碼技術就變成至關重要的一個部分了。本篇文章會介紹當今的音頻的編碼器(傳統算法非深度學習)的兩大主流陣營之一的基于線性預測的語音編碼器的原理。
詳情見>>基于線性預測的語音編碼原理解析
?
大話ion系列(一)
ion-sfu作為ion分布式架構里的核心模塊,SFU是選擇轉發單元的簡稱,可以分發WebRTC的媒體流。ion-sfu從pion/ion拆分出來,經過社區打磨,是目前GO方案中最成熟且使用最廣的SFU。
詳情見>>大話ion系列(一)
詳解 WebRTC 傳輸安全機制:一文讀懂 DTLS 協議
DTLS(Datagram Transport Layer Security) 是基于 UDP 場景下數據包可能丟失或重新排序的現實情況下,為 UDP 定制和改進的 TLS 協議。在 WebRTC 中使用 DTLS 的地方包括兩部分: 協商和管理 SRTP 密鑰和為 DataChannel 提供加密通道。
詳情見>>詳解 WebRTC 傳輸安全機制:一文讀懂 DTLS 協議
?
YangWebRTC,全新的客戶端開源項目
yangwebrtc是一個自主研發的支持Webrtc/Srt/Rtmp的rtc架構,包含多種視音頻編解碼和處理等。支持視頻會議、高清錄播直播、直播互動等多種視音頻應用。可用于遠程教育、遠程醫療、指揮調度、安防監控、影視錄播、協同辦公、直播互動等多種行業應用。
詳情見>>YangWebRTC,全新的客戶端開源項目???????
?
DECA:基于單張靜態圖像,進行 3D 人臉建模
3D 建模是計算機視覺領域中的一個關鍵問題,其中 3D 人臉建模,在游戲、影視特效、VR 等領域應用廣泛。但是由于人臉的復雜性、易變性,建立逼真的 3D 人臉模型,成為眾多研究者不得不面對的一大挑戰。本文羅列了 3D 人臉建模常用的 3 大方法,以及基于靜態圖像進行人臉建模的 3 個方法。文末分享了一個 DECA 教程。
詳情見>>DECA:基于單張靜態圖像,進行 3D 人臉建模
ICCV2021 盲圖像超分 MANet:ETH團隊提出空間可變模糊核估計新思路
這篇文章是ETH團隊在盲圖像超分之空間可變模糊核估計 方面的工作,已被ICCV2021接收。針對實際應用場景中模糊核的空間可變性,提出一種新的空間可變模糊核估計方案MANet。從退化的局部性角度發出,對現有方案的局限性進行了分析,同時提出MAConv解決小模型的弱表達能力問題。相比已有模糊核估計方案,所提方案取得了顯著性能提升;當與非盲圖像超分方案組合后,將盲圖像超分性能推到了新的高度。
詳情見>>ICCV2021 盲圖像超分 MANet:ETH團隊提出空間可變模糊核估計新思路
神經渲染最新進展與算法(二):NeRF及其演化
基于神經輻射場(NeRF)的場景表征與容積渲染無疑是近兩年神經渲染方向的爆點工作之一。在提出后的短短一年左右時間內,NeRF以簡潔優美的實現思路吸引了大量學者進行深入和拓展研究。本文主要介紹了NeRF方法的基本思想與實現,分析了該方法的優點和局限,探討了它在計算加速和可編輯渲染方向的一些最新進展。相信NeRF方法會進一步推進神經渲染的發展。我們將持續關注這一領域,并不定期分享我們的認識。
詳情見>>神經渲染最新進展與算法(二):NeRF及其演化
?
在元宇宙中絕對需要的雙手!AI算法實現手指重建,倒酒沏茶不在話下,甚至可以搖花手!
AI算法實現手指重建這項研究由來自愛丁堡大學的He Zhang和Facebook Reality Labs的幾位合作者共同完成。與其他類似研究相比,這項研究幾乎擁有目前效果最好的手指動作建模。這一切都是依靠團隊提出的ManipNet深度神經網絡算法。ManipNet利用手-物體對象的空間之間的關系特征,直接從數據中學習手部的自然動作。
詳情見>>在元宇宙中絕對需要的雙手!AI算法實現手指重建,倒酒沏茶不在話下,甚至可以搖花手!???????
?
Tobii CEO:AR/VR的未來形態將廣泛結合眼球追蹤
作為眼球追蹤方案的主流廠商之一,Tobii的技術在AR/VR領域取得多項應用,比如Vive Pro Eye、惠普Reverb G2 Omnicept版本等頭顯均采用其眼球追蹤系統。近期,Tobii宣布將收購汽車系統公司Phasya,規模高達470萬美元。Phasya提供的技術包括:通過眼球追蹤來監控司機精力的可穿戴解決方案Drowsimeter,以及識別司機壓力、視覺干擾、認知負荷等技術。
詳情見>>Tobii CEO:AR/VR的未來形態將廣泛結合眼球追蹤
?
慕尼黑國際車展:自動駕駛技術再“上新”
智能汽車是未來汽車發展的方向,而自動駕駛是其中最重要的技術之一。在2021年德國慕尼黑國際汽車展(IAA)上,自動駕駛成為各廠商展示創新技術的重要領域。德國大眾集團CEO迪斯在車展的論壇上表示:“自動駕駛將會徹底改變世界,因為它改變了人們對車的使用方法。”
詳情見>>慕尼黑國際車展:自動駕駛技術再“上新”
車輛聯網后,下一步是「駕駛員聯網」?
如果將數據比喻為新形態的石油,那么遠程通信行業就正在為鉆機配備人員、操作管道和提煉原油產品。盡管這是一個充滿爭議的比喻,但隨著互聯汽車的出現,移動領域確實有許多參與者希望通過車輛數據來實現更安全的道路狀況、更健康的車輛、得到強化的車內體驗和新的收入來源。
詳情見>>車聯網后,下一步是"駕駛員聯網"?
激光雷達的強度標定及路標提取
自動駕駛對高精地圖的需求日益重要,本文主要是研究3D激光雷達傳感器如何進行強度標定,能夠利用標定后的強度信息實現路標的提取和識別, 典型的激光雷達傳感器測量值包含了距離信息和強度信息,所謂的強度信息即是從物體表面反射的強度,在物理上分析,強度的值取決于三個因素:物體反射率,到物體表面的距離,以及入射角,因此相同反射率的路標值相對于傳感器的不同的距離和入射角,將得到不同的強度值。通過對激光雷達的強度標定,確保對同一物體的具有相同的強度值。為了解決這一問題,利用了傳感器相對于參考物體表面的強度特性,估算了物體表面的反射率,利用Ostu閾值法進行道路路標線的提取,驗證標定結果的可行性。
詳情見>>激光雷達的強度標定及路標提取
活動推薦
?
【免費參與】從多維度出發 保障&提升實時音視頻質量
10月30日 | 北京?LiveVideoStack將攜手七牛云共邀4位技術大咖,圍繞著實時音視頻場景下,七牛云如何從多個維度來保障和提升音畫質量展開。我們所理解的音畫質量,不僅包括最基礎的服務質量,還包括我們的觀感體驗,本場將會從服務端、客戶端、編解碼等多個領域展開,對保障和提升音視頻質量相關的經驗進行分享。
?
掃碼?👆🏻👆🏻👆🏻立即報名
? 活動時間:2021/10/30?9:00-12:00
🚀 參與方式:掃描上方二維碼,免費參與線下活動(現場還會有精美禮品喲~)
?
掃描上方二維碼,限時免費報名LiveVideoStack Meet | 北京沙龍!
插圖源自Pexels
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 213的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【媒体服务质量监控与QoE】
- 下一篇: 【今晚七点半】:主编对话李宇翔——我所经