音视频技术开发周刊 | 221
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
擁抱智能,AI視頻編碼技術的新探索
隨著視頻與交互在日常生活中的作用日益突顯,愈發多樣的視頻場景與不斷提高的視覺追求對視頻編碼提出更高的挑戰。相較于人們手工設計的多種視頻編碼技術,AI編碼可以從大數據中自我學習到更廣泛的信號內在編碼規律。工業界與學術界發力推動AI視頻編碼標準并進行新框架的探索。阿里云視頻云在JVET面向人眼的視頻編碼標準和MPEG面向機器視覺的視頻編碼標準上均做出重要貢獻,對標準發展產生強有力的推動。結合產業需求強勁的視頻會議、視頻直播等場景,阿里云視頻云還開發了AI生成式壓縮系統,在同等質量下比VVC節省2-3倍碼率,實現真正的超低碼率視頻通信。本次LiveVideoStackCon 2021北京站我們邀請到了阿里云智能視頻云算法專家——王釗,為大家分享阿里云在AI視頻編碼技術的新探索。
騰訊云海外音視頻技術架構 — 挑戰和優化
騰訊云海外直播平臺不僅具備優質的物理資源,在軟實力上也得到了很大提升。在傳輸層上,除了傳統的TCP協議,同時還支持基于UDP的加速協議QUIC。在流媒體協議上,支持傳統的RTMP、HTTP-FLV、HLS等協議,同時支持多碼率自適應HLS和DASH,在此基礎上,升級實現了低延時的CMAF協議。近年來,基于WebRTC協議,海外直播系統實現了秒級延時的WebRTC低延時直播能力,在播放QoS優化上邁出了更大的一步。本次LiveVideoStackCon 2021北京站我們邀請到了騰訊云高級工程師,騰訊云直播海外技術負責人——胡仁成,分享在海外音視頻架構實踐中遇到的一些挑戰和優化思路。
視頻編碼標準、優化和畫質評估
對于下一代編解碼技術H.266/VVC標準,相比前一代H.265/HEVC標準,可以在主觀質量不變的情況下節省約50%的碼率。H.266/VVC標準之后是否還會有新的標準,如果有,可能涌現出哪些新技術?此外,在有限的碼率下,如何設計高效的視頻編碼壓縮方案,為用戶提供最佳的視頻畫質體驗。本次LiveVideoStackCon 2021北京站我們邀請到了火山引擎資深研究員——劉明和火山引擎資深研究員——羅亞,兩位老師分別為大家詳細介紹視頻編碼標準中的新技術,以及對下一代標準的探索;火山引擎視頻云在視頻的自適應編碼優化和畫質評估方面的探索與實踐,探討如何高效地優化不同內容視頻的編碼,在保證畫質的前提下,盡可能的節約視頻碼率。
網易云信自研大規模傳輸網核心系統架構剖析
隨著邊緣計算及RTC技術的興起,業務服務器的邊緣化可以帶來大量收益:一方面就近接入可以優化客戶端上下行質量,另一方面邊緣節點可以大幅降低帶寬成本。但如何保證相隔千山萬水的邊緣服務器之間的網絡傳輸質量成了一個難題。本次LiveVideoStackCon 2021北京站,我們邀請到了網易云信服務端首席架構師——吉奇通過分析網易云信自研大規模分布式傳輸網(WE-CAN)核心系統的架構對上述問題進行了深入探討。
IBM Cloud 助力音視頻解決方案成功出海
IBM有將近60個數據中心和PoP點,音視頻客戶能依托IBM的所有站點在全球部署節點。此外,IBM所有數據中心搭建了全球內網專線,所有數據中心的內網傳輸免費,節點的數據同步沒有任何開銷,在經典網絡環境中,IBM在全球機房提供了強大的金屬裸機, 同時也供應靈活部署的虛擬機加快構建異構的音視頻服務。在本次LiveVideoStackCon 2021北京站,IBM 胡磊分享了IBM Cloud 助力音視頻解決方案成功出海。在此次LiveVideoStackCon 2021 音視頻技術大會 北京站,我們邀請到了IBM云平臺事業部資深云計算架構師——胡磊,為我們介紹了IBM Cloud 是如何助力音視頻解決方案成功出海的。
基于學習的點云殘差編碼
對點云編碼,作者提出了基于學習的殘差編碼模塊,實現高效可伸縮的編碼。類似于此前幾個基于學習的壓縮方法,他們也在一個分層框架中實現了這個方法,并且使用了 G-PCC 標準中的兩個幾何壓縮模塊(即 Octree 和 TriSoup)對該算法進行比較評估。
VVC層級結構中基于神經網絡的參考幀生成
本文來自JVET-X0060 《NN-based Reference Frame Interpolation for VVC Hierarchical Coding Structure》。提案針對VVC的層級結構提出了基于深度神經網絡(DNN)的參考幀生產方法。在編碼和解碼過程中,參考列表中的兩個重建幀作為網絡輸入,輸出為新生成的幀。新生成的幀再經過一個濾波網絡的處理,然后插入到參考列表最后的位置。該方法Y、U、V節省的碼率分別為1.47%/4.19%/3.85%。
端到端視頻壓縮中的雙向預測
本次演講主要對論文《Bi-directional prediction for end-to-end optimized video compression》進行了介紹,本文以基于神經網絡的端到端視頻壓縮框架為基礎,提出了一種高效的雙向預測方法。
FFmpeg 調用 MediaCodec 硬解碼到 Surface 上
眾所周知,MediaCodec 的解碼能力不僅可以解碼出 YUV 數據,還能直接解碼到 Surface 上。在短視頻領域中,MediaCodec 解碼到 Surface 上的能力反而更加常用,這樣就能將畫面轉到 OES 紋理上,從而進行后續各種渲染操作。
蘋果獲空間音頻新專利
近日,美國專利和商標局正式授予蘋果一項與auralization領域相關的專利。更具體地說,它涉及到虛擬3D環境實時化的技術。AR/VR環境中的大多數創新都集中在游戲的虛擬3D環境上。蘋果獲得的專利包括虛擬環境的“聽覺化”,它描述了模擬聲音在外殼內傳播,其中幾何聲學(GA)的方法可以用于模擬聲波的某些真實行為的高質量的聽覺刺激合成。蘋果正在努力將空間音頻提升到新的維度。
SRT協議的數據包結構分析
公共互聯網中普遍存在著不同程度的丟包、抖動、延時和帶寬波動,這就需要一種可靠的傳輸協議來保證傳輸鏈路的可靠性。SRT(Secure Reliable Transport)協議-即安全可靠傳輸協議,是一種新興的視音頻傳輸協議,在視音頻的點對點實時傳輸方面有著非常好的應用效果,近年來其在廣電領域的發展也呈現出多點開花的趨勢,在現場直播、遠程制作、遠距離傳輸、上行推流等多方面都有著廣泛的應用。在實際工作中,理解和掌握SRT協議的數據包結構能夠幫助我們完成鏈路架設和調試,本文從SRT協議的工作流程入手,對SRT協議的數據包結構進行解析,之后舉例介紹如何利用Wireshark軟件進行抓包分析,從而排除鏈路故障或者獲取鏈路信息。
閱讀鏈接:https://www.livevideostack.cn/news/srt-polly/
VR 體育的未來
來自 BT Sports 的 Jamie Hindhaugh 和來自 Tiledmedia 的 Rob Koenen 詳細介紹了比特率、硬件解碼器、軟件、計算能力和其他為用戶帶來如此高分辨率視頻、定制回放所使用的組件。兩位主講人所在的公司負責了英超聯賽、歐洲冠軍聯賽在歐洲的轉播,尤其是 4k、360° 等形式的體育賽事直播。
Meta 推出《頭號玩家》中觸覺手套原型,伸向元宇宙的“觸手”出現了
從今年3月開始,Meta(原名Facebook)的現實實驗室 (RL) 就開始了觸覺感知手套的新項目,直到昨天,Meta正式推出觸覺感知手套,并分享了關于軟體機器人、微流控處理器、手部跟蹤、觸覺渲染和感知科學方面的工作進展。
統一視角理解目標檢測算法:最新進展分析與總結
目標檢測中有好多概念,例如兩階段、單階段、anchor-free、anchor-based等等,但其實這些概念并沒有十分嚴密的理論體系,也沒有非常明確的劃分標準,這也導致目前目標檢測領域的研究看起來比較混亂。所以本文嘗試理出一條更為清晰的體系框架,來更好的理解現有的目標檢測算法,或是給以后的研究提供一個更清晰的思路。
大道至簡,何愷明新論文火了:Masked Autoencoders讓計算機視覺通向大模型
11 月 12 日,一篇由 Facebook AI 研究院完成、何愷明一作的論文《Masked Autoencoders Are Scalable Vision Learners》成為了計算機視覺圈的熱門話題。這篇論文展示了一種被稱為掩蔽自編碼器(masked autoencoders,MAE)的新方法,可以用作計算機視覺的可擴展自監督學習器。
關于單目 3D 檢測最新成果,你想知道的都在這啦!
雖然基于點云的 3D 目標檢測方法性能不斷提升,但是激光雷達相對高昂的造價和對各種復雜天氣情況的敏感性推動著研究人員開始更多地探索基于視覺的 3D 目標檢測,其在近幾年成為越來越熱門的研究方向。本文主要介紹單目 3D 目標檢測的一些最新研究進展,同時帶來一些筆者的思考。
雙11結束黑五再繼續,零售巨頭首推自動送貨
中國人的雙十一剛過,對于美國人來說,他們的購物節“黑色星期五”也即將來臨。面對即將到來的購物節,全球零售商超巨頭沃爾瑪宣布開始使用全自動駕駛卡車運輸貨物。“這是零售行業首次采用‘無人卡車’運輸貨物”,沃爾瑪高管表示,“這些卡車上只有貨物,沒有司機。” 據了解,沃爾瑪使用的全自動無人駕駛卡車,是與硅谷初創公司Gatik合作的,目前主要用于短途運輸,最常見的就是從配送中心運到門店。Gatik數據顯示,自動駕駛卡車能將貨物運輸成本降低30%。目前,沃爾瑪正在美國其他地區進行類似的測試,希望繼續推廣這種運輸模式。
自動駕駛時代,巨頭Tier 1的困境與突圍
曾幾何時,博世、大陸、德爾福、采埃孚…這些國際巨頭一級供應商是令自主品牌車企仰望的存在。它們把控著整車上最核心的技術,擁有著絕對的議價能力,甚至他們的開發進度直接決定了車型的研發周期。而到了自動駕駛時代,巨頭Tier 1們本想延續在底盤電控和ADAS上的絕對優勢,但沒想到在特斯拉的示范效應下,車企們紛紛選擇“換個活法”。為了提升對自動駕駛技術的掌控能力,車企們開始與上游的芯片、算法供應商達成廣泛合作,自己干起來了原屬于Tier 1的系統集成的活。更有甚者,車企還會自研算法、自研芯片、自研操作系統…在這種產業鏈大洗牌的背景下,巨頭Tier 1的生存空間遭到空前擠壓——人才外流、技術壁壘撼動、品牌溢價喪失。毫無疑問,它們面臨困境了。
閱讀推薦
什么是視頻預處理?
視頻預處理對商業編碼器來說是非常關鍵的步驟,它包括去隔行、上/下采樣、降噪等重要操作。雖然預處理并不是視頻編碼器和視頻編碼標準的組成部分,但它會顯著影響視頻壓縮效率,所以理解視頻預處理的作用至關重要。在本篇文章中,讓我們一起來了解視頻預處理過程中的重要步驟。
活動推薦
【城市沙龍】LiveVideoStack Meet|西安
人文歷史遇到流媒體算法
西安作為十三朝古都,有深厚的人文歷史底蘊。LiveVideoStack Meet第五站將于12月04日落地西安,我們邀請到了西安電子科技大學、迪威碼半導體、網心科技、華為等校/企音視頻領域嘉賓,從編解碼、視頻傳輸、邊緣計算等多方面分享西安的多媒體發展,期待人文歷史遇到流媒體算法能碰撞出不一樣的火花。
活動時間:12月04日 14:00-17:30
活動地點:陜西省西安市電子科技大學北校區會議中心二層,203會議室
報名鏈接:
https://8392623630544.huodongxing.com/event/9624487473200
插圖源自Pexels
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 221的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LiveVideoStack Meet
- 下一篇: 理解ABR及其工作原理