阿里云视频云编码优化的思考与发现
王豪(天野)
阿里云智能視頻云 資深技術專家
2010 年畢業于華中科技大學,此后投身多媒體方向的技術開發,從流媒體、視頻編碼、視頻處理到質量評價均有涉及,并從零開始打造了一款廣泛商用的視頻編碼器及其前后處理系統。加入阿里云視頻云后,負責視頻編碼與增強算法,團隊聚焦在視頻編碼、視頻前后處理以及質量評價方向,并重點研發演進窄帶高清技術。
此次作為?LiveVideoStackCon 2021 的講師,王豪與我們分享其對編碼優化的思考與發現。
Q1.你最近關注的技術趨勢?有哪些是你認為比較有發展前景的?
我個人的技術棧一直聚焦在視頻編碼和處理方向,也一直在思考,在這個方向上,我們短期和長期的布局是什么,中短期布局如何保證競爭力,以及長期布局如何避免系統性踏空。
利用 AI 輔助視頻壓縮是業界非常關注的方向,它有這幾種思路:
1.?私有編碼模式:端到端的視頻壓縮,基于深度學習的模塊級視頻壓縮優化;
2. 基于實時圖像生成的視頻壓縮,因為 GAN 生成人臉和人體比較成熟,但在其他場景成熟度不夠,因此這個方向在會議場景比較火,我們也在持續關注和嘗試。
3. 基于標準編解碼器的視頻編碼與處理聯合優化,包括兩部分:利用視頻處理提升編碼壓縮率和利用視頻編碼提升視頻處理效果。
這其中,我最關注 “基于標準編解碼器的視頻編碼與處理聯合優化”。針對視頻后處理,還有如何進行編碼決策優化(包括模式和碼率),同時擴展到分層編碼,這個方向是整個端云聯合優化的核心,對工業界應用有很大價值,希望到時候和大家一起探討。
Q2.你曾經參與上線的音視頻業務,印象深刻的一個是?
印象最深的肯定是當下正在做的業務。我們團隊正在進行窄帶高清第二代的算法優化升級,在如何持續提畫質和降碼率的過程中走了很多彎路。
目前,在窄帶高清第二代優化中,我們從人眼視覺出發,將客觀最優轉向主觀最優,同時利用 AI 進行視頻增強,再加上視頻編碼處理聯合優化,使得碼率節省的同時,主觀質量也明顯得到優化,這項技術更適合高熱內容場景的處理,能夠為客戶帶來更大的商業價值。
什么是窄帶高清??
窄帶高清代表的是一種成本與體驗相調和的視頻服務理念,阿里云早在 2015 年就提出了 “窄帶高清” 的技術概念,其是以人眼主觀感受最優為基準的視頻編碼技術。窄帶高清在業界屬于內容自適應編碼范疇(contentadaptive encoding), 核心目標為:追求帶寬,質量,成本的最優平衡。
窄帶高清的技術價值?
直播平臺調研數據顯示,只有 16% 的用戶能夠看到超清的視頻,54% 的用戶能夠看到高清的視頻,30% 的用戶看不到高清視頻。窄帶高清以人眼主觀感受最優為基準的視頻編碼,能夠把超清碼率往高清碼率更靠近一些,讓更多的人可以看到超清視頻。
- 窄帶高清 1.0: 通過視頻前處理提升視頻質量,實現碼率節省。
- 窄帶高清 2.0: 引入 AI 進行細節 / 色彩自適應修復、增強,從人眼視覺模型出發,將視頻的優化目標從經典的 “保真度最高” 調整為 “主觀體驗最好”,在提供更加清晰的觀看體驗同時節省帶寬。
Q3.你此前接受?LiveVideoStack?的采訪時,有討論過視頻 Codec 的未來格局:
“先說結論:視頻 codec 的未來格局必然是群雄爭霸的局面,并且在中美貿易戰的影響可能出現新的變數。由于 HEVC 專利池的各種問題,H.264 一家獨大的優勢不復存在,目前 AV1 在國外基于谷歌生態的優勢,已經在流媒體領域站住了腳跟,形成三強爭霸的局面。對于下一代編碼器而言,AV2 預計距發布還有一定的時間,這里先不評價,已經發布的 AVS3 基于當前貿易戰的形式下可能有新的機會,而對于 EVC 和 VVC,專利策略將是市場是否接受的關鍵因素,目前還不好說。”
—— 在?VVC 定稿、神經視頻編碼進一步突破、AV1 不斷普及的一年后,
你對此有哪些的看法與思考呢?
現在依然是群雄爭霸的局面,主流也依然是 H.264,VP9?因為壓縮率沒有真正和 H.264?拉開差距,雖然生態也很全面,但使用不多。H.265?的硬件解碼在消費電子和智能電視上被廣泛支持,唯一的軟肋是瀏覽器。目前,在流媒體領域,H.265 依然是除 264 外最合適的 codec。
去年,AV1,AVS3?都找到了自己的優勢場景。AV1 憑借谷歌在 WebRTC、瀏覽器以及安卓的生態里被廣泛推廣,因此在瀏覽器和 WebRTC 上的應用都有優勢,但硬件編碼器的支持還是不足,尤其在消費電子領域,目前還沒有看到對 AV1 的相關支持。此外,Sisvel 專利池的問題也還沒看到官方回應。而 AVS3 在國內電視廣播行業成了超高清的事實標準,央視也用 AVS3 進行了 8K 直播。
VVC?從技術上來看是最先進的視頻壓縮協議,最合適在業務閉環場景下應用,但目前其專利費結構最早要到今年年中才能獲知,個人認為專利問題很難解決,同時硬件解碼支持不明朗,需要持續觀察。
Q4.除去已被多次討論的在線教育、語音社交等領域,在你看來,視頻云行業還有哪些領域將迎來井噴式發展?
目前視頻的生產、制作和處理遠遠還不成熟,視頻制作依然存在門檻,視頻處理的帶寬也依然很大。如何滿足整個行業對視頻化的需求、如何幫助社會和行業降低視頻制作的門檻、降低視頻處理的成本,使視頻能夠普惠化,這些都是亟待解決的問題,而解決該矛盾的核心就是視頻生成和處理領域的技術,因此我們非常看好內容生產與處理領域。
阿里云視頻云希望能推動這個時代將大部分內容的表達方式和信息的傳播媒介從圖文進化為視頻,這個方向也是我們的發力點。當然,這中間還有很多關鍵技術需要持續提升和突破,例如實時渲染技術,AI 在生產制作領域的進化等。
Q5.視頻云行業的蛋糕會在未來持續變大嗎?阿里云視頻云為掙得 “更大的蛋糕”,在視頻編碼等相關領域做了哪些技術儲備?
目前視頻已經廣泛地應用于各行各業,視頻也開始承載越來越多的社會信息,很多交互都從線下轉到線上,隨著 5G 時代的到來,相信視頻領域將會不可避免地迎來更猛烈的爆發。為幫助各行各業更好地承載信息,視頻技術的演進方向也會越來越云化、數字化、普惠化,視頻云行業會持續高速增長。
我們一直致力于如何將視頻技術普惠化,普惠化的核心是成本和體驗,基于這個思路,在視頻編碼和處理方向,最核心的就是如何幫客戶提升質量,同時降低帶寬成本和服務器成本。
我們所有技術布局都圍繞這個目的,總的來講做了如下方向的布局和持續突破:
1. ?編碼內核:軟硬一體,編碼器持續降成本;
2. ?AI 輔助壓縮,場景自適應編碼;
3. ?下一代編碼器優化,持續打造編碼競爭力。
Q:你的職業發展伴隨著視頻編解碼技術的不斷迭代升級,能和我們分享在編解碼技術上的學習心得以及自己的職業理想嗎?
感覺自己比較幸運,個人發展正好遇到了多媒體技術爆發性發展的時間段,尤其是視頻技術。看到越多越多的視頻壓縮和處理技術不斷涌現出來,是一件非常爽的事情。
關于個人職業發展,我覺得最重要的還是興趣驅使,這對于行業入門以及后續的個人提升都非常重要。尤其是入門期間,需要真正由興趣驅動,才能在繁忙的工作中強行抽出時間去真正熟悉一項技術。
其次,有關個人技術的升級,我覺得這就是一個不斷地自我否定和自我肯定的過程:自我否定能幫助我們找到提升自己的方向,自我肯定則能幫助我們在困難的時候繼續走下去。理想的話,目前是希望能做出真正能改變世界、影響世界的技術和算法,能改變人們的溝通和交互方式;從技術上來說的話,希望和同行們一起 Make Video Codec Great Again!
Q6.本次參與 LiveVideoStackCon 2021 上海站,你將帶來有關阿里云視頻云窄帶高清的優化思路,可以劇透一些演講內容嗎?
主要會分享:
1.? 我們在窄帶高清方面的思考,窄帶高清歸根結底是一個壓縮問題,隨著深度學習的發展,視頻處理,視頻生成輔助壓縮成為學術界和工業界的研究重點,在這個方向我們的觀點是什么?窄帶高清的終極目標是什么?
2.? 為達到這個終極目的,我們對窄帶高清技術的短期思路和長期思路分別是什么?為什么對窄帶來講,評價的唯一方式是主觀?
3.? 基于該思路,我們在短期進展及對未來的布局和思考。
Q7.對于這次 LiveVideoStackCon 2021 上海站的所有演講陣容中,你對哪方面的分享內容最感興趣?
從個人來講,視頻編碼和處理方向的技術我都很感興趣,比如如何利用 AI 輔助傳統視頻編碼提升壓縮率、傳輸哪些 bit 對視頻后處理質量提升最大、編解碼聯動時編碼器的決策需要做哪些優化、如何利用 bit 幫助視頻處理降低復雜度,以及編碼器前處理如何保證編碼后質量最優等問題。
除技術外,對技術商業策略方向也非常感興趣。目前視頻技術已經慢慢變成了一個社會、行業的基礎能力,在這個背景下,視頻如何更好地服務于各行各業,對技術、產業、商業提出的挑戰是什么?跨在技術和商業落地之間的鴻溝是什么?以及如何跨越這些鴻溝等,都是很值得討論的話題。
Q:如果要為想從事視頻編解碼優化工作的同學推薦一本書 / 一門課,你會推薦什么?
編碼優化是一個 “理論 + 標準 + 工程” 的流程,需要不斷地去迭代、循環,帶著理論的疑問,在標準中思考原因,在工程優化中發現問題,再從理論中尋找答案。
理論方面,視頻編碼屬于信源編碼(Source Coding)方向,一般應用都為有損壓縮,因此,想要從事相關工作的同學在信源編碼和率失真優化(Rate Distoriton Optimization) 方面都需要積累基礎的理論知識。
標準方面,中文書推薦楊付正老師的《新一代高效視頻編碼 H.265/HEVC:原理、標準與實現》,英文書推薦 High Efficiency Video Coding.Algorithms and Architectures,可以看一個標準入門,不用貪多。工程方面,建議大家可以拿一個開源編碼器入手,比如 x265,還可以和 HM 對比著看,思考兩者的差異,包括數據結構的設計、模塊架構、碼控等等,這樣會更有感覺。
LiveVideoStackCon 2021?上海站時間:2021 年 4 月 16 日 - 4 月 17 日
原文鏈接:https://developer.aliyun.com/article/783564?
版權聲明:本文內容由阿里云實名注冊用戶自發貢獻,版權歸原作者所有,阿里云開發者社區不擁有其著作權,亦不承擔相應法律責任。具體規則請查看《阿里云開發者社區用戶服務協議》和《阿里云開發者社區知識產權保護指引》。如果您發現本社區中有涉嫌抄襲的內容,填寫侵權投訴表單進行舉報,一經查實,本社區將立刻刪除涉嫌侵權內容。總結
以上是生活随笔為你收集整理的阿里云视频云编码优化的思考与发现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 零起点入门教程:1分钟极简操作,新手也能
- 下一篇: 2021研发效能实践案例征集大赛