思科Webex与下一代视频会议
# Editorial Note #
視頻會議在人們的日常生活中使用愈發(fā)頻繁,尤其是在新冠肺炎疫情的影響下視頻會議市場急劇增長,由此引發(fā)了思科網(wǎng)訊視頻技術(shù)的不斷更新。本次分享,我們邀請到了思科協(xié)作技術(shù)事業(yè)部的首席工程師Thomas Davies先生,他向我們分享了AV1的發(fā)展歷程,開發(fā)AV1時所受到的挑戰(zhàn),以及AV2的發(fā)展前景及其在實時通信中的作用。
文 / Thomas Davies
整理 / LiveVideoStack
大家好,我是Thomas Davies。我是思科協(xié)作技術(shù)事業(yè)部的首席工程師,今天我想和大家談?wù)凙V1、思科Webex與下一代視頻會議。
我今天的演講涉及幾個內(nèi)容,首先,我想談?wù)勛罱尚鹿诜窝滓鸬囊曨l會議應(yīng)用的迅猛發(fā)展。視頻會議應(yīng)用的普遍性應(yīng)該已經(jīng)有一段時間了,但新冠肺炎創(chuàng)造了一個轉(zhuǎn)折點,改變了實時通信的格局。然后,我想談?wù)剼v史背景,即開放媒體聯(lián)盟和實時通信的歷史。我們是如何取得AV1今天的發(fā)展的,當我們開發(fā)AV1時,我們考慮了怎樣的實時通信因素。然后我想談?wù)勎覀冊谒伎芖ebex上的AV1編解碼器,以及我們正在為我們的推廣做什么工作。最后,我想談?wù)凙V2在實時通信中的作用。我們還能在這一領(lǐng)域進行更多的創(chuàng)造嗎?
#1.視頻會議的發(fā)展
首先是視頻會議的迅猛發(fā)展。
我覺得我們這一年過得很不平凡,大家應(yīng)該都有同感。從會議的角度來看,這為我們開啟了新的篇章。從去年2月份開始,我們平臺上的會議急劇增長,大家可以看到一直到2月底,然后到3月我們的流量有了巨大增長——10倍、20倍、30倍的增長,每月會議參會者超過5億,每月會議超過250億分鐘。另一個有趣的因素是,我們開始召開更多的團隊會議,更多的教育會議等等,所以會議的規(guī)模增加了33%。因此,我們的用例發(fā)生了一些變化。流量大幅增加,這顯然對我們產(chǎn)生了影響,因為我們要相應(yīng)的提供支持。但這也向我們強調(diào)了擴展的必要性。我們從客戶那里得到的反饋是,我們需要把技術(shù)提升到一個新的水平。人們現(xiàn)在知道這項技術(shù)確實有效,但我們需要繼續(xù)前進,不斷提升工具和技術(shù),來改善人們的體驗。現(xiàn)在在某些情況下,我們增加了人工智能和用于背景噪聲抑制或?qū)崟r進行語音到文本的轉(zhuǎn)錄和翻譯的新技術(shù),但在提升用戶體驗質(zhì)量方面,我們無法繞過基本的視頻和音頻。這意味著我們要檢查我們的視頻處理線,但也意味著要有新的編解碼器,在編解碼器方面我們已經(jīng)使用了H264很長一段時間了。
不過關(guān)于最近的疫情經(jīng)驗,我們要問的一個問題是“這是新常態(tài)嗎?”。從某種意義上說,顯然不是,因為新冠肺炎很有可能是一生僅有一次的經(jīng)歷。但即使在新冠肺炎之前,遠程工作也在相當穩(wěn)定的增長,在過去的十年里增長了30%左右。我們所看到的是,人們越來越多地使用視頻應(yīng)用程序和視頻通話,而他們以前可能使用的是語音。但當疫情爆發(fā)時,許多公司開始審視其團隊的工作方式,并考慮疫情結(jié)束后會發(fā)生什么。74%的美國首席財務(wù)官預(yù)測,新冠肺炎結(jié)束后他們將保持大量的的遠程工作,這個預(yù)言是否正確我們拭目以待,但我認為許多公司將從根本上改變他們的工作方式。視頻會議市場預(yù)計將以每年11%的速度增長,也就是說在未來7年內(nèi)增長一倍以上。但免費使用也會越來越多。在許多情況下,視頻正在取代音頻,人們經(jīng)常打視頻通話,因為設(shè)備配置了視頻通話應(yīng)用程序,這改變了人們與這些設(shè)備的互動方式和使用設(shè)備的方式。新冠肺炎不會持續(xù)下去,但我認為它會對技術(shù)造成持續(xù)影響,在未來很長一段時間內(nèi)改變?nèi)藗兊墓ぷ鞣绞健?/p>
#2.AOM與實時通信
我們之前已經(jīng)看到過這些情況。在開放媒體聯(lián)盟成立之初,也出現(xiàn)了視頻會議的某種轉(zhuǎn)折點,特別是使用視頻會議,基于軟件的平臺增加了,這需要技術(shù)能力的提升。我們之前也想用其他的解決方案來推進,而開放媒體聯(lián)盟給了我們一個機會,來推動編解碼器的發(fā)展。
思科是開放媒體聯(lián)盟的創(chuàng)始成員之一。我們已經(jīng)感覺到,現(xiàn)有的標準并不能很好地服務(wù)于開放媒體,授權(quán)費用是一個障礙,特別是對于H265來說,我們已經(jīng)開發(fā)了H265解決方案,但是授權(quán)模型并不適合。我們在可能擁有數(shù)百萬的用戶的軟件平臺上使用。與此同時,我們需要下一代視頻編解碼器,因為H264已經(jīng)使用將近20年了,我們針對RTC開發(fā)了“Thor編解碼器”。這實際上說明了我們對平衡復(fù)雜性和壓縮性能非常謹慎。Thor被整合到第一個基于VP9的AV1測試模型中。從一開始我們就對新標準的實時通信重點工作感興趣,以理解每個工具對我們用例的影響。
但這到底意味著什么?我們應(yīng)該確定新視頻編解碼器在實時通信中的三種主要要求,首先與其他用例相比它的復(fù)雜性較低。而且我們特別希望,用軟件在商品化PC平臺上實現(xiàn),這并不是因為我們不使用硬件,而正是因為我們使用硬件,但是我們需要花幾年時間來開放硬件,然后又需要花幾年時間來開發(fā)配置了好的編碼器的好硬件。第二個因素是對網(wǎng)絡(luò)的彈性,我們需要符合標準的工具,來檢測修復(fù)錯誤并幫助從錯誤中恢復(fù)。第三個因素我們認為可能是更有爭議的因素,是我們想要限制標準的配置的數(shù)量,至少從工具的角度來說是這樣,因為新的配置就像新的編解碼器,我們必須與之交互操作,因此我們寧愿使用新的編解碼器,而不是使用多個編解碼器,必須與多個編解碼器交互操作,我們已經(jīng)看到由于這個原因,H264高配置檔的普及率相對有限,由于H264和H265的配置檔不同,可擴展性也受到了限制。
在復(fù)雜性方面,與其他一些用例相比,我們以一些低的質(zhì)量上的代價來獲得更快的運行速度,上面的紅色圓圈,就是我們想要編解碼器運作的地方,我們要快,我們需要有限的復(fù)雜性,這意味著我們不能僅僅是平均速度快,我們不能僅僅以平均每秒30幀的速度編碼,我們需要時時達到這些幀的時間要求。我們的目標之一,我認為這是設(shè)計良好的編解碼器標準的一個特性,是即使在類似的復(fù)雜性下也能實現(xiàn)真正的增益,這需要更快的操作點,如果你現(xiàn)在在視頻點播場景中,也許你會轉(zhuǎn)移到更高的復(fù)雜性。可能是更高的、多的復(fù)雜性,以實現(xiàn)這些增益,比如在視頻點播中,你也許能夠忍受5倍或10倍的復(fù)雜性,降低40%的碼率,但是由于我們在軟件中必須用一個標準替換以前的標準。我們可以用來增加復(fù)雜性的包絡(luò)有限。因此我們需要實現(xiàn)真正的增益,即使復(fù)雜性相似,我們可以容忍復(fù)雜性的適度增加,但增加不能非常大。
AV1在很大程度上滿足了這種需求,首先AV1工具可以為我們提供任何新標準所需要的巨大增益,比如屏幕內(nèi)容工具和強大的環(huán)路濾波,但同時我們所使用的任何一種能夠進行良好視頻編碼的核心工具,也保持了適度的復(fù)雜性。這些環(huán)路濾波有一定的復(fù)雜性,我們有多符號,算術(shù)編碼比其他標準的類似技術(shù)的復(fù)雜性更低,我們有非常簡單的插值濾波,我們有含有快速的分解轉(zhuǎn)化。在網(wǎng)絡(luò)彈性方面,通過幀編號我們可以檢測錯誤,因此我們可以看到,我們是否與參考幀不同步,通過這種彈性模式,即使之前的幀丟失了,我們可以解析幀,我們也可以修復(fù)那些丟失的幀,因為我們可以找到像運動矢量之類的東西,即使我們沒有參考幀,我們也可以利用這些信息進行插入,我們也有可擴展性作為標準。這也與第3點有關(guān),即只有一個主要配置,有基于色度采樣的配置文件,如4:4:4等等,但主要配置里有所有的工具,包括可擴展性,如果你想要構(gòu)建一個編碼器,這是非常有用的,因為它給你提供了一個完整的工具包來進行探索。并且有些人們確定標準時,認為簡單的工具有時候有可能實際上并不是最好的選擇,好在你在實現(xiàn)時,可以不被這樣的決定限制。
#3.思科Webex的AV1開發(fā)
在AV1開發(fā)期間,我們也在開發(fā)我們自己的編碼器,它是針對思科Webex的,即針對標準的。以軟件形式呈現(xiàn)在個人電腦硬件上。
我們展示了世界上第一個 AV1高清實時視頻編碼。我們?yōu)閿z像頭視頻設(shè)計了720p,為屏幕內(nèi)容設(shè)計了1080p。2019年夏天我們在紐約展示了這項技術(shù)。從那以后我們的編碼器速度提高了60%左右,我們一直在努力為AV1提供端到端解決方案所需的所有集成和系統(tǒng)支持。
那么我們的關(guān)注是什么呢?我們需要在分享的視頻內(nèi)容和攝像頭的輸入之間進行選擇,我們決定使用共享內(nèi)容。因為這確實代表了一些我們需要編碼的最具挑戰(zhàn)性的視頻,有些事情可能非常簡單,就像這個幻燈片,但盡管如此,人們越來越多的共享各種東西,我們共享圖表、幻燈片、YouTube視頻。或者可能在瀏覽器中播放的混合視頻,這是計算機設(shè)計應(yīng)用之外的東西。因此也對保真度提出了很多要求,一些色彩非常豐富的材料可能幀率很低,但分辨率非常高,還有一些高速運動場景,我們有一個自適應(yīng)系統(tǒng)來處理這類運動和內(nèi)容。
我們需要把AV1整合進去,在我們的第一階段,我們推出了AV1覆蓋高速運動共享模式,高速運動視頻是難度最大的視頻,因為它本質(zhì)上可以是任何內(nèi)容。我們在2月份的產(chǎn)品中推出了該模式,我們的下一個階段將涵蓋高分辨率模式和自動適應(yīng),我們的目標是在今年上半年完成該階段。未來的階段將包括攝像頭輸入視頻和轉(zhuǎn)碼,現(xiàn)在從會議中與H264參會者的交互操作來看,轉(zhuǎn)碼是相關(guān)的。目前我們正在運行向后兼容模式,這樣的話如果一個AV1參會者和一個只有H264的參會者開會,那么他們就會向后兼容到H264,但是顯然這樣效率很低,因此我們希望在這種情況下進行一些特別的轉(zhuǎn)碼,這并不一定就意味著我們會一直沿用這種做法,因為這可能不是最有效的做法,但是它將增加使用范圍,并為最多的參會者帶來最大的好處。
我們在編碼器開發(fā)的過程中遇到了哪些挑戰(zhàn)?我認為最大的挑戰(zhàn)是達到AV1對CPU的影響,與H264比起來非常小,這并不意味沒有影響, 也不意味著我們不使用更多的CPU,更不意味著我們不能在有更多可用CPU的情況下使用更多的CPU,但這確實意味著我們在某些情況下的確需要最少的CPU,并仍然實現(xiàn)增益,從編碼器優(yōu)化角度來看,這是非常具有挑戰(zhàn)性,第二件事更像是一個關(guān)于解決方案的問題,即如何平衡質(zhì)量和碼率。我認為有一件事在一定程度上改變了人們對新冠肺炎的關(guān)注。那就是我們確實需要提供更高的質(zhì)量,而碼率并不總是最重要的事情。但這通常是兩者之間的某種權(quán)衡,如果你想得到更高的質(zhì)量。即使碼率會下降到非常低的水平,那么你可以使用AV1,正如我在前面提到的,我們必須在交互操作場景中支持向后兼容的行為,更通俗的說我們面臨一個多維度問題。即基于我們所使用的任何設(shè)備的CPU能力。調(diào)整編碼器復(fù)雜性設(shè)置,分辨率和碼率。所以我們可以通過改變編碼器的設(shè)置,來降低或增加復(fù)雜性,這樣做會有或多或少的損失,或者我們可以改變我們編碼的分辨率,或者我們可以改變我們編碼的碼率,這兩種方式都可以改變復(fù)雜性。這里涉及不同的權(quán)衡,我們需要開發(fā)一個好的引擎來進行決策。
當我們繼續(xù)推進,我們開始提供更多的混合會議,就像我之前提到過的,如何將多流會議和多個編碼器結(jié)合起來是一個問題,如果你發(fā)送多層不同質(zhì)量,那么新的編解碼器應(yīng)該位于其中的哪個位置呢?你可以采用很低的碼率,即最低層,真正確保他可以行得通,或者你可以以最高質(zhì)量為目標,確保甚至?xí)懈玫馁|(zhì)量。另外在解碼方面有一個問題,你可能有多個解碼器運行不同的編解碼器標準,那么你如何在CPU包絡(luò)中集成和管理它們,所以這些都是提供解決方案時相當困難的技術(shù)挑戰(zhàn)。
#4.AV2與RTC
還有 AV2和下一代編解碼器呢?我們認為實時通信的發(fā)展方向是什么?
從某種意義上說,自AV1問世以來,我們的要求一直沒有改變,我們來看看這些質(zhì)量和速度的權(quán)衡曲線。在操作時你可能想要與操作AV1時相同,或略高的復(fù)雜性,但仍然可以實現(xiàn)實際增益,我們對AV2的其中一個測試目標是,我們可以證明我們將實現(xiàn)這些增益,現(xiàn)在這將非常困難,因為沒人會為AV2標準,開發(fā)一個完整的實時編碼器。你可以在著手和嘗試了解的過程中,處理這類事情,但你不會在每個點,都有一個完全優(yōu)化的解決方案。但是AV2是獨一無二的,它有一個軟件實現(xiàn)工作組,有望給我們一些關(guān)于實現(xiàn)問題的見解,也許達不到實時通信的速度,但肯定比編碼器所能提供的最大壓縮速度更快。在視頻點播方面,我還是認為相對于以前的編解碼器,現(xiàn)在的編解碼器可能不能支持復(fù)雜性比較大幅度的增加。在理想情況下,它們會尋求復(fù)雜性并適度的增加,也許超過了我們對實時通信所能容忍的水平,也許5到10倍是一個合理的目標。但仍然可能比以前的標準低很多。如果那些曲線沒有重疊,那么我覺得我們已經(jīng)做得很好了,但是我們?nèi)绾未_保這些曲線不重疊,并且在速度和質(zhì)量范圍內(nèi)都能實現(xiàn)增益呢?(因為對我們來說正如這條曲線所示,如果我們可以降低復(fù)雜性,那么我們就可以把預(yù)算有效的應(yīng)用到質(zhì)量曲線上,如果你將藍色曲線向右或向上移動,那么你就有更多的空間,以同樣的速度提高質(zhì)量,或以同樣的質(zhì)量提高速度。)
我想我們需要記住一些原則。第一個原則是,新的軟件編碼器不能依賴更大的CPU,這似乎有點出乎意料,因為我們預(yù)期下一代編解碼器符合摩爾定律,這在某種程度上是正確的,但是人們持有計算機的時間越來越長,單個核的性能沒有像過去一樣提高,盡管核的數(shù)量一直在增加。但我們也要記住,我們設(shè)備上的其他程序也在使用CPU。使用網(wǎng)訊這樣的應(yīng)用程序所面臨的一個挑戰(zhàn)是,我們要與正在運行并使用大量計算能力的其他程序共享CPU我們必須適應(yīng)這一情況,同時不能給其它應(yīng)用程序造成問題,我認為我們需要非常謹慎的考慮有多少CPU可用。并且與此同時我們想要實現(xiàn)巨大的增益,在理想情況下碼率再降低50%。為了在這些普通計算機上,以低復(fù)雜性實現(xiàn)AV2軟件編碼,我認為我們需要所謂的“可擴展復(fù)雜性”,我們希望能夠找到通過標準的路徑,以及通過仍然簡單的編碼器的路徑。在理想情況下甚至比以前的標準更簡單,這意味著AV1的一般核心工具,應(yīng)該隨著時間的推移保持或降低其復(fù)雜性。這是一件困難的事情,因為這些工具的改進方式,可能讓我們很難預(yù)測它們將如何在真正的編碼器中優(yōu)化,但代價是非常大的,因為所有工具的復(fù)雜性降低,意味著在實時通信速度下的實際質(zhì)量提高。
現(xiàn)在你正在加強這些模式,你在整個過程中增加了選擇的數(shù)量,所以參考實現(xiàn)的速度減慢了,這顯然是不好的,這對任何編碼器來說都是不好的。但這也不是完全的災(zāi)難,因為智能編碼器可以避免一部分這類復(fù)雜性,你無法避免工具復(fù)雜性的增加,這是你無法避免的或者不想避免的,因為它們非常有用,這也就意味著預(yù)分析和機器學(xué)習(xí)之類的東西,對編碼器管理這種復(fù)雜性來說將變得越來越重要,如果我們要推廣所有這些模式,由于我們沒有時間預(yù)測所有模式。那我們必須做一些省時省力的事情,因此越來越多的人將投入到研究,完整搜索算法的最少運算。
#總結(jié)
總之,開放媒體聯(lián)盟生態(tài)系統(tǒng),幫助我們在視頻會議技術(shù)上邁出了下一步,它幫助我們超越了古老的H264視頻編解碼器,我們現(xiàn)在正在實時發(fā)布AV1,并且其復(fù)雜性類似于H264 AVC。但是我們實現(xiàn)了顯著的增益,我認為這表明AV1是一個設(shè)計良好的標準,它并不完美,但它的核心對于實時通信應(yīng)用程序非常有用,這也是我們對AV2的期望,如果我們有同樣好的設(shè)計原則,并且我們配備了智能編碼器設(shè)計,那么AV2將能夠?qū)崿F(xiàn)進一步的增益,最后,我想說非常感謝大家,歡迎大家提問。
謝謝大家!
詳情請掃描圖中二維碼或點擊閱讀原文了解大會更多信息。
總結(jié)
以上是生活随笔為你收集整理的思科Webex与下一代视频会议的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IETF访谈: HTTP/3全球份额持续
- 下一篇: 打造极致体验:字节跳动亿级 DAU 背后