當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

思科Webex与下一代视频会议

發(fā)布時間：2024/4/11 编程问答 52 豆豆

生活随笔收集整理的這篇文章主要介紹了思科Webex与下一代视频会议小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

# Editorial Note #

視頻會議在人們的日常生活中使用愈發(fā)頻繁，尤其是在新冠肺炎疫情的影響下視頻會議市場急劇增長，由此引發(fā)了思科網(wǎng)訊視頻技術(shù)的不斷更新。本次分享，我們邀請到了思科協(xié)作技術(shù)事業(yè)部的首席工程師Thomas Davies先生，他向我們分享了AV1的發(fā)展歷程，開發(fā)AV1時所受到的挑戰(zhàn)，以及AV2的發(fā)展前景及其在實時通信中的作用。

文 / Thomas Davies

整理 / LiveVideoStack

大家好，我是Thomas Davies。我是思科協(xié)作技術(shù)事業(yè)部的首席工程師，今天我想和大家談?wù)凙V1、思科Webex與下一代視頻會議。

我今天的演講涉及幾個內(nèi)容，首先，我想談?wù)勛罱尚鹿诜窝滓鸬囊曨l會議應(yīng)用的迅猛發(fā)展。視頻會議應(yīng)用的普遍性應(yīng)該已經(jīng)有一段時間了，但新冠肺炎創(chuàng)造了一個轉(zhuǎn)折點，改變了實時通信的格局。然后，我想談?wù)剼v史背景，即開放媒體聯(lián)盟和實時通信的歷史。我們是如何取得AV1今天的發(fā)展的，當我們開發(fā)AV1時，我們考慮了怎樣的實時通信因素。然后我想談?wù)勎覀冊谒伎芖ebex上的AV1編解碼器，以及我們正在為我們的推廣做什么工作。最后，我想談?wù)凙V2在實時通信中的作用。我們還能在這一領(lǐng)域進行更多的創(chuàng)造嗎？

#1.視頻會議的發(fā)展

首先是視頻會議的迅猛發(fā)展。

我覺得我們這一年過得很不平凡，大家應(yīng)該都有同感。從會議的角度來看，這為我們開啟了新的篇章。從去年2月份開始，我們平臺上的會議急劇增長，大家可以看到一直到2月底，然后到3月我們的流量有了巨大增長——10倍、20倍、30倍的增長，每月會議參會者超過5億，每月會議超過250億分鐘。另一個有趣的因素是，我們開始召開更多的團隊會議，更多的教育會議等等，所以會議的規(guī)模增加了33%。因此，我們的用例發(fā)生了一些變化。流量大幅增加，這顯然對我們產(chǎn)生了影響，因為我們要相應(yīng)的提供支持。但這也向我們強調(diào)了擴展的必要性。我們從客戶那里得到的反饋是，我們需要把技術(shù)提升到一個新的水平。人們現(xiàn)在知道這項技術(shù)確實有效，但我們需要繼續(xù)前進，不斷提升工具和技術(shù)，來改善人們的體驗。現(xiàn)在在某些情況下，我們增加了人工智能和用于背景噪聲抑制或?qū)崟r進行語音到文本的轉(zhuǎn)錄和翻譯的新技術(shù)，但在提升用戶體驗質(zhì)量方面，我們無法繞過基本的視頻和音頻。這意味著我們要檢查我們的視頻處理線，但也意味著要有新的編解碼器，在編解碼器方面我們已經(jīng)使用了H264很長一段時間了。

不過關(guān)于最近的疫情經(jīng)驗，我們要問的一個問題是“這是新常態(tài)嗎？”。從某種意義上說，顯然不是，因為新冠肺炎很有可能是一生僅有一次的經(jīng)歷。但即使在新冠肺炎之前，遠程工作也在相當穩(wěn)定的增長，在過去的十年里增長了30%左右。我們所看到的是，人們越來越多地使用視頻應(yīng)用程序和視頻通話，而他們以前可能使用的是語音。但當疫情爆發(fā)時，許多公司開始審視其團隊的工作方式，并考慮疫情結(jié)束后會發(fā)生什么。74%的美國首席財務(wù)官預(yù)測，新冠肺炎結(jié)束后他們將保持大量的的遠程工作，這個預(yù)言是否正確我們拭目以待，但我認為許多公司將從根本上改變他們的工作方式。視頻會議市場預(yù)計將以每年11%的速度增長，也就是說在未來7年內(nèi)增長一倍以上。但免費使用也會越來越多。在許多情況下，視頻正在取代音頻，人們經(jīng)常打視頻通話，因為設(shè)備配置了視頻通話應(yīng)用程序，這改變了人們與這些設(shè)備的互動方式和使用設(shè)備的方式。新冠肺炎不會持續(xù)下去，但我認為它會對技術(shù)造成持續(xù)影響，在未來很長一段時間內(nèi)改變?nèi)藗兊墓ぷ鞣绞健?/p>

#2.AOM與實時通信

我們之前已經(jīng)看到過這些情況。在開放媒體聯(lián)盟成立之初，也出現(xiàn)了視頻會議的某種轉(zhuǎn)折點，特別是使用視頻會議，基于軟件的平臺增加了，這需要技術(shù)能力的提升。我們之前也想用其他的解決方案來推進，而開放媒體聯(lián)盟給了我們一個機會，來推動編解碼器的發(fā)展。

思科是開放媒體聯(lián)盟的創(chuàng)始成員之一。我們已經(jīng)感覺到，現(xiàn)有的標準并不能很好地服務(wù)于開放媒體，授權(quán)費用是一個障礙，特別是對于H265來說，我們已經(jīng)開發(fā)了H265解決方案，但是授權(quán)模型并不適合。我們在可能擁有數(shù)百萬的用戶的軟件平臺上使用。與此同時，我們需要下一代視頻編解碼器，因為H264已經(jīng)使用將近20年了，我們針對RTC開發(fā)了“Thor編解碼器”。這實際上說明了我們對平衡復(fù)雜性和壓縮性能非常謹慎。Thor被整合到第一個基于VP9的AV1測試模型中。從一開始我們就對新標準的實時通信重點工作感興趣，以理解每個工具對我們用例的影響。

但這到底意味著什么？我們應(yīng)該確定新視頻編解碼器在實時通信中的三種主要要求，首先與其他用例相比它的復(fù)雜性較低。而且我們特別希望，用軟件在商品化PC平臺上實現(xiàn)，這并不是因為我們不使用硬件，而正是因為我們使用硬件，但是我們需要花幾年時間來開放硬件，然后又需要花幾年時間來開發(fā)配置了好的編碼器的好硬件。第二個因素是對網(wǎng)絡(luò)的彈性，我們需要符合標準的工具，來檢測修復(fù)錯誤并幫助從錯誤中恢復(fù)。第三個因素我們認為可能是更有爭議的因素，是我們想要限制標準的配置的數(shù)量，至少從工具的角度來說是這樣，因為新的配置就像新的編解碼器，我們必須與之交互操作，因此我們寧愿使用新的編解碼器，而不是使用多個編解碼器，必須與多個編解碼器交互操作，我們已經(jīng)看到由于這個原因，H264高配置檔的普及率相對有限，由于H264和H265的配置檔不同，可擴展性也受到了限制。

在復(fù)雜性方面，與其他一些用例相比，我們以一些低的質(zhì)量上的代價來獲得更快的運行速度，上面的紅色圓圈，就是我們想要編解碼器運作的地方，我們要快，我們需要有限的復(fù)雜性，這意味著我們不能僅僅是平均速度快，我們不能僅僅以平均每秒30幀的速度編碼，我們需要時時達到這些幀的時間要求。我們的目標之一，我認為這是設(shè)計良好的編解碼器標準的一個特性，是即使在類似的復(fù)雜性下也能實現(xiàn)真正的增益，這需要更快的操作點，如果你現(xiàn)在在視頻點播場景中，也許你會轉(zhuǎn)移到更高的復(fù)雜性。可能是更高的、多的復(fù)雜性，以實現(xiàn)這些增益，比如在視頻點播中，你也許能夠忍受5倍或10倍的復(fù)雜性，降低40%的碼率，但是由于我們在軟件中必須用一個標準替換以前的標準。我們可以用來增加復(fù)雜性的包絡(luò)有限。因此我們需要實現(xiàn)真正的增益，即使復(fù)雜性相似，我們可以容忍復(fù)雜性的適度增加，但增加不能非常大。

AV1在很大程度上滿足了這種需求，首先AV1工具可以為我們提供任何新標準所需要的巨大增益，比如屏幕內(nèi)容工具和強大的環(huán)路濾波，但同時我們所使用的任何一種能夠進行良好視頻編碼的核心工具，也保持了適度的復(fù)雜性。這些環(huán)路濾波有一定的復(fù)雜性，我們有多符號，算術(shù)編碼比其他標準的類似技術(shù)的復(fù)雜性更低，我們有非常簡單的插值濾波，我們有含有快速的分解轉(zhuǎn)化。在網(wǎng)絡(luò)彈性方面，通過幀編號我們可以檢測錯誤，因此我們可以看到，我們是否與參考幀不同步，通過這種彈性模式，即使之前的幀丟失了，我們可以解析幀，我們也可以修復(fù)那些丟失的幀，因為我們可以找到像運動矢量之類的東西，即使我們沒有參考幀，我們也可以利用這些信息進行插入，我們也有可擴展性作為標準。這也與第3點有關(guān)，即只有一個主要配置，有基于色度采樣的配置文件，如4:4:4等等，但主要配置里有所有的工具，包括可擴展性，如果你想要構(gòu)建一個編碼器，這是非常有用的，因為它給你提供了一個完整的工具包來進行探索。并且有些人們確定標準時，認為簡單的工具有時候有可能實際上并不是最好的選擇，好在你在實現(xiàn)時，可以不被這樣的決定限制。

#3.思科Webex的AV1開發(fā)

在AV1開發(fā)期間，我們也在開發(fā)我們自己的編碼器，它是針對思科Webex的，即針對標準的。以軟件形式呈現(xiàn)在個人電腦硬件上。

我們展示了世界上第一個 AV1高清實時視頻編碼。我們?yōu)閿z像頭視頻設(shè)計了720p，為屏幕內(nèi)容設(shè)計了1080p。2019年夏天我們在紐約展示了這項技術(shù)。從那以后我們的編碼器速度提高了60%左右，我們一直在努力為AV1提供端到端解決方案所需的所有集成和系統(tǒng)支持。

那么我們的關(guān)注是什么呢？我們需要在分享的視頻內(nèi)容和攝像頭的輸入之間進行選擇，我們決定使用共享內(nèi)容。因為這確實代表了一些我們需要編碼的最具挑戰(zhàn)性的視頻，有些事情可能非常簡單，就像這個幻燈片，但盡管如此，人們越來越多的共享各種東西，我們共享圖表、幻燈片、YouTube視頻。或者可能在瀏覽器中播放的混合視頻，這是計算機設(shè)計應(yīng)用之外的東西。因此也對保真度提出了很多要求，一些色彩非常豐富的材料可能幀率很低，但分辨率非常高，還有一些高速運動場景，我們有一個自適應(yīng)系統(tǒng)來處理這類運動和內(nèi)容。

我們需要把AV1整合進去，在我們的第一階段，我們推出了AV1覆蓋高速運動共享模式，高速運動視頻是難度最大的視頻，因為它本質(zhì)上可以是任何內(nèi)容。我們在2月份的產(chǎn)品中推出了該模式，我們的下一個階段將涵蓋高分辨率模式和自動適應(yīng)，我們的目標是在今年上半年完成該階段。未來的階段將包括攝像頭輸入視頻和轉(zhuǎn)碼，現(xiàn)在從會議中與H264參會者的交互操作來看，轉(zhuǎn)碼是相關(guān)的。目前我們正在運行向后兼容模式，這樣的話如果一個AV1參會者和一個只有H264的參會者開會，那么他們就會向后兼容到H264，但是顯然這樣效率很低，因此我們希望在這種情況下進行一些特別的轉(zhuǎn)碼，這并不一定就意味著我們會一直沿用這種做法，因為這可能不是最有效的做法，但是它將增加使用范圍，并為最多的參會者帶來最大的好處。

我們在編碼器開發(fā)的過程中遇到了哪些挑戰(zhàn)？我認為最大的挑戰(zhàn)是達到AV1對CPU的影響，與H264比起來非常小，這并不意味沒有影響, 也不意味著我們不使用更多的CPU，更不意味著我們不能在有更多可用CPU的情況下使用更多的CPU，但這確實意味著我們在某些情況下的確需要最少的CPU，并仍然實現(xiàn)增益，從編碼器優(yōu)化角度來看，這是非常具有挑戰(zhàn)性，第二件事更像是一個關(guān)于解決方案的問題，即如何平衡質(zhì)量和碼率。我認為有一件事在一定程度上改變了人們對新冠肺炎的關(guān)注。那就是我們確實需要提供更高的質(zhì)量，而碼率并不總是最重要的事情。但這通常是兩者之間的某種權(quán)衡，如果你想得到更高的質(zhì)量。即使碼率會下降到非常低的水平，那么你可以使用AV1，正如我在前面提到的，我們必須在交互操作場景中支持向后兼容的行為，更通俗的說我們面臨一個多維度問題。即基于我們所使用的任何設(shè)備的CPU能力。調(diào)整編碼器復(fù)雜性設(shè)置，分辨率和碼率。所以我們可以通過改變編碼器的設(shè)置，來降低或增加復(fù)雜性，這樣做會有或多或少的損失，或者我們可以改變我們編碼的分辨率，或者我們可以改變我們編碼的碼率，這兩種方式都可以改變復(fù)雜性。這里涉及不同的權(quán)衡，我們需要開發(fā)一個好的引擎來進行決策。

當我們繼續(xù)推進，我們開始提供更多的混合會議，就像我之前提到過的，如何將多流會議和多個編碼器結(jié)合起來是一個問題，如果你發(fā)送多層不同質(zhì)量，那么新的編解碼器應(yīng)該位于其中的哪個位置呢？你可以采用很低的碼率，即最低層，真正確保他可以行得通，或者你可以以最高質(zhì)量為目標，確保甚至?xí)懈玫馁|(zhì)量。另外在解碼方面有一個問題，你可能有多個解碼器運行不同的編解碼器標準，那么你如何在CPU包絡(luò)中集成和管理它們，所以這些都是提供解決方案時相當困難的技術(shù)挑戰(zhàn)。

#4.AV2與RTC

還有 AV2和下一代編解碼器呢？我們認為實時通信的發(fā)展方向是什么？

從某種意義上說，自AV1問世以來，我們的要求一直沒有改變，我們來看看這些質(zhì)量和速度的權(quán)衡曲線。在操作時你可能想要與操作AV1時相同，或略高的復(fù)雜性，但仍然可以實現(xiàn)實際增益，我們對AV2的其中一個測試目標是，我們可以證明我們將實現(xiàn)這些增益，現(xiàn)在這將非常困難，因為沒人會為AV2標準，開發(fā)一個完整的實時編碼器。你可以在著手和嘗試了解的過程中，處理這類事情，但你不會在每個點，都有一個完全優(yōu)化的解決方案。但是AV2是獨一無二的，它有一個軟件實現(xiàn)工作組，有望給我們一些關(guān)于實現(xiàn)問題的見解，也許達不到實時通信的速度，但肯定比編碼器所能提供的最大壓縮速度更快。在視頻點播方面，我還是認為相對于以前的編解碼器，現(xiàn)在的編解碼器可能不能支持復(fù)雜性比較大幅度的增加。在理想情況下，它們會尋求復(fù)雜性并適度的增加，也許超過了我們對實時通信所能容忍的水平，也許5到10倍是一個合理的目標。但仍然可能比以前的標準低很多。如果那些曲線沒有重疊，那么我覺得我們已經(jīng)做得很好了，但是我們?nèi)绾未_保這些曲線不重疊，并且在速度和質(zhì)量范圍內(nèi)都能實現(xiàn)增益呢？（因為對我們來說正如這條曲線所示，如果我們可以降低復(fù)雜性，那么我們就可以把預(yù)算有效的應(yīng)用到質(zhì)量曲線上，如果你將藍色曲線向右或向上移動，那么你就有更多的空間，以同樣的速度提高質(zhì)量，或以同樣的質(zhì)量提高速度。）

我想我們需要記住一些原則。第一個原則是，新的軟件編碼器不能依賴更大的CPU，這似乎有點出乎意料，因為我們預(yù)期下一代編解碼器符合摩爾定律，這在某種程度上是正確的，但是人們持有計算機的時間越來越長，單個核的性能沒有像過去一樣提高，盡管核的數(shù)量一直在增加。但我們也要記住，我們設(shè)備上的其他程序也在使用CPU。使用網(wǎng)訊這樣的應(yīng)用程序所面臨的一個挑戰(zhàn)是，我們要與正在運行并使用大量計算能力的其他程序共享CPU我們必須適應(yīng)這一情況，同時不能給其它應(yīng)用程序造成問題，我認為我們需要非常謹慎的考慮有多少CPU可用。并且與此同時我們想要實現(xiàn)巨大的增益，在理想情況下碼率再降低50%。為了在這些普通計算機上，以低復(fù)雜性實現(xiàn)AV2軟件編碼，我認為我們需要所謂的“可擴展復(fù)雜性”，我們希望能夠找到通過標準的路徑，以及通過仍然簡單的編碼器的路徑。在理想情況下甚至比以前的標準更簡單，這意味著AV1的一般核心工具，應(yīng)該隨著時間的推移保持或降低其復(fù)雜性。這是一件困難的事情，因為這些工具的改進方式，可能讓我們很難預(yù)測它們將如何在真正的編碼器中優(yōu)化，但代價是非常大的，因為所有工具的復(fù)雜性降低，意味著在實時通信速度下的實際質(zhì)量提高。

現(xiàn)在你正在加強這些模式，你在整個過程中增加了選擇的數(shù)量，所以參考實現(xiàn)的速度減慢了，這顯然是不好的，這對任何編碼器來說都是不好的。但這也不是完全的災(zāi)難，因為智能編碼器可以避免一部分這類復(fù)雜性，你無法避免工具復(fù)雜性的增加，這是你無法避免的或者不想避免的，因為它們非常有用，這也就意味著預(yù)分析和機器學(xué)習(xí)之類的東西，對編碼器管理這種復(fù)雜性來說將變得越來越重要，如果我們要推廣所有這些模式，由于我們沒有時間預(yù)測所有模式。那我們必須做一些省時省力的事情，因此越來越多的人將投入到研究，完整搜索算法的最少運算。

#總結(jié)

總之，開放媒體聯(lián)盟生態(tài)系統(tǒng)，幫助我們在視頻會議技術(shù)上邁出了下一步，它幫助我們超越了古老的H264視頻編解碼器，我們現(xiàn)在正在實時發(fā)布AV1，并且其復(fù)雜性類似于H264 AVC。但是我們實現(xiàn)了顯著的增益，我認為這表明AV1是一個設(shè)計良好的標準，它并不完美，但它的核心對于實時通信應(yīng)用程序非常有用，這也是我們對AV2的期望，如果我們有同樣好的設(shè)計原則，并且我們配備了智能編碼器設(shè)計，那么AV2將能夠?qū)崿F(xiàn)進一步的增益，最后，我想說非常感謝大家，歡迎大家提問。

謝謝大家！

詳情請掃描圖中二維碼或點擊閱讀原文了解大會更多信息。

總結(jié)

以上是生活随笔為你收集整理的思科Webex与下一代视频会议的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： IETF访谈： HTTP/3全球份额持续
下一篇：打造极致体验：字节跳动亿级 DAU 背后