质量三维论如何持续推进腾讯视频播放体验提升
騰訊視頻移動端播放內核技術負責人李大龍在LiveVideoStackCon2018上的演講中分享了騰訊視頻的質量“三維論”思想與體系,及以此推動視頻播放體驗優化工作方面的實踐經驗與總結。
文 / 李大龍
整理 / LiveVideoStack
大家好,我是來自騰訊視頻的李大龍。今天我將從以下幾個方面為大家分享騰訊視頻如何以質量三維論來持續推進視頻播放體驗的提升。
首先簡要作下個人介紹:我在研究生階段就讀于武漢大學國家多媒體軟件工程技術研究中心,師從胡瑞敏教授,主要從事視頻數字水印、信息隱藏還有視頻編解碼相關的工作,當時也恰逢中國自主知識產權編碼標準AVS第一代從學術界正式走向工業界的時代。入職騰訊后,我曾經重點參與過QQ/手Q視頻通話、QQ影音的研發工作,近幾年在騰訊視頻從事播放器內核技術、流媒體播放及用戶體驗優化相關的工作。經歷不同的產品讓我很好地感受到視頻領域針對不同業務場景的差異化技術訴求,比如實時通話類產品對Codec在壓縮效率、復雜度上要求很高;離線播放器工具類產品對容錯性、兼容性要求很高;而流媒體播放類產品對長時間連續播放過程中的平滑性則要求很高。總之,不同的視頻領域應用和產品,對于體驗和質量的衡量方法是不太一樣的。
1. 質量三維論概況
今天我講的質量三維論,是建立和服務于騰訊視頻產品,也就是適用于流媒體播放應用類場景的一套思維方法論。其主要通過源頭質量、交互質量與感官質量三大維度為流媒體視頻播放做出綜合評價。源頭質量為整體質量定立總基調,主要通過分析音視頻編碼參數、后臺存儲格式的冗余度與流媒體分發過程的適配復雜度來衡量視頻源(及其存儲后臺)的質量;交互質量主要反映用戶在操作視頻播放過程中的體驗好壞,主要考量指標包括視頻加載時間、播放錯誤率、二次緩沖概率,以及像清晰度切換過程中的等待時長或者是否發生畫面切換黑屏等問題;感官質量相對于前兩項質量更側重用戶對視頻播放的主觀感受,目前業界比較缺乏易實現、通用性高且可綜合評判的客觀衡量方法,所以在這個維度主要分開幾個方面來考慮,包括對曝光、色彩、紋理等圖像質量的考量,對音域、相位感等聲音質量的考量,還有對流暢度與音畫同步感受方面的考量。
2. “源頭質量”定基調
2.1 架構演進與選型
?
我們從壓縮、封裝與存儲、架構三個環節進一步來分析影響源頭質量的因素。首先在視頻片源壓縮制作的環節,除了最基本的為業務選擇合適而高效的Codec格式及其整體架構集成方案外,在具體部署環節還需權衡主觀視覺質量、計算復雜度(直接影響編碼和轉碼耗時及服務器成本)、帶寬成本之間的收益,找到比較務實的coding rate ladder。其次,封裝與存儲策略上需要具備足夠的平臺兼容性,能夠覆蓋盡量多的終端平臺及系統版本,并在相同編碼參數的情況下努力減少格式冗余(當然這一點可以也需要播放器來配合達成)。最后,架構層面則要實現對直播、點播、OTT等多業務形態的統一支持。
?
眾所周知流媒體架構可以劃分為三代(圖中黑點表示):第一代為專屬流媒體協議架構,包括我們熟知的RTMP/RTP等;第二代為Progressive Downloading,包括較為典型的HTTP MP4/FLV;第三代是以HLS/DASH為代表的動態自適應傳輸。比較有意思的是圖中綠色點表示的Multi-Segments Consecutive Downloading,即短時間(一般5~10分鐘)MP4/FLV分片方式。其初衷是對于那些時長較大的電視劇、電影類等片源,大家曾經采用文件切片的策略將其分解成若干短時間的片源分段,以規避整段長MP4文件頭部數據與片源時長線性關聯從而導致加載等待時間太長的問題。
?
上圖中的時間軸大致展示了騰訊視頻流媒體架構的演進時間表,以Progressive Downloading(HTTP MP4)與其代表的整段MP4為基準,Chunk-based Streaming(MP4 Segments)與其代表的分片MP4無論是在加載時間、錯誤率還是緩沖率上都有很大改進;而Adaptive Streaming(HLS/DASH)相對于前者的優化又進一步。雖然架構在不斷升級,但代際技術紅利的陣痛卻是不應被忽視的。新架構的應用往往只是萬里長征第一步,隨之而來的問題包括:在架構過渡期,片源存儲及傳輸協議的冗余度如何;面向具體應用時,自適應流媒體容器文件切片參數對質量的影響;新協議的額外負載與其對網絡交互的影響,比如HLS/DASH都少不了需要一份清單文件(類似m3u8或者manifest),而早期的HTTP MP4/FLV無需獲取清單文件。只有把這些“配套性”問題都處理好了,新架構才能最大化發揮出應有的技術紅利。?
那么在對流媒體架構進行選型時我們應當注意哪些問題呢?在我看來主要從以下三個角度考慮:從成本角度來看,Codec格式選型固然需要首先考慮實際的壓縮效率,但尤其是新型格式的應用時也需要權衡下整個業態的支持情況;相應的容器格式搭配時,是否存在為了適配終端而進行相同參數編碼(但不同封裝)排列組合的冗余;另外與之對應的傳輸協議,有多少存儲和帶寬會用于傳輸類似HLS/DASH標簽文件這樣的輔助信息。從體驗角度,可以針對具體的用戶場景,比如啟動播放或者播放過程中的清晰度切換等,來詳細分析流媒體架構是如何響應支持的,從網絡請求返回次數這樣的客觀指標等來預估出實際影響。最后從兼容性角度來評估,眼前以及未來可預期一段時間內芯片、手機廠商、軟件平臺等整個生態對所選型Codec、容器格式與傳輸協議的支持范圍和程度。
視頻壓縮算法是源頭質量維度的一項重要指標,國內的情況是行業對新技術的運用十分積極,許多企業正在甚至已經完成向HEVC過渡從而提高寬帶資源利用效率。行業內面對的情況通常是客戶希望有更高清晰度的視頻服務,產品經理也極力滿足用戶的這項基礎性體驗訴求,然而成本控制團隊會嚴格控制各項預算開支,甚至還會定下較為激進的成本節省目標。如上所述使用HEVC替代上一代編碼格式H.264/AVC已經是當前共識最直截了當的成本節省手段之一。?
視頻行業顯然仍在繼續信源極限壓縮之旅,下一代編碼格式的軍備競賽也早已拉開帷幕。從上圖2017年MSU發布的年度HEVC Codec評測結果中,大家可以清晰地看到AV1相對x265各編碼參數配置檔次下的碼率節省情況,粗略折算大概在20%~30%之間。H.266/VVC已經處于雛形階段、國產AVS第三代標準也是呼之欲出,未來面臨新一代Codec技術選型時我們可以從哪些方面來評估和決策呢?下面根據我自身的一些工作經驗,總結幾點體會供各位參考。
?
首先需要全面理解實際應用的業務場景,具體到業務場景下片源的主流分辨率、碼率、幀率等參數是多少,同時結合片源自身的畫面紋理、運動、清晰度等特征來評估待考察Codec的實際壓縮表現,不盲目采信外部測評數據而忽視測評環境與實際應用業務環境的區別。不同的業務形態在核心體驗指標上是不一樣的,開頭已經舉例過,比如:實時視頻會議和通話類產品,對時延和輸出碼率的平穩性方面要求很高,但圖像清晰度可以略微犧牲,但對視頻點播類產品,上述指標的要求幾乎要顛倒過來。所以務必結合實際業務面向的核心用戶體驗指標來確定Codec及其編碼參數配置。
其次是結合商業模式來考慮,比如對于有出海打算的視頻業務,Codec的版權法務問題就尤為重要,顯然VP9比HEVC就更為妥當。另外當前較為熱門的高品質片源服務,比較容易衍生出會員或者付費模式的4K、HDR等功能,需要評估Codec是否能高效支持。而商業運營成本,包括編碼轉碼服務器費用、帶寬、存儲等因素的影響可以參考上面流媒體架構環節的內容,這里就不再重復了。
最后需要綜合評估整體技術生態對Codec的支持和推廣程度,例如是否有足夠高的操作系統平臺覆蓋度支持Codec及其配套的容器格式和流媒體傳輸協議,是否有足夠高的芯片覆蓋度來提供高效率低功耗的解碼能力。視頻行業涉及環節多、鏈條長,新一代Codec從標準定稿到推廣直至大規模部署和應用,可能需要較長時間,業務側過于激進的新技術導向可能會增加不必要的研發復雜度和各方面成本開銷。
2.2 Codec感受
如果讓我用一句話來總結自己對現階段視頻編碼格局的感受,那無疑是:混戰就在眼前。首先預期處于交替期、本應該“漸行漸遠”的H.264/AVC并未出現大規模“隱退”,而且encoding.com于NAB 2018發布的多媒體技術流行報告還顯示出H.264/AVC的流量份額甚至還在增加。其背后的原因,首先是作為繼任者的HEVC雖然有明顯的節省碼率,但其專利收費構成之復雜(且必定是高昂的),實在是高懸頭頂的達摩克利斯之劍。其次,近年來興起的AI技術已經成功應用在編碼環節,通過AI賦能的CAE實踐經驗認為可帶來相對于傳統編碼20%以上碼率節省,這實在是削弱了HEVC的吸引力,且還有無需設備升級、協議完全兼容等很多附加優勢。作為HEVC及其陣營的最大挑戰者,開源免費的AV1在此前MSU發布的年度Codec評測報告中是壓縮性能之王,且從AOM組織誕生之時,已是業界齊聚的態勢,加上一貫高冷范兒的Apple表態支持,眼下AV1可謂風光無兩。有趣的是,大局未定還有暗流涌動,一家小眾的編碼服務商公布的XVC可實現比開啟Multi-Pass Encoding配置后的AV1還節省10%~20%碼率,相關數據在其官網技術博客中,大家可以自行查閱。在國內,AVS第二代標準已經成為4K超清視頻的選定編碼方案,受到廣電總局的支持。總體來說,眼前和未來是多種Codec混戰的時代,上個十年中H.264/AVC大一統的局面也許再難以出現。?
對AV1再多看一些來源的數據,對于大家最為關心的問題,即AV1相對于HEVC究竟有多少碼率節省,目前各方說法都不盡相同。既有像來自MSU的數據顯示AV1相對于HEVC有大約20%的壓縮性能提升,但也有些觀點甚至相反認為其壓縮性能還要劣于HEVC。當然這些數據都是源于實驗室測試,最終還是需要等待業務應用、結合不同場景進行實際分析和驗證。目前不妨先放下口頭爭議,讓子彈再飛一會兒。?
這里簡單總結下個人對當前Codec趨勢的理解,首先我認為現在混合編碼框架依舊是編碼領域的主流選擇,在這個框架下新一代標準AV1使用了很多“新”算法工具來提升壓縮性能,這里的“新”可能沒有革命性顛覆式的創新,很多還是體現在算法細節的改良,比如使用更大尺寸的CU劃分、幀內預測支持亮度分量預測色度分量、調色板模式、幀內拷貝模式、動態運動向量索引、楔形預測、約束方向增強濾波、電影顆粒膠片效果合成等。其次,人工智能正加速向全行業滲透,AI與Codec結合的感知編碼方案已經廣泛應用并產生了實際收益,如上所言,雖然視頻編碼框架仍然是傳統的基于頻域變換和運動補償的混合編碼方案,但在局部模塊上已經有很多AI替換的算法方案,例如使用CNN來作幀內預測或者塊劃分模式選擇等。最后,超高清視頻即將迎來普及期,相比上一波單純的分辨率提升(從D1到HD)經濟,HDR/WCG/HFR/3D Audio等高品質影音體驗會成為更有市場帶動力的推手。?
最后附上一張HEVC、AV1、VVC算法工具對比的表格作為這部分分享內容的總結,也可以再次看看新一代編碼標準的“配置”有哪些吧。需要注意的是,由于現在VVC還處于草案研發階段、正式定稿時間會在2020年,所以表格中的信息還有較大改動的可能。
3. “交互質量”系紐帶
交互質量是繼源頭質量之后第二個需要考量的維度。作為后臺服務與用戶體驗的紐帶,交互質量的保障根基是我們自研的統一播放框架,這套跨平臺的終端播放方案,把整個播放流程內的協議/格式解析、數據解碼/處理、圖像/聲音呈現等模塊邏輯解耦,一方面實現各細節自控,另一方面也深挖系統硬件能力。外部則通過播放流水異常監控上報系統與業界競品播放評測系統,隨時分析宏觀與局部的服務質量,從加載時長、錯誤率、二次緩沖、文件seek響應時長與清晰度切換等待時長等指標入手綜合評估用戶交互質量,實現所有環節可數據追蹤與自動化黑盒對比,以實現評測結果的公平與長效。?
?
下面講講統一播放框架的演進歷史,從中可以逐步理解這個根基建設對整體交互質量的關鍵性作用。播放框架1.0如上圖左側展示,其重點是針對平臺提供的系統播放器進行業務封裝達到快速上線的效果。Android提供的MediaPlayer與iOS提供的AVPlayer大體能夠滿足基本的播放應用需求,但全黑盒式的組件使得很多影響播放質量關鍵的播放策略無法直接控制、修改和優化,雖然開發成本低但從客戶端平臺適配到傳輸層適配等一系列問題都無法得到妥善解決,相應的用戶體驗也無法得到有效保障。?
播放框架2.0相對于1.0增加了本地代理模塊,可接管所有傳輸數據的使用,通過二次轉封裝或者轉流媒體協議的方式輸出數據供播放器實際使用,充當本地或者代理服務器的角色。這樣改進最直接的收益是解決(部分平臺或者版本)播放器對格式支持能力有限的問題、大大提高了播放框架針對不同客戶端運行平臺的適配能力,相對于1.0也明顯改善了傳輸層適配與后臺服務適配能力。類似二次緩沖這樣的異常原則上都可以通過控制數據傳輸的質量來加以控制優化,所以這套方案自然也能明顯改善用戶體驗。雖然開發成本有所提高,但顯著降低的運營成本與明顯提升的用戶體驗讓2.0版本播放框架成為比1.0版本更加出色的選擇。?
播放框架3.0相比2.0的演進是整體理念上的改變,直接打破系統播放器封裝使用的模式,將終端播放抽象為協議層、數據層、呈現層。其中,協議層完全獨立于具體運行平臺、實現通用型的協議接入及格式解析,從根本上解決傳輸端(服務器端)與接入端(客戶端)能力不匹配的矛盾;數據層主要負責音視頻數據的解碼,為了最大化的效率及最低功耗考慮,顯然需要根據不同平臺、系統版本甚至芯片方案進行優化與調整,當然大家一般也會用上軟件方案來兜底保障;呈現層負責圖像/聲音raw data的渲染與呈現,其中大部分是底層通用型算法,也包含少量平臺設備相關聯的處理。相對于2.0,3.0版本的播放框架開發成本自然高出不少,但幾乎所有的流程和細節都能自控,既有最佳的擴展能力,也為用戶體驗保障提供了堅實基礎。
而接下來隨著全民短視頻時代的開啟,用戶使用大量短視頻內容記錄日常生活,單純的播放功能早已無法滿足用戶對客戶端的需求。我們不僅需要在客戶端實現良好的播放體驗,更需要讓平臺可以承載用戶對視頻的采集與編輯需求,這也推動我們對整個播放框架做出新的思考。
播放架構3.0+應運而生,其中最重要的特性便是動態可擴展與多功能模塊融合。以傳輸模塊為例,可以理解為一種抽象化的數據來源模塊,其輸入可能是從網絡或本地讀取的數據,也可能是來自于攝像頭采集端的數據,并且存在多路輸入數據疊加或者隨時擇其一二作為真正的輸出。再以后處理為例,播放端的后處理可能僅是簡單的畫面銳化,而在編輯場景下可能有多路,比如混音這樣的操作。我們將原本播放的每個具體步驟,再進一步解耦和功能抽象,支持組件間的多輸入輸出對接或者鏈式串接,使得整體架構實現根據應用場景與業務需求實現動態且靈活的擴展,最終形成播放、拍攝和編輯等功能的融合體系。
有了完善的播放框架就可以配合后臺服務建立全流程的質量體系,通過持續的數據驅動來不斷排查、降低異常和錯誤率。詳細來說就是將視頻播放過程中終端與后臺交互的每一個細微環節進行記錄與分析,尤其是類似訪問的耗時、失敗訪問的原因與結果、重試次數等重要的故障回溯定位及排查依據信息。
具體的分析過程主要是根據一定的場景類別、用戶地域、人群屬性、觀看時段等進行統計、數據分桶與可視化呈現,以便發生服務質量異常時可及時準確尋找背后原因。例如當視頻播放錯誤率異常增大,我們就可以通過這套系統來分析具體錯誤碼,并且結合區域、運營商、媒資信息等來協同圈定故障影響范圍,并制定修復方案。我們的修復方案既包括線上的片源信息修正、調度調整等運維手段,也包括云控策略、熱更新下發這樣的版本補丁方案。
以加載時長為例,可以從監控系統中分析時間的發布區間,再從中抽樣分析文件打開各階段的耗時或者針對部分bad case尋找共同的特征,比如早期使用HLS的時候發現很多耗時較長的案例都出現了文件請求時的跳轉,于是采取使用完整MPEG TS文件存儲來規避CDN節點回源錯誤。當然,直接梳理視頻加載全流程的步驟,從播放器側通過深度定制來減少前后端交互是必不可少的工作,比如針對影視類片源二次續播的場景,可以根據時間點來直接跳轉到目標字節區的方式避免視頻加載后再seek,這樣可有效節省數據讀取跳轉的耗時。另外還有一些細節處理的小trick也能有提升的效果,包括比較常見的多實例預加載等措施,此外我們在用戶中途退出播放的場景會緩存退出時間點附近的文件片段數據,這樣下次有續播時可以直接本地cache讀取以加速。?
在二次緩沖率跟進方面,我們在數據系統中會同時關聯二次緩沖發生的場景與原因編碼,從而更清晰地找到問題發生前后的播放操作和規避緩沖的策略。分析跟進的結果,包括在片源編碼環節主動控制局部峰值碼率的劇烈抖動,在數據傳輸層面上調整P2P與HTTP在播放高峰時段的配比,以及優化緩存數據淘汰策略并提高播放點附近的數據復用命中,在鏈接層面上還借助多/備份鏈接的方式實現容錯切換、競速、并行下載、MPTCP和播放器請求自適應等一系列策略來持續降低二次緩沖率。?
最后在交互這里再講一個細節,就是針對常見的用戶切換片源清晰度操作,如何達到無縫銜接的切換體驗。第一種方案如上圖左邊所示通過依次使用多個播放器實例來輪換接替播放不同清晰度的片源,雖然整體方案和流程比較簡單清晰,但創建多個播放器實例的資源代價顯然不小,比如很低端的設備或許都無法承受多個實例,而且播放器交接過程需格外關注銜接時機以避免局部的畫面/聲音重放等小瑕疵。第二種方案則是如上圖右側展示的那樣基于播放框架3.0能力,由于數據的讀取解析與解碼是完全分離式的,各自邏輯解耦,所以切換清晰度只是送入數據隊列的數據來源發生了變換,而這個變換對于播放器內部其他部分來說是無需感知的。相對于方案一,僅有一個播放實例的方案二更加輕量化,也完全避免了不同播放實例之間需要嚴格時間戳銜接控制的問題,無縫銜接的多分辨率切換體驗更精準順滑。
4. “感官質量”真體驗
?
最后一個部分,我來談下感官質量,這部分是最貼近用戶、直接影響用戶主觀觀影體驗的環節。其中,沒有卡頓、保持音視頻同步算是確保感官質量的基礎要求,中低端設備解碼能力弱在HEVC全面升級的背景下更加突出,為解決類似解碼能力不足所引發的卡頓我們需要打破移動端兼容性的困局。除此之外,可以針對圖像和聲音進行額外的后處理增強來達到進一步的感官體驗提升。今天的分享我主要談下圖像方面的工作,可以從色彩、紋理、曝光幾個維度來進行,色彩層面常見的方案如LUT色調調節、飽和度增強等,后面也會介紹下騰訊視頻針對特殊用戶群提供的色彩障礙糾正功能,這也是我們在科技向善方面的有益探索和嘗試。紋理方面比較常見的有針對風景片的銳化處理,主要用于明星綜藝節目的人物磨皮處理等;曝光調節方面,常見的包括像暗場增強、去霧、HDR處理等。?
如上所言在中低端設備上解碼能力不足是造成卡頓的常見原因,為了達到流暢播放這個最基礎的感官質量要求,我們一方面努力提升硬件解碼覆蓋率,尤其是在兼容性問題很突出的Android平臺,如上圖左側所示,從最早期的底層openMAX接口,到Framework層的StageFright接口,直到現在應用層越來越開放和穩定的MediaCodec接口,我們都盡力提高調用代碼的適配性,在一段時期(Android4.0+為主流系統)內方案之間還做到了互為備份,以進一步提高容錯能力。由于硬件解碼的異常較多,而且對于應用開發者來說往往沒有直接解決的手段,所以我們還需要采取多級柔性策略,以提前預防或者事后干預對異常進行處理。如上圖右側所示的那樣,我們內部會建立機型能力庫和黑白名單機制,在播放之前基于先驗知識模型為當前設備估算能力分數并根據其所處分數段,從而預判針對給定視頻格式所能流暢解碼的最高碼率及分辨率;此外當播放過程中出現Crash時,我們在下次啟動時還會通過分析上次call stack的信息來感知是否由于是解碼模塊導致的程序Crash,從而得出手機在播放下一段內容時優先選擇軟解還是硬解。通過這些多級且柔性可控的組合策略,我們希望在H.264/AVC向HEVC的過渡過程當中,即便在中低端設備上播放如1080P這樣的高分辨率檔次視頻,也能盡量避免用戶感知到的卡頓。?
基礎感官質量的另一維度是音視頻同步體驗,這幾乎也是繞不過去的、需要長期作斗爭的疑難且瑣碎的技術問題。導致不同步的原因比較多,大體可以分為兩類:一類是在片源側制作過程中引入的,屬于先天性問題,大概算“天作孽“類型,比如分布式編碼時切片文件時間沒對齊,又或者音視頻碼流Mux過程時interlaced writing的間隔太大等,這一類問題的解決往往需要播放器和后臺相互配合;從規避的角度看,可以在編碼端加入旁路檢測時間戳規范性等手段。另一類不同步就是由于終端播放器“自作孽”引入的,例如解碼能力不足造成的跳幀,或者變速播放時對時間戳的重計算不合理等。這種體驗異常出現在客戶端,且屬于“語義”層面問題,往往較難從“語法”規范度層面來實時檢測和處理,雖然業界有一些自動化檢測音視頻同步的方法,例如分析圖像和聲音信號頻譜的偏差,但暫時缺乏在用戶側能簡易部署且低成本實施的方案,這也是未來我們需要攻關的技術點之一。
?
在日常工作中,我們為了主動發現和提前預警播放環節中的潛在問題,會應用一套自動化播放測試系統。這個系統會利用公司內部強大的手機云系統,根據后臺統計數據自動播放點播熱度最高的頭部片源,并監控測試過程中播放器的異常輸出,以郵件推送匯總結果。由于我們內部的手機云系統覆蓋的機型非常廣泛,而且自動化的播放用例也無需人工干預,所以這套系統非常有效地輔助我們來提升播放質量。
?
在感官質量圖像色彩上的工作實踐,今天帶給大家的案例是我們榮獲2018 iF設計大獎的色覺障礙優化模式。這項工作的起因是我們研發團隊內部由于工作性質,需要經常主觀判定畫質高低,有時出現個別判定和大部分人都不同的情況,分析后我們無意中發現是因為有兄弟存在輕微色弱導致,于是碼農改變世界的雄心被激發,帶來了今天我們看到的這項成果。后來我們在維基百科上看到的數據是,全球約6%人口為色弱、約2%人口為色盲,還有極少數為單色視覺即全色盲。可見這個比例并不低,我們希望為這部分用戶帶來些許改善。單純從算法層面講,其實原理比較簡單,大體通過特定的色彩空間與色彩矩陣的變換來實現部分色彩的調整即可,但確定算法內部的各種調整參數卻是一件費時費力的事情。從初期技術原形到最終上線,我們花了超過半年的時間來不斷打磨細節,包括邀請很多用戶來體驗產品、設計用戶訪談并分析結果來改進算法,在播放器內使用各種優化方案來做算法提速等,最終在國內在線視頻行業上率先呈現出我們對人性化與科技向善的思考。
?
在感官質量圖像曝光方面,我們通過與音頻行業的技術領軍者Dolby公司,同時也是近年來HDR領域技術和產業化的積極推動者展開敏捷合作,在蘋果發布首款支持Dolby Vision手機的時間窗口內,騰訊視頻在iOS APP store中國區首發了Dolby Vision高品質影片及播放能力,為用戶呈現超越傳統的驚艷視覺體驗。Dolby Vision及HDR相關技術信息大家可另行了解,今天時間有限我不再詳細介紹。
在圖像紋理的優化上,我們采取了實時超分辨率增強的策略。借助對傳統SR深度學習模型的改良以適應不同程度的模糊/噪聲并改善樣本構造與加速模型訓練,我們在服務器端實現了最高1080P至4K的超分辨率處理,主要用于老舊片源畫質修復改善;進一步實踐,通過自研的圖像引擎與簡化的淺層網絡結構,我們在移動端大規模地應用了480P至720P的實時超分辨率處理。具體一點來說,傳統SR模型會將輸入的樣本圖片先人為下采樣后再上采用,并通過網絡學習輸出圖片與原圖之間的差異。我們發現此方法對于拍攝時期較早、客觀上并不存在高分辨率的“原始”圖像對片源效果并不好,而且超分之后的面畫也容易出現噪點。于是我們調整了樣本訓練方法,以克服上述問題,并通過編寫高效的OpenGL/Metal代碼來實現算法在手機上的加速。PPT演示的DEMO視頻畫面左邊部分是算法生效后的效果,與畫面右邊原始區域相對比。可以看到類似人物服飾花紋、面部胡須等部分細節明顯豐富很多,畫面下部的字幕邊緣也明顯清晰銳利得多。
5. 未來展望
?
最后我以今天分享的質量三維論簡單談談個人對未來的展望作為本次分享的末尾總結:
1)在源頭質量方面,使用新技術提升壓縮效率仍是學工界的熱點工作。現在是一個Codec群雄逐鹿的時代,不斷加強優化的CAE感知編碼方案會帶來更多元化的思路;未來的視頻編碼仍然會以混合編碼框架為主流,但AI技術的持續發力會助力包括降噪、去抖動、平滑在內的圖像前處理,場景分析、融合等實現進一步的性能提升從而顯著改善圖像質量。另外行業整體環境對版權保護會越來越重視,后續從國家政策引導層面、從上游片源版權方商業條款層面,對視頻平臺及服務都會有嚴格要求。
2)在交互質量方面,基于QoE評價驅動的Streaming是值得關注的重點;結合強化學習優化的ABS算法是值得嘗試的方向。國內ABS算法的普及率不高,一方面是國內各大視頻平臺對于視頻碼流的質量分檔并不足夠細分,一般僅提供270P/480P/720P/1080P四檔左右,給ABS算法提供的空間并不多;其次是使用ABS算法可能提升成本,這對用戶規模龐大的視頻平臺而言意味著更大的成本壓力,所以關于ABS算法的應用需要結合業務場景與實際需求進一步探索和優化。在協議選擇上,國內HLS已是主流選擇,未來Chunk-based CMAF、QUIC等是用于改善時延、提升弱網傳輸等有益嘗試。另外新一代通信技術5G的建設與普及,必然會對視頻行業帶來新一輪的發展機遇。
3)在感官質量方面,移動設備結合輕量化模型會是未來的發展趨勢,而深度傳感器、NPU、多攝像頭則會進一步豐富視頻玩法。與此同時,更加貼合場景、設備與用戶的產品設計讓定制化需求成為良好用戶體驗當中不可或缺的一部分。
點擊【閱讀原文】或掃描圖中二維碼了解更多LiveVideoStackCon 2019 上海 音視頻技術大會 日程信息。
總結
以上是生活随笔為你收集整理的质量三维论如何持续推进腾讯视频播放体验提升的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 范醒哲:5G时代是时候全面解决TCP的效
- 下一篇: 三体云周思进:在红海中寻找蓝海