音视频技术开发周刊(第125期)
每周一期,縱覽音視頻技術領域的干貨和新聞投稿:contribute@livevideostack.com。
架構
基于WebRTC的云游戲解決方案和技術優(yōu)化
本次演講主要內(nèi)容將包括云游戲整體方案的架構介紹、使用開Open WebRTC ToolKit (OWT)實現(xiàn)流和控制命令的傳輸,以及為實現(xiàn)云游戲所需的超低延遲所做的優(yōu)化。
傳輸網(wǎng)絡
靈魂一問:一個TCP連接可以發(fā)多少個HTTP請求??
一道經(jīng)典的面試題是從 URL 在瀏覽器被輸入到頁面展現(xiàn)的過程中發(fā)生了什么,大多數(shù)回答都是說請求響應之后 DOM 怎么被構建,被繪制出來。
Demuxed 2019 演講視頻選
基于蘋果低延遲HLS的技術實踐/視頻指標分析/無狀態(tài)音頻處理系統(tǒng)
第一場演講的演講者是來自M2A Media的Marina Kalkanis,演講者介紹了M2A 實時系統(tǒng)的工作流程組件,并給出了每個組件帶來的延遲。
第二場演講的演講者是來自Snap的Bendodson,演講主題是視頻指標分析。演講者從Richard Feynman算法引入,說明了解指標固有屬性的重要性,然后闡述了視頻啟動延時對用戶的影響,最后講述了解決棘手問題的方式。
第三場演講的演講者是來自Twitter的Michael Hill,演講主題是無狀態(tài)音頻處理系統(tǒng)。演講者首先對比了有狀態(tài)系統(tǒng)和無狀態(tài)系統(tǒng)的特點,接著說明了無狀態(tài)系統(tǒng)在Twitter實時系統(tǒng)中的應用,具體講述了音頻處理器的工作流程,然后詳細介紹了客戶端和服務器端的工作,最后介紹了下一步的工作。
netflix公司在AV1上做的一些工作/強化學習在ABR中的應用
第一場演講的演講者是來自Netflix的Guo LiWei和Andrey Norkin,首先LiWei介紹了Neiflix公司在編碼優(yōu)化方面做的一系列工作,包括07年的"One-size-fits-all",15年的"Per-title",16年的"Per-chunk"和17年的"Per-shot"編碼。然后介紹了他們對于AV1的關注點,包括根據(jù)內(nèi)容的優(yōu)化和基于"Per-shot"的壓縮。
第二場演講的演講者是來自Hotstar的Sahil Budhiraja,演講者首先介紹了ABR(Adaptive Bitrate Switching),以及其最優(yōu)化QOE的目標。然后介紹了最近的ABR算法,包括吞吐量估計、基于buffer的和混合的算法,這些算法都是啟發(fā)式的。
編解碼
關于VMAF,內(nèi)容感知編碼和無參指標的思考
獨立于所使用的編碼器,內(nèi)容感知編碼(Content-Aware Encoding, CAE)和內(nèi)容感知傳輸(Context-Aware Delivery, ?CAD)代表了目前視頻流的最先進技術。
用Elevator優(yōu)化AV1視頻播放
AOM會員Vimeo通過Elevator改善AV1解碼過程中的丟幀和質(zhì)量下降問題。感謝Google軟件工程師姜健對本文做的技術審校。
新型試驗編碼工具簡述
本文是來自AOMedia 2019研討會上的演講,演講者是來自谷歌編解碼團隊的Sarah Parker。本文主要介紹了在現(xiàn)行AV1標準的基礎上,為下一代編碼器性能的優(yōu)化而提出的一些新型編碼工具和做出的一些嘗試,這些工具尚處于實驗階段。
使用基于分層深度學習的分塊預測加速VP9幀內(nèi)編碼
本文是來自AOMedia 2019 Research Symposium的演講,演講者是來自得克薩斯大學奧斯汀分校的Somdyuti Paul,題目是”Speeding up VP9 IntraEncoder with Hierarchical Deep Learning Based Partition Prediction”,主題是使用基于分層深度學習的分塊預測加速VP9幀內(nèi)編碼。
嗶哩嗶哩H.265編碼器在直播和點播的實踐和應用
作為一個視頻網(wǎng)站,隨著B站的視頻種類的增多,網(wǎng)站的成本壓力增加,考慮到降低成本,就要選擇一個超低碼率的編碼器。本文來自B站視頻云技術部的技術專家葉天曉在LiveVideoStackCon2019北京站上的精彩分享,文章中詳細介紹了B站自研的H.265軟件編碼器(yhevc)研發(fā)歷程, 以及針對實際的點播和直播業(yè)務做的一些優(yōu)化與實踐。
音視頻封裝小總結(PS TS 和FLV)
PS、TS、FLV這三種簡單封裝格式,里面包含了對國標流的PS流處理方法,同時解析了HLS的TS文件格式以及常用的FLV文件,更詳細內(nèi)容可參考文內(nèi)鏈接的往期文章。
感知優(yōu)化深度圖像壓縮
本文是來自alliance for open media research symposium2019的演講,作者是來自于UT Austin的PhD,Li-Heng Chen。本次演講主要講述如何在感知上優(yōu)化深度圖像壓縮。
視頻技術
視頻監(jiān)控攝像頭的互聯(lián)網(wǎng)化實踐思路
本文介紹了視頻監(jiān)控攝像頭的互聯(lián)網(wǎng)化實踐思路,本篇就拋磚引玉說下視頻監(jiān)控設備上云的一些實踐和思考。文章核心內(nèi)容大致分為下面幾個部分,為什么監(jiān)控攝像頭要上云?互聯(lián)網(wǎng)化?要上云怎么實踐?有哪些大坑需要填?未來這塊還有哪些改進空間和期待?
視頻體驗質(zhì)量指標的標準
本文是來自MHV(Mile High Video)2019的演講,演講者是來自于Mux的Steve He?ernan。本次演講主要接受了CTA標準工作組R04 WG20 在視頻體驗質(zhì)量指標標準上的近期工作。
Hangouts Meet 中的語音識別
關于谷歌 Meet 中語音識別工作原理的有趣分析 (涉及 data channel)
人物專訪
Beamr構建的工具VISTA/內(nèi)容聚合和衡量OTT成功與否
第一段音頻的訪談者Tamar Shoham是Beamr技術和算法VP,他們討論了Beamr構建的一個工具VISTA,該工具使用眾包資源進行大規(guī)模ITU BT.500風格的主觀質(zhì)量評價測試。
第二段音頻的訪談者Dan Rayburn是流媒體專家,他們討論了Disney+、Quibi、HBO Max、Hulu、ViacomCBS以及即將推出的D2C對包括Netflix和付費電視運營商在內(nèi)的現(xiàn)任者意味著什么。
UHD的現(xiàn)狀/HEVC虛擬現(xiàn)實編碼的最新進展/P2P內(nèi)容分發(fā)
第一段音頻的訪談者Thierry Fautier是UHD論壇主席,他們討論了UHD的現(xiàn)狀以及UHD論壇為確保盡可能多的用戶獲得UHD體驗所做的工作。
第二段音頻的訪談者Rob Koenen是TileMedia的聯(lián)合創(chuàng)始人,他們討論了HEVC虛擬現(xiàn)實編碼的最新進展,探討了HEVC tile編碼、8K、高分辨率視頻的MP4元數(shù)據(jù)優(yōu)化等內(nèi)容。
第三段音頻的訪談者Hadar Weiss是Peer5的CEO兼聯(lián)合創(chuàng)始人,他們討論了P2P內(nèi)容分發(fā),以及他們的多CDN解決方案為何能夠成為全球最快的交付網(wǎng)絡之一。
如何確保交付的HDR視頻能提供最佳的消費者體驗/IP-Only如何在北歐建立領先的CDN業(yè)務/云游戲
第一段音頻的訪談者是來自Mystery Box的Sam Bilodeau,他是一個HDR以及色彩專家,它同時具有HDR分發(fā)中的視頻采集,視頻處理和視頻編碼經(jīng)驗。
第二段音頻的訪談者Johan Danckwardt是IP-Only的CDN負責人,他講述了IP-Only如何在北歐建立領先的CDN業(yè)務,為一些全球最大、最成熟的媒體公司和OTT服務商分發(fā)內(nèi)容。
第三段音頻的訪談者Sharon Carmel是Beamr創(chuàng)始人兼CEO,他談到了云游戲,以及為什么他認為云游戲是推動視頻編碼技術發(fā)展的一個令人興奮的前沿領域。
VVC的新特點/主觀質(zhì)量評價對于視頻評估的重要性/從事視頻業(yè)務要了解標準
第一段音頻的訪談者是來自微軟的Gary Sullivan,他也是MPEG和ITU多媒體研究小組創(chuàng)建VVC的共同主席。VVC計劃于2020年發(fā)布,是繼HEVC之后的下一代標準,Gary Sullivan解釋了VVC的新特點和令人興奮之處。
第二段音頻的訪談者是來自Bitmovin的Richard Fliam,他解釋了除了客觀質(zhì)量評價,主觀質(zhì)量評價也是視頻評估的一個重要部分。
第三段音頻的訪談者Bruce Devlin是SMPTE VP。技術標準如MXF、ST-2110、IMF等快速發(fā)展,隨著視頻技術和標準的不斷發(fā)展,有些標準是在傳統(tǒng)框架之外開發(fā)的。
AI智能
NeurIPS 2019丨是呆頭伯勞鳥還是南灰伯勞鳥?深度雙線性轉換幫AI準確區(qū)分
雙線性特征在學習細粒度圖像表達上效果很好,但計算量極大,無法在深層的神經(jīng)網(wǎng)絡中被多次使用。因此,微軟亞洲研究院設計了一種深度雙線性轉換模塊,能夠深層地將雙線性表達應用在卷積神經(jīng)網(wǎng)絡中,來學習細粒度圖像特征。這項工作發(fā)表在了 NeurIPS 2019 上。
顯著提升圖像識別網(wǎng)絡效率,Facebook提出IdleBlock混合組成方法
Facebook AI 近日一項研究提出了一種新的卷積模塊 IdleBlock 以及使用該模塊的混合組成(HC)方法。實驗表明這種簡潔的新方法不僅能顯著提升網(wǎng)絡效率,而且還超過絕大多數(shù)神經(jīng)網(wǎng)絡結構搜索的工作,在同等計算成本下取得了 SOTA 表現(xiàn),相信這項研究能給圖像識別網(wǎng)絡的開發(fā)、神經(jīng)網(wǎng)絡結構搜索甚至其他領域網(wǎng)絡設計思路帶來一些新的啟迪。
圖像
全面梳理:圖像配準綜述
圖像配準與相關是圖像處理研究領域中的一個典型問題和技術難點,其目的在于比較或融合針對同一對象在不同條件下獲取的圖像,例如圖像會來自不同的采集設備,取自不同的時間,不同的拍攝視角等等,有時也需要用到針對不同對象的圖像配準問題。
資源推薦
使用自己的數(shù)據(jù)集訓練MobileNet、ResNet實現(xiàn)圖像分類
對MobileNet的圖像分類模型的訓練。
點擊“閱讀原文”可查看更多詳細信息,請大家科學上網(wǎng)。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊(第125期)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 展望二十一世纪第三个十年
- 下一篇: 基于Xilinx FPGA生态,加速提升