音视频技术开发周刊 73期
『音視頻技術開發周刊』由LiveVideoStack團隊出品,專注在音視頻技術領域,縱覽相關技術領域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第73期內容,祝您閱讀愉快。
架構
下一代低延時直播CDN:HLS、RTMP 與UDP +WebRTC
在上月落幕帷幕的多媒體領域技術盛會——LiveVideoStackCon2018音視頻技術大會上,阿里云的高級技術專家李剛進行了《下一代低延時的直播CDN》技術分享。本文由云棲社區整理,并授權LiveVideoStack發布。
機器學習幫助WebRTC視頻質量評價
本文來自CosMos Software創始人Alex. Gouaillard的博客,他同時為WebRTC、QUIC等標準組織工作。LiveVideoStack對原文進行了摘譯。
Zoom的Web客戶端與WebRTC有何不同?
Zoom是非常出色的視頻會議平臺,拿Zoom的web客戶端和WebRTC對比似乎有失公允。重要的是,未來WebRTC還會不斷做明智的改進。
自建及商用CDN之間的多維度比較
在選擇自建CDN或者商用CDN時,需要結合業務實踐,從成本、質量、業務定制化能力等維度進行綜合評判。本文來自歡聚時代直播部負責人林正顯在LiveVideoStackCon 2017大會上的分享,并由LiveVideoStack整理而成。
2018年是VR的新機會嗎?
本文綜合了ITU、IDG最新報告以及Harmonic VP Thierry Fautier的對VR內容與技術成熟度的觀點。包括高效的編碼技術、點播內容都是VR行業的不錯的切入點。但大規模的賽事VR直播看上去并不成熟。LiveVideoStack對原文進行了摘譯。
Netty學習之路(五)-TCP粘包/拆包問題
TCP是個“流協議”,所謂流,就是沒有界限的一串數據。TCP底層并不了解上層業務數據的具體含義,它會根據TCP緩沖區的實際情況進行包的劃分,所以一個完整的包可能會被TCP拆分成多個包進行發送,也有可能吧多個小的包封裝成一個大的數據包發送,這就是TCP粘包和拆包問題。
音頻/視頻技術
全平臺硬件解碼渲染方法與優化實踐
硬件解碼后不恰當地使用OpenGL渲染會導致性能下降,甚至不如軟解。本文來自PPTV移動端研發經理王斌在LiveVideoStackCon 2017大會上的分享,并由LiveVideoStack整理而成。分享中王斌詳細解析了Windows、Linux、macOS、Android、iOS等多種平臺下硬件解碼的渲染方法及優化實踐。
Android上實現頻域均衡器
本文主要分為三個部分:1、現有的音控貼紙的創建以及渲染流程;2、從時域信息轉化成頻域信息的FFT算法實現;3、將生成的均衡器貼在3D眼鏡的鏡片上。
Ubuntu18.04 從頭開始編譯 Android Native WebRTC
本文詳細記錄Mac下使用PD虛擬機安裝ubuntu18.4桌面版,編譯Android Native WebRTC的過程。
視頻采集:Android平臺基于Camera 1的實現
本篇文章簡單介紹下移動端Android系統下利用Camera1進行視頻數據采集的方法。Camera1調用攝像頭采集視頻的核心實現在CameraCapture.java。
編解碼
高吞吐量JPEG 2000(HTJ2K):新的算法和機會
本文參考D. S. Taubman等人發表在SMPTE Motion Imaging Journal上的文章High Throughput JPEG 2000 (HTJ2K): New Algorithms and Opportunities,描述了一種聯合圖像專家組(JPEG)2000(J2K)塊編碼器的直接替代品,它提供了極高的吞吐量,編碼效率略有降低,但同時保留了除質量可拓展性之外J2K的所有功能。
M-JPEG和H.264壓縮性能比較(V4L2采集+編碼壓縮)
Linux下,一般的普通USB攝像頭V4L2視頻采集有兩種方式:V4L2_PIX_FMT_MJPEG和V4L2_PIX_FMT_YUYV。V4L2_PIX_FMT_MJPEG采集方式得到的是經過MJPEG壓縮的圖片,圖片格式是jpeg/jpg,后綴為.jpg或.jpeg。直接將采集到的.jpeg數據依序循環寫入一個文件,得到的流并不能直接播放,需要封裝成avi等視頻格式才能正常播放...
使用FFmpeg將音頻PCM數據生成WAV和MP3文件
WAV音頻封裝格式可以存儲無編碼的PCM數據,而MP3封裝格式中不能直接存儲PCM數據,需要對數據進行編碼。
Affine motion compensated prediction
在HEVC中,運動補償預測(MCP)僅采用平移運動模型。而在現實世界中,有很多種運動,比如放大/縮小、旋轉、透視等不規則運動。在VTM中,采用了基于塊的仿射變換運動補償預測方法。
AI智能
基于深度學習的目標檢測算法綜述:常見問題及解決方案
目標檢測(Object Detection)是計算機視覺領域的基本任務之一,學術界已有將近二十年的研究歷史。近些年隨著深度學習技術的火熱發展,目標檢測算法也從基于手工特征的傳統算法轉向了基于深度神經網絡的檢測技術。
NIPS 2018 | 將RNN內存占用縮小90%:多倫多大學提出可逆循環神經網絡
本文首先展示了不需要存儲隱藏激活的完全可逆 RNN 從根本上是有限制的,因為它們不能忘記隱藏狀態的信息。然后,研究人員提供了一個存儲少量比特的方案,使遺忘信息實現完全逆轉。本文的方法實現了與傳統模型相當的性能,但所需內存只占傳統模型的 1/10 到 1/15。
唇語識別技術的開源教程,聽不見聲音我也能知道你說什么!
唇語識別系統使用機器視覺技術,從圖像中連續識別出人臉,判斷其中正在說話的人,提取此人連續的口型變化特征,隨即將連續變化的特征輸入到唇語識別模型中,識別出講話人口型對應的發音,隨后根據識別出的發音,計算出可能性最大的自然語言語句。
實例詳解貝葉斯推理的原理
貝葉斯推理是一種精確的數據預測方式。在數據沒有期望的那么多,但卻想毫無遺漏地,全面地獲取預測信息時非常有用。
SFFAI分享 | 黃懷波 :自省變分自編碼器理論及其在圖像生成上的應用
以生成對抗網絡(GANs)和變分自編碼器(VAEs)等為代表的深度生成模型已經成為當前人工智能研究的熱點問題和重要前沿方向。目前的各種深度生成模型都各有其優點和缺點,比如生成對抗網絡的訓練穩定性和模式崩潰(mode collapse)問題等,變分自編碼器生成圖像比較模糊等。針對這些問題,我們提出了一種新的生成模型——自省變分自編碼器,用于實現穩定訓練和生成高分辨率真實圖像。
圖像
DeOldify:用GAN為黑白照片重新著色
一位reddit網友分享了自己近期的一個項目,他訓練了一個用于著色和恢復舊圖像的深度學習模型,效果很不錯。雖然是未完成品,我們在這里先把這個項目簡單介紹給大家,感興趣的讀者可以去Github上繼續圍觀。
人臉識別 相關論文閱讀(2)
通過深層網絡學習high-level的特征表達,利用深層網絡,泛化能力強,容易拓展到未見過的新身份類別。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 73期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: HTTP over QUIC重命名为“H
- 下一篇: NIUDAY 11.23 北京站抢票啦