音视频技术开发周刊 68期
『音視頻技術開發周刊』由LiveVideoStack團隊出品,專注在音視頻技術領域,縱覽相關技術領域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第68期內容,祝您閱讀愉快。
架構
劉志勇:微博短視頻百萬級高并發架構
本文來自新浪微博視頻平臺資深架構師劉志勇在LiveVideoStackCon 2018講師熱身分享,并由LiveVideoStack整理而成。分享中劉志勇從設計及服務可用性方面,詳細解析了微博短視頻高可用、高并發架構設計中的問題與解決方案。
容聯CTO許志強:AI、5G讓通訊更智能、更高效
LiveVideoStack采訪了容聯云通訊CTO許志強,分享了從一線研發到團隊leader的軟硬性能力提升經驗,解析了通訊行業音視頻技術難點、踩的坑以及優化方案,并展望了AI、5G為音視頻技術發展帶來的革新。
吳曉然:實時通信需要Codec和網絡模塊結合
LiveVideoStack對聲網視頻工程師吳曉然進行了采訪,他認為實時通信場景的Codec需要考慮網絡情況才能做好。?
FFmpeg優化 蘇寧PP體育視頻剪切效率提升技巧
FFmpeg功能強大,社區活躍,在多媒體處理業務中扮演著不可或缺的角色。但沒有優化過的FFmpeg在生產環境下有很多性能瓶頸,因此對其進行優化勢在必行。蘇寧旗下PP體育音視頻技術負責人田釗撰文分享了團隊在處理海量視頻切割過程中遇到的挑戰及優化方法。感謝OnVideo視頻創作云平臺聯合創始人、FFmpeg Maintainer劉歧對本文的技術審校。
實時接口數據也能就近訪問?細說如何用CDN提升App性能
邊緣計算是在靠近物或數據源頭的一側,就近提供計算服務。其應用程序在邊緣側發起,產生更快的網絡服務響應,滿足行業在實時業務、應用智能、安全與隱私保護等方面的基本需求。本文作者介紹了在CDN節點上做實時數據處理的一些方式,值得架構師學習。
一文讀懂熔斷器和重試機制
隨著微服務的流行,熔斷作為其中一項很重要的技術也廣為人知。當微服務的運行質量低于某個臨界值時,啟動熔斷機制,暫停微服務調用一段時間,以保障后端的微服務不會因為持續過負荷而宕機。本文作者介紹了熔斷的原理和機制,并用例子說明了熔斷如何使用。
直播協議+流媒體服務器+音視頻處理+FFmpeg
直播協議 RTMP(Real Time Messaging Protocol) 簡介 Time Messaging Protocol,實時消息傳送協議 RTMP是Adobe公司為Flash播放器和服務器之間音頻、視頻和數據傳輸開發的開放協議。
音頻/視頻技術
神經網絡超分辨率——未來的視頻神器?
超分辨率是一項底層圖像處理任務,將低分辨率的圖像映射至高分辨率,以期達到增強圖像細節的作用。圖像模糊不清的原因有很多,比如各式噪聲、有損壓縮、降采樣,甚至還有可能是你熬夜過多所致……
Metal視頻處理——綠幕視頻合成
本文介紹如何用Metal把一個帶綠幕的視頻和一個普通視頻進行合并。綠幕視頻合成可以分為兩步,首先是把視頻讀取成視頻幀并做好對齊,其次是做兩個圖像的合成。
WebRTC Native 源碼導讀(十三):音頻設備模塊 ADM
ADM 被 WebRtcVoiceEngine 所使用,縱觀 ADM 的接口,我們可以總結出它有如下功能:選擇采集/播放音頻設備、采集/播放啟停控制、采集/播放音量控制、采集/播放靜音、雙聲道采集/播放、獲取播放延遲。
OpenSL ES 調用FFmpeg 播放聲音
OpenSL ES 全稱是:Open Sound Library for Embedded Systems,是一套無授權費、跨平臺、針對嵌入式系統精心優化的硬件音頻加速API。它為嵌入式移動多媒體設備上的本地應用程序開發者提供標準化, 高性能, 低響應時間的音頻功能實現方法,并實現軟硬件音頻性能的直接跨平臺部署,降低執行難度,促進高級音頻市場的發展。
編解碼
內容自適應編碼中的不同粒度
根據不同粒度的CAE,可以實現從粗獷和精確的內容感知編碼,從而提升帶寬利用率,為用戶提供更好的觀看體驗。
HEVC,AV1,VVC,XVC: 視頻編解碼器之戰愈演愈烈
視頻編解碼器將成為本月IBC論壇的重要話題之一,因為該行業已孵化出一系列新的、更高效的視頻壓縮技術,如AV1,VVC和XVC等。本文根據Adrian Pennington等人的文章“HEVC, AV1, VVC and XVC: The codec battle intensifies”,對幾種codec的現狀進行了整理。
Android硬編碼——音頻編碼、視頻編碼及音視頻混合
通常來說,對于同一平臺同一硬件環境,硬編硬解的速度是快于軟件編解碼的。而且相比軟件編解碼的高CPU占用率來說,硬件編解碼也有很大的優勢,所以在硬件支持的情況下,一般硬件編解碼是我們的首選。
變分自編碼器
變分自編碼器(Variational Autoencoder,VAE)是生成式模型(Generative Model)的一種,另一種常見的生成式模型是生成式對抗網絡(Generative Adversarial Network,GAN),本文簡單介紹VAE的原理,并用Keras實現。
AI智能
用神經網絡生成音樂
C-RNN-GAN是一種連續遞歸神經網絡,它在深度LSTM的基礎上進行對抗訓練,因此它可以很好地處理連續時間序列數據,例如音樂!
人工智能:塑造廣播行業的未來
人工智能技術正在迅速從實驗轉向實際應用,跨越生產流程,進入內容生產的核心。在IBC2018論壇上,人工智能無疑是最火熱的話題之一,本文根據Adrian Pennington等人的文章“AI: Building the future of broadcast”,對出現在IBC2018論壇上有關視頻生產的內容進行了整理。
MIT設計跨模態系統,讓模型“聽音識圖”
最近,麻省理工學院的計算機科學家們提出了一種系統,基于對圖片的語音描述,可以學習在圖片中辨認目標物體,給定一張圖片和音頻解釋,模型可以實時辨認出音頻描述的相關區域。
如何通過深度學習輕松實現自動化監控?
本文是一篇快速上手指南,講述了如何使用基于深度學習的對象檢測(Object Detection)實現監控系統,并對使用 GPU 多處理器進行推理的不同對象檢測模型在行人檢測中的性能進行了比較。
使用TensorFlow進行訓練識別視頻圖像中物體
本教程針對Windows10實現谷歌公布的TensorFlow Object Detection API視頻物體識別系統,其他平臺也可借鑒。
圖像識別泛化能力人機對比:CNN比人類還差得遠
深度神經網絡在很多任務上都已取得了媲美乃至超越人類的表現,但其泛化能力仍遠不及人類。德國蒂賓根大學等多所機構近期的一篇論文對人類和 DNN 的目標識別穩健性進行了行為比較,并得到了一些有趣的見解。
圖像
基于距離變換和分水嶺算法的圖像分割
分水嶺分割方法,是一種基于拓撲理論的數學形態學的分割方法,其基本思想是把圖像看作是測地學上的拓撲地貌,圖像中每一點像素的灰度值表示該點的海拔高度,每一個局部極小值及其影響區域稱為集水盆,而集水盆的邊界則形成分水嶺。
深度學習AI美顏系列---SpecialFace特效濾鏡
SpecialFace濾鏡這個名字實際上是本人自己起的,因為這個濾鏡是一種比較另類的,人臉美化特效,所以給了這個名字。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 68期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 刘志勇:微博短视频百万级高并发架构
- 下一篇: BBR如何让Spotify流媒体更流畅?