音视频技术开发周刊 67期
『音視頻技術開發(fā)周刊』由LiveVideoStack團隊出品,專注在音視頻技術領域,縱覽相關技術領域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第67期內容,祝您閱讀愉快。
架構
展曉凱:短視頻APP架構設計與實現
本文來自全民快樂研發(fā)高級總監(jiān)展曉凱在LiveVideoStackCon 2018講師熱身分享,并由LiveVideoStack整理而成。分享中展曉凱詳細介紹了短視頻APP場景中視頻錄制、編輯、保存模塊的相關技術,以及變速不變調算法W-SOLA的實現。
相機+激光雷達重繪3D場景
將激光雷達與相機結合,再通過深度學習的方式獲得場景的3D模型——Ouster首席執(zhí)行官在博客中介紹了相機OS-1,并裝有激光雷達。LiveVideoStack對原文進行了摘譯。
馮迅:YY多媒體實時傳輸系統演進
本文來自YY基礎架構部負責人馮迅在LiveVideoStackCon 2017上的分享,并由LiveVideoStack社區(qū)整理而成。馮迅重點介紹了,YY直播平臺的架構演進,包括技術棧選擇權衡,自建網絡與采購CDN協作等。
常青:小程視頻能力再升級序音
LiveVideoStack采訪了騰訊云音視頻業(yè)務終端研發(fā)團隊負責人常青,針對小程序音視頻能力技術升級、場景支持、政策審核以及未來演進趨勢進行了詳細的探討。
即構科技金健忠:回顧20年音視頻技術演進
多媒體技術是一個傳統行業(yè),從模擬到數字,VCD到藍光,從窄帶到寬帶,標清到高清,技術演進讓人的視聽體驗發(fā)生了顛覆式的改變。LiveVideoStack采訪了即構科技CTO金健忠,他回顧了過去20年多媒體技術的發(fā)展,并展望了未來的技術趨勢。
音視頻--SDP協議
SDP:會話描述協議,是一種會話描述格式,為描述多媒體數據而設計。 SDP協議介紹 SDP 完全是一種會話描述格式(對應的RFC2327 , RFC4566) 它不屬于傳輸協議 ,它只使用不同的適當的傳輸協議,包括會話通知協議(SAP)、會話初始協議(SIP)、實時流協議(RTSP)、MIME 擴展協議的電子郵件以及超文本傳輸協議(HTTP)。
WebRTC降低直播延遲——Limelight方案
曾經點播在視頻傳輸中占據很大的比例,但如今越來越多的平臺希望能夠通過直播的方式增加觀眾的興奮程度和參與度,同時直播時的延遲成為了一個關鍵的挑戰(zhàn)。在音視頻傳輸的過程中,在不同階段都會產生延時,有設備端上的延時,設備端與服務器之間的延時,服務器之間的延時,但是,不同的行業(yè)對于實時音視頻的延遲也有不同的要求,需要找到畫質、音質、延時和功耗等方面的平衡點。
5G接入網的架構
本文首先結合5G愿景與需求,闡明了5G接入網絡架構的特點和重要性;然后從學術界和產業(yè)界兩個角度詳細介紹了5G接入網絡架構的設計原理和具體組成,分析了優(yōu)點和不足;最后,探討了接入網絡架構的挑戰(zhàn)和未來的可能發(fā)展方向。
音頻/視頻技術
Android下AudioRecord采集音頻寫入PCM和WAV文件中
本文主要介紹如何將采集到的音頻數據保存到PCM和WAV文件中。其實保存PCM數據不難,只要直接寫入文件即可,而保存數據至WAV文件只需要將WAV文件格式頭補上即可。
基于Qt、FFmpeg的音視頻播放器設計
本篇文章主要介紹視頻處理的原理以及實現。對于視頻的處理我們這里對它分開總結,不然看起來會顯得很冗余復雜,不易理解,主要分為以下幾方面。1、打開視頻獲取視頻信息;2、讀取視頻分析視頻包;3、打開視頻解碼器;4、視頻解碼并分析H264解碼;5、打開格式轉換和縮放;6、視頻轉RGB并縮放。
快速搭建自己的直播服務器,完成屬于你的直播服務
通過本文您能學到以下內容: 1、動手搭建直播服務器,完成一次對移動端支持的直播。2、使用OBS推流。3、使用HTML5網頁播放M3U8流媒體文件。
音視頻通話:小議音頻處理技術與壓縮
在視頻或者音頻通話過程中,一方面為了減小原始聲音數據的傳輸碼率,需要進行音頻壓縮,另一方面為了得到更高質量的音質,需要進行音頻處理。那么,如何處理好這兩方面,保證聲音傳播的高真性?本篇文章將會結合網易云信在音視頻技術方面的實戰(zhàn)和經驗,小議音頻處理與壓縮技術。
編解碼
FFmpeg 中AVPacket的使用
AVPacket保存的是解碼前的數據,也就是壓縮后的數據。該結構本身不直接包含數據,其有一個指向數據域的指針,FFmpeg中很多的數據結構都使用這種方法來管理數據。
X264實現H264編碼以及MediaMuxer的另類用法
本系列文章涉及的項目HardwareVideoCodec已經開源到Github,支持軟編和硬編。使用它你可以很容易的實現任何分辨率的視頻編碼,無需關心攝像頭預覽大小。
FFmpeg解碼視頻文件并播放
最近學習了一下如何使用FFmpeg解碼音視頻,網上的教程挺多但是也挺雜的,搞了好幾天,明白了FFmpeg解碼音視頻的大體流程,這里記錄一下FFmpeg解碼視頻并播放音視頻的例子,但并沒有做音頻、視頻播放 的同步處理。
Netty編解碼框架
Netty提供了一套完善的編解碼框架,不論是公有協議/私有協議,我們都可以在這個框架的基礎上,非常容易的實現相應的編碼/解碼器。輸入的數據是在ChannelInboundHandler中處理的,數據輸出是在ChannelOutboundHandler中處理的。因此編碼器/解碼器實際上是這兩個接口的特殊實現類,不過它們的作用僅僅是編碼/解碼。
AI智能
人臉檢測算法綜述
人臉檢測是目前所有目標檢測子方向中被研究的最充分的問題之一,它在安防監(jiān)控,人證比對,人機交互,社交和娛樂等方面有很強的應用價值,也是整個人臉識別算法的第一步。本文將和大家一起回顧人臉檢測算法的整個發(fā)展歷史。
卷積神經網絡的壓縮和加速
針對卷積神經網絡模型的壓縮,最早提出的方法應該是網絡裁枝,LeCun在1989年就提出根據損失函數對各個參數的二階導,來估計各個參數的重要性,再刪去不重要的參數。后來又是到2012年之后,壓縮方法更加多樣,總體大約分為4種:網絡裁枝、模型量化、低秩估計、模型蒸餾。下面SIGAI將對4種方法進行逐一介紹。
如何優(yōu)雅地從四個方面加深對深度學習的理解
在今年的 ICML 上,深度學習理論成為最大的主題之一。會議第一天,Sanjeev Arora 就展開了關于深度學習理論理解的教程,并從四個方面分析了關于該領域的研究:非凸優(yōu)化、超參數和泛化、深度的意義以及生成模型。
短視頻如何做到千人千面?FM+GBM排序模型深度解析
信息流短視頻能夠滿足用戶的碎片化閱讀需求,目前已是移動互聯網流量風暴的中心。各互聯網大廠紛紛涉足此領域,推出自己的短視頻產品,群雄爭霸,逐鹿短視頻市場。今天,UC事業(yè)部國際研發(fā)團隊,將為大家介紹排序層的模型演進過程,帶你深入了解模型創(chuàng)新部分。
【ECCV 2018】Facebook開發(fā)姿態(tài)轉換模型,只需一張照片就能讓它跳舞(視頻)
DensePose 是 Facebook 研究員 Natalia Neverova、Iasonas Kokkinos 和法國 INRIA 的 R?za Alp Guler 開發(fā)的一個令人驚嘆的人體實時姿勢識別系統,它在 2D 圖像和人體3D 模型之間建立映射,最終實現密集人群的實時姿態(tài)識別。
圖像
深度學習AI美顏系列----AI人臉自動美型算法
人臉智能美型技術主要用于智能美顏,對用戶的照片進行自動智能調整,而不需要用戶手工調整,該技術在美顏相機、天天P圖等app中都已應用。本文在這里對人臉智能美型進行詳解。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 67期的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 容联CTO许志强:AI、5G让通讯更智能
- 下一篇: LiveVideoStackCon讲师热