音视频技术开发周刊 80期
『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊(duì)出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點(diǎn)擊『閱讀原文』,瀏覽第80期內(nèi)容,祝您閱讀愉快。
架構(gòu)
DeepFocus,基于AI實(shí)現(xiàn)更逼真的VR圖像
DeepFocus是一種基于AI的渲染系統(tǒng),用于在VR中渲染自然逼真的人眼聚焦效果。本文來自Facebook工程博客,LiveVideoStack進(jìn)行了翻譯。感謝阿里巴巴高級算法專家盛驍杰提供的技術(shù)審校。
WebRTC直播課堂實(shí)踐:實(shí)時(shí)互動(dòng)是核心
隨著低延時(shí)流媒體技術(shù)的不斷進(jìn)步,在線教育行業(yè)持續(xù)升溫。本文來自七牛云在線教育行業(yè)解決方案專家 徐晶在LiveVideoStackCon2018大會(huì)中的演講。在演講中他闡述了基于WebRTC架構(gòu)的低延時(shí)直播技術(shù)突破以及其在教育行業(yè)中的實(shí)踐與思考。本文由LiveVideoStack整理而成。
CoNEXT 2018:在Facebook上部署IETF QUIC
在12月初舉行的CoNEXT 2018 EPIQ研討會(huì)上來自Facebook的Subodh Iyengar詳細(xì)介紹了Facebook如何在其基礎(chǔ)設(shè)施中使用IETF-QUIC,并且通過Android和iOS設(shè)備上的Facebook應(yīng)用程序在移動(dòng)客戶端上進(jìn)行實(shí)驗(yàn)。本文來自QUIC-Tracker的博客,LiveVideoStack進(jìn)行了翻譯。
P2P技術(shù)詳解(三):P2P技術(shù)之STUN、TURN、ICE詳解
很多時(shí)候,我們希望網(wǎng)絡(luò)中的兩臺主機(jī)能夠直接進(jìn)行通信,即所謂的P2P通信,而不需要其他公共服務(wù)器的中轉(zhuǎn)。由于主機(jī)可能位于防火墻或NAT之后,在進(jìn)行P2P通信之前,我們需要進(jìn)行檢測以確認(rèn)它們之間能否進(jìn)行P2P通信以及如何通信。這種技術(shù)通常稱為NAT穿透(NAT Traversal)。最常見的NAT穿透是基于UDP的技術(shù),如RFC3489中定義的STUN協(xié)議。
基于CPU的深度學(xué)習(xí)推理部署優(yōu)化實(shí)踐
隨著人工智能技術(shù)在愛奇藝視頻業(yè)務(wù)線的廣泛應(yīng)用,深度學(xué)習(xí)算法在云端的部署對計(jì)算資源,尤其是 GPU 資源的需求也在飛速增長。如何提高深度學(xué)習(xí)應(yīng)用部署效率,降低云平臺運(yùn)行成本,幫助算法及業(yè)務(wù)團(tuán)隊(duì)快速落地應(yīng)用和服務(wù),讓 AI 發(fā)揮真正的生產(chǎn)力,是深度學(xué)習(xí)云平臺團(tuán)隊(duì)努力的目標(biāo) 。
音頻/視頻技術(shù)
視頻采集:iOS平臺基于AVCaptureDevice的實(shí)現(xiàn)
本篇文章簡單介紹了移動(dòng)端iOS系統(tǒng)下利用AVCaptureDevice進(jìn)行視頻數(shù)據(jù)采集的方法。
優(yōu)化短視頻實(shí)現(xiàn)“秒播”技術(shù)分析
在短視頻的體驗(yàn)中,起播速度無疑是最影響體驗(yàn)的指標(biāo)之一,因?yàn)槎桃曨l很短,十幾秒到幾分鐘不等,如果一個(gè)十幾秒的視頻,加載時(shí)間都要3秒,肯定是一個(gè)很壞的體驗(yàn);所以在產(chǎn)品定義之初,起播速度就設(shè)定了控制在1秒左右,大部分在1秒內(nèi),也就是業(yè)內(nèi)說的“秒播”,這需要對播放流程進(jìn)行優(yōu)化。
視頻會(huì)議的開發(fā)與探索(一):WebRTC的狂野世界
Facebook,WhatsApp,FaceTime和Signal是其中幾種用戶可以用來在網(wǎng)絡(luò)中進(jìn)行視頻,音頻通話的方式。盡管很多研究已經(jīng)開始轉(zhuǎn)為對視頻會(huì)議的加密和隱私保護(hù),關(guān)于這些平臺的易受攻擊程度的信息卻很少。我們查閱了三個(gè)最為廣泛使用的視頻會(huì)議實(shí)現(xiàn)方式。在本文中,我們會(huì)對此描述。
anyRTC Zoom模式多人音視頻開發(fā)教程-iOS [附源碼]
本文介紹了如何使用anyRTC多人視頻sdk來模仿Zoom多人視頻樣式。
編解碼
2018:視頻標(biāo)準(zhǔn)混戰(zhàn)的元年序幕
在寸土必爭的Codec市場,幾股力量正面交鋒,格外精彩。HEVC(H.265)壯志雄心,H.264老當(dāng)益壯,AV1來勢洶洶(據(jù)說AV2也在計(jì)劃中了),Codec展現(xiàn)出一場激烈與繁榮的景象。本文來自李大龍的投稿,文章總結(jié)了幾大Codec陣營的狀態(tài)與策略。對于B端用戶和C端消費(fèi)者而言,競爭是件好事情。
VP9如何給Twitch的電競直播帶來價(jià)值?
本文來自Twitch的科技博客,詳細(xì)解讀了該平臺如何將VP9用于其電競賽事的直播。通過FPGA硬件加速,VP9能極大提升視頻直播服務(wù)的質(zhì)量。LiveVideoStack對原文進(jìn)行了摘譯,感謝Twitch的首席研發(fā)工程師沈悅時(shí)博士提供的技術(shù)審校。
FFmpeg解碼MP4文件為YUV文件
前面我學(xué)了編譯FFmpeg的Android庫,寫了一個(gè)命令行使用FFmpeg的Android Demo,C文件都在虛擬機(jī)實(shí)現(xiàn),然后ndk編譯成so庫,再導(dǎo)入Android studio使用,Android代碼中沒有C / C ++文件,很純凈的樣子。但是,在虛擬機(jī)寫C代碼的時(shí)候,沒有自動(dòng)補(bǔ)全功能,很不方便。所以這次用Cmake編譯JNI,直接在Android工作室中使用代碼補(bǔ)全功能!
AI智能
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
圖是一種數(shù)據(jù)結(jié)構(gòu),它對一組對象(節(jié)點(diǎn))及其關(guān)系(邊)進(jìn)行建模。近年來,由于圖結(jié)構(gòu)的強(qiáng)大表現(xiàn)力,用機(jī)器學(xué)習(xí)方法分析圖的研究越來越受到重視。圖神經(jīng)網(wǎng)絡(luò)(GNN)是一類基于深度學(xué)習(xí)的處理圖域信息的方法。由于其較好的性能和可解釋性,GNN 最近已成為一種廣泛應(yīng)用的圖分析方法。
圖片語義分割深度學(xué)習(xí)算法要點(diǎn)回顧
在這篇博文中,將詳細(xì)介紹了一些關(guān)于圖像語義分割挑戰(zhàn)的最新模型。注意,研究人員使用不同的數(shù)據(jù)集(PASCAL VOC、PASCAL Context、COCO、Cityscapes)測試他們的算法,這些數(shù)據(jù)集在不同年份之間不同,并且使用不同的評估度量。
何愷明等最新突破:視頻識別快慢結(jié)合,取得人體動(dòng)作AVA數(shù)據(jù)集最佳水平
繼圖像領(lǐng)域之后,現(xiàn)在的 CV 領(lǐng)域,大家都在研究哪些內(nèi)容?近日,Facebook AI 實(shí)驗(yàn)室的 Christoph Feichtenhofer、何愷明等人發(fā)表一篇論文,在視頻識別領(lǐng)域提出了一種 SlowFast 網(wǎng)絡(luò),并且在沒有預(yù)訓(xùn)練模型情況下,此網(wǎng)絡(luò)在 Kinetics 數(shù)據(jù)集上取得79.0% 的準(zhǔn)確率,是當(dāng)前該數(shù)據(jù)集上的最佳表現(xiàn)。在 AVA 動(dòng)作檢測數(shù)據(jù)集上,同樣實(shí)現(xiàn)了 28.3 mAP 的最佳水準(zhǔn)。
基于PyTorch的GAN框架TorchGAN:可輕松定制GAN項(xiàng)目
TorchGAN 是基于 PyTorch 的 GAN 設(shè)計(jì)開發(fā)框架。該框架旨在為流行的 GAN 提供構(gòu)造模塊,且允許為前沿研究進(jìn)行定制化。
圖像
圖像特征提取之(一)HOG特征
方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征是一種在計(jì)算機(jī)視覺和圖像處理中用來進(jìn)行物體檢測的特征描述子。它通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成特征。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 80期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LiveVideoStackCon上海2
- 下一篇: Netflix:我们是如何评估Codec