音视频技术开发周刊 59期
『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊(duì)出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點(diǎn)擊『閱讀原文』,瀏覽第59期內(nèi)容,祝您閱讀愉快。
架構(gòu)
FFmpeg Maintainer趙軍:FFmpeg關(guān)鍵組件與硬件加速
本文來自FFmpeg Maintainer趙軍在LiveVideoStackCon 2018熱身分享,并由LiveVideoStack整理而成。在分享中,趙軍介紹了FFmpeg的歷史、關(guān)鍵組件,并介紹了英特爾平臺上的多種FFmpeg硬件加速方式。
WebRTC點(diǎn)對點(diǎn)通訊架構(gòu)設(shè)計(jì)
雖然幾乎所有人都知道,WebRTC是一個瀏覽器端內(nèi)置的點(diǎn)對點(diǎn)接口,甚至是準(zhǔn)標(biāo)準(zhǔn)了。但是,到底怎么利用這一個已經(jīng)不是新特性,但是很不幸的是,不少人對這東西還是只停留在聽說過,怎么才能使用它呢?怎么利用WebRTC作出一個我們想要的P2P應(yīng)用呢?
沉浸式媒體
本文來自華為多媒體實(shí)驗(yàn)室首席科學(xué)家、實(shí)驗(yàn)室副主任王田在LiveVideoStackCon 2017上的分享。他分享了沉浸式媒體的進(jìn)展與演進(jìn)路線,展現(xiàn)了可期的多媒體新體驗(yàn)。
SRS 2.0r3(2.0.248) released
SRS定位是運(yùn)營級的互聯(lián)網(wǎng)直播服務(wù)器集群,追求更好的概念完整性和最簡單實(shí)現(xiàn)的代碼。
CCtalk高可用多媒體服務(wù)技術(shù)選型與實(shí)現(xiàn)
本文來自滬江技術(shù)中心開發(fā)經(jīng)理?xiàng)罡?qiáng)在LiveVideoStackCon 2017上的分享,并由LiveVideoStack整理而成。楊福強(qiáng)于2012年加入滬江,主要從事教學(xué)互動平臺CCtalk的開發(fā),今天他將為我們分享高品質(zhì)教學(xué)平臺的一些技術(shù)難點(diǎn)和解決方案。
使用 Go 語言學(xué)會 Tensorflow
Tensorflow 并不是一個專門用于機(jī)器學(xué)習(xí)的庫,相反的,它是一個通用的用于圖計(jì)算的庫。它的核心部分是用 C++ 實(shí)現(xiàn)的,同時還有其它語言的接口庫。Go 語言版本的接口庫與 Python 版本的并不一樣,它不僅有助于我們使用 Go 語言調(diào)用 Tensorflow,同時有助于我們了解 Tensorflow 的底層實(shí)現(xiàn)。
基于 Electron 做視頻會議的兩種實(shí)現(xiàn)方式
本文將為大家分析利用 Electron 做視頻會議應(yīng)用的幾種實(shí)現(xiàn)思路及其優(yōu)缺點(diǎn),同時結(jié)合 demo 實(shí)例,分享如何基于 Electron 與聲網(wǎng) Agora Web SDK 開發(fā)一個視頻會議應(yīng)用。
音頻/視頻技術(shù)
媒體文件格式分析之FMP4?kingsoft-踏鋒
MP4 中最基本的單元就是Box,它內(nèi)部是通過一個一個獨(dú)立的Box拼接而成的。所以,這里,我們先從 Box 的講解開始,每個 Box 是由 Header 和 Data 組成的,FullBox 是 Box 的擴(kuò)展,Box 結(jié)構(gòu)的基礎(chǔ)上在 Header 中增加 8bits version 和 24bits flags
用WebRTC在Firefox上實(shí)現(xiàn)YouTube直播
本文來自Meetecho的聯(lián)合創(chuàng)始人Lorenzo Miniero,他分享了如何通過Firefox和WebRTC進(jìn)行YouTube直播。Meetecho是著名的WebRTC服務(wù)器 Janus 的出品公司。LiveVideoStack對原文進(jìn)行了摘譯。
HTML5點(diǎn)播m3u8(hls)格式視頻
m3u8是一種基于HLS(HTTP Live Streaming) 文件視頻格式,它主要是存放整個視頻的基本信息和分片(Segment)組成。不同于mp4大文件,m3u8是由一系列的ts文件組成,一般一個ts文件大概5-10秒,這些ts文件通過一個.m3u8文件做索引。用戶播放視頻時,可隨意拖動視頻進(jìn)度,會讀取相應(yīng)進(jìn)度的ts文件繼續(xù)觀看視頻,不必等到下載完整的視頻。因此在播放m3u8的時候很少有卡頓的現(xiàn)象。
一個循環(huán)動畫引起的內(nèi)存泄露問題總結(jié)
本文主要記錄項(xiàng)目中遇到的一個內(nèi)存泄露問題:由于一個循環(huán)動畫引起的內(nèi)存泄露,并且這個問題也是偶現(xiàn)的,在后面的 隱藏問題 里會說明。
編解碼
硬解還是軟解?手機(jī)視頻播放功耗揭秘
“硬解的功耗比軟件低很多!”相信這是大多數(shù)人對硬解碼和軟解碼的印象。然而具體低多少呢?卻很少有人能夠給出答案。為了揭開這個問題的謎底,北大數(shù)字媒體研究中心專門使用功耗儀進(jìn)行了測試。
FFmpeg HEVC 環(huán)路濾波Bug分析一
和以往的視頻編碼標(biāo)準(zhǔn)類似,HEVC仍采用基于塊的混合編碼框架,一些失真效應(yīng)仍然存在,如方塊效應(yīng)、振鈴效應(yīng)、顏色偏差以及圖像模糊等等。
OpenGl 直接讀取YUV420P?貝克街的貓大哥呀
FFmpeg提供了方法,將解碼后的YUV420p格式重采樣為RGBA格式,再通過Surface進(jìn)行播放。但視頻重采樣,或者說轉(zhuǎn)碼這個過程,FFmpeg太消耗性能,開銷太大,現(xiàn)在主流的做法都是將解封裝解碼由FFmpeg處理,解碼得到的YUV420格式,直接交給OpenGl進(jìn)行輸出顯示。
iOS視頻開發(fā)(二):視頻H264硬編碼 ?GenoChen
視頻數(shù)據(jù)的壓縮也叫做編碼,H264是一種視頻編碼格式,iOS 8.0及以上蘋果開放了VideoToolbox框架來實(shí)現(xiàn)H264硬編碼,開發(fā)者可以利用VideoToolbox框架很方便地實(shí)現(xiàn)視頻的硬編碼。
MediaCodec解碼FFmpeg?AvPacket
MediaCodec硬編碼PCM2AAC??曾大穩(wěn)丶
MediaCodec是Android(api>=16)提供的一個多媒體硬解編碼庫,能實(shí)現(xiàn)音視頻的編解碼。工作原理:其內(nèi)部有2個隊(duì)列,一個是輸入隊(duì)列,一個是輸出隊(duì)列。輸入隊(duì)列負(fù)責(zé)存儲編解碼前的原始數(shù)據(jù)存儲,并輸送給MediaCodec處理;輸出隊(duì)列負(fù)責(zé)存儲編解碼后的新數(shù)據(jù),可以直接處理或保存到文件中。
AI智能
美團(tuán)如何基于深度學(xué)習(xí)實(shí)現(xiàn)圖像的智能審核?
AI(人工智能)技術(shù)已經(jīng)廣泛應(yīng)用于美團(tuán)的眾多業(yè)務(wù),從美團(tuán)App到大眾點(diǎn)評App,從外賣到打車出行,從旅游到婚慶親子,美團(tuán)數(shù)百名最優(yōu)秀的算法工程師正致力于將AI技術(shù)應(yīng)用于搜索、推薦、廣告、風(fēng)控、智能調(diào)度、語音識別、機(jī)器人、無人配送等多個領(lǐng)域,幫助美團(tuán)數(shù)億消費(fèi)者和數(shù)百萬商戶改善服務(wù)和體驗(yàn),幫大家吃得更好,生活更好。
換臉效果媲美GAN!一文解析OpenAI最新流生成模型「Glow」
基于流的生成模型在 2014 年已經(jīng)被提出,但是一直被忽視。由 OpenAI 帶來的 Glow 展示了流生成模型強(qiáng)大的圖像生成能力。文章使用可逆 1 x 1 卷積在已有的流模型 NICE 和 RealNVP 基礎(chǔ)上進(jìn)行擴(kuò)展,精確的潛變量推斷在人臉屬性上展示了驚艷的實(shí)驗(yàn)效果。
這篇文章要在GANs圈里C位出道了
生成對抗網(wǎng)絡(luò)(GANs) 是一類深度生成模型,旨在以無監(jiān)督方式來學(xué)習(xí)目標(biāo)的分布。本文中,我們將從實(shí)踐的角度清醒地認(rèn)識當(dāng)前GANs 的研究現(xiàn)狀。通過復(fù)現(xiàn)一些性能最佳的模型,來探索當(dāng)前整個 GANs 的研究情況。此外,我們進(jìn)一步討論了GANs 模型一些常見的陷阱(pitfall) 及復(fù)現(xiàn)問題。
DenseNet:比ResNet更優(yōu)的CNN模型
在計(jì)算機(jī)視覺領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)成為最主流的方法,比如最近的GoogLenet,VGG-19,Incepetion等模型。CNN史上的一個里程碑事件是ResNet模型的出現(xiàn),ResNet可以訓(xùn)練出更深的CNN模型,從而實(shí)現(xiàn)更高的準(zhǔn)確度。
基于深度學(xué)習(xí)的圖像語義分割算法綜述
這篇文章講述卷積神經(jīng)網(wǎng)絡(luò)在圖像語義分割(semantic image segmentation)的應(yīng)用。圖像分割這項(xiàng)計(jì)算機(jī)視覺任務(wù)需要判定一張圖片中特定區(qū)域的所屬類別。
圖像
HDR關(guān)鍵技術(shù):色調(diào)映射(三)
HDR技術(shù)近年來發(fā)展迅猛,在未來將會成為圖像與視頻領(lǐng)域的主流。如何讓HDR圖像與視頻也能夠同時兼容地在現(xiàn)有的SDR顯示設(shè)備上顯示,是非常重要的技術(shù)挑戰(zhàn)。本系列將會詳細(xì)地總結(jié)色調(diào)映射技術(shù)的相關(guān)問題,并介紹經(jīng)典的色調(diào)映射算法。將分為三個部分:(一)是色調(diào)映射技術(shù)的綜合介紹;(二)是圖像色調(diào)映射算法的總結(jié)與經(jīng)典算法介紹;(三)將介紹視頻色調(diào)映射算法。
HDR關(guān)鍵技術(shù):逆色調(diào)映射(一)
HDR關(guān)鍵技術(shù):逆色調(diào)映射(二)
逆色調(diào)映射(Inverse Tone Mapping)應(yīng)運(yùn)而生,它是一種用來將SDR源信號轉(zhuǎn)換為HDR源信號的技術(shù),可以應(yīng)用于生產(chǎn)端或終端設(shè)備,在一定程度上實(shí)現(xiàn)對現(xiàn)有SDR節(jié)目的HDR“還原”及向上兼容。本系列將會詳細(xì)分類介紹逆色調(diào)映射算法。分為兩個部分:(一)逆色調(diào)映射概述及一些經(jīng)典算法,包括全局算法,分類算法以及拓展映射算法;(二)介紹最近的研究趨勢,特別是基于機(jī)器學(xué)習(xí)的逆色調(diào)映射算法。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 59期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AV1挑起的Codec之战
- 下一篇: Twitch 沈悦时:国内外互联网直播生