音视频技术开发周刊 55期
『音視頻技術(shù)開發(fā)周刊』由LiveVideoStack團(tuán)隊出品,專注在音視頻技術(shù)領(lǐng)域,縱覽相關(guān)技術(shù)領(lǐng)域的干貨和新聞投稿,每周一期。點擊『閱讀原文』,瀏覽第55期內(nèi)容,祝您閱讀愉快。
策劃 / LiveVideoStack
架構(gòu)
展曉凱:“零經(jīng)驗”的我與唱吧從零到四億
正如展曉凱總結(jié)的那樣,一個技術(shù)人或團(tuán)隊的成功離不開業(yè)務(wù)打下的基礎(chǔ),業(yè)務(wù)高層的高瞻遠(yuǎn)矚以及對技術(shù)的敬畏,以及技術(shù)人的學(xué)習(xí)與探索精神。LiveVideoStack對全民快樂研發(fā)高級總監(jiān)展曉凱進(jìn)行了郵件采訪,他總結(jié)了在與唱吧從零成長的歷程。作為一個“零”多媒體基礎(chǔ)的技術(shù)人,展曉凱的經(jīng)驗也許是你成長路上的參考。
低延遲音視頻傳輸技術(shù)在直播領(lǐng)域的應(yīng)用
本文來自陌陌視頻流媒體技術(shù)負(fù)責(zé)人吳濤在WebRTCon 2018上的分享,他詳解了陌陌從傳統(tǒng)直播過渡到1對1到多人互動模式的演進(jìn),架構(gòu)的優(yōu)化保證了用戶體驗與業(yè)務(wù)需求。
與高清卡頓說拜拜 一招根治視頻云頑疾
本文介紹了英特爾新至強(qiáng)平臺的新技術(shù)及其對媒體云計算性能提升,闡釋了新型 SIMD(單一指令多數(shù)據(jù)流)AVX-512 指令集如何幫助視頻、圖像處理以及視頻深度學(xué)習(xí)的應(yīng)用提升性能。
支付寶如何優(yōu)化移動端深度學(xué)習(xí)引擎?
移動端深度學(xué)習(xí)在增強(qiáng)體驗實時性、降低云端計算負(fù)載、保護(hù)用戶隱私等方面具有天然的優(yōu)勢,在圖像、語音、安全等領(lǐng)域具有越來越廣泛的業(yè)務(wù)場景。考慮到移動端資源的限制,深度學(xué)習(xí)引擎的落地面臨著性能、機(jī)型覆蓋、SDK尺寸、內(nèi)存使用、模型尺寸等多個方面的嚴(yán)峻挑戰(zhàn)。本文介紹如何從模型壓縮和引擎實現(xiàn)兩個方面的聯(lián)合優(yōu)化,應(yīng)對上述挑戰(zhàn),最終實現(xiàn)技術(shù)落地。
測量和優(yōu)化HLS性能 Measuring and Optimizing HLS Performance
本文詳細(xì)介紹了確定HLS性能的幾種關(guān)鍵性指標(biāo)以及如何正確使用HLS的Master Playlists提高用戶觀看體驗。
音頻/視頻技術(shù)
高清視頻點播-AI讓你看片更絲滑
本文簡要介紹了基于強(qiáng)化學(xué)習(xí)的碼率自適應(yīng)算法,在實踐預(yù)研驗證和分析的基礎(chǔ)上,將該AI算法模型應(yīng)用于實際項目。
Android 音頻錄制 的三種方式
對于錄制音頻,Android系統(tǒng)就都自帶了一個小小的應(yīng)用,可是使用起來可能不是特別的靈活。所以有提供了另外的兩種。
MacOS、iOS的Metal 2開發(fā)爬坑記錄:攝像頭、Capture GPU Frame、Shader調(diào)試與GPUImage存在的問題
本文章記錄Metal 2配合Xcode 9在macOS High Serria、iOS 8+開發(fā)過程遇到的攝像頭、Capture GPU Frame與Shader編譯調(diào)試問題及解決辦法。
編解碼
視頻編碼末日將至?
Netflix的視頻算法主管Anne Aaron撰文對視頻編解碼的未來發(fā)展方向,基于塊的混合編碼,畫質(zhì)評定新方法,以及創(chuàng)新思維。LiveVideoStack對本文進(jìn)行了摘譯。
基于MCMC的X265編碼參數(shù)優(yōu)化方法
X265是當(dāng)今最廣泛使用的HEVC視頻編碼器,它由于自己并行的編碼模式和一些提前終止算法的使用能夠在家用計算機(jī)上實現(xiàn)720P 30FPS的實時編碼,十分具有實用價值。
IEEE ISCAS 2018 相關(guān)研究進(jìn)展
ISCAS 2018于2018年5月26日到5月30日在意大利佛羅倫薩舉行,會議主題為Art of Circuits and Systems。本文主要介紹了會議中提出的兩個與視頻編碼耦合更緊的基于機(jī)器學(xué)習(xí)的視頻編碼方法:基于CNN的運(yùn)動補(bǔ)償優(yōu)化、基于強(qiáng)化學(xué)習(xí)的碼率控制。
H.264的去塊濾波算法
去塊濾波器(Deblocking Filter)是視頻編解碼器中的重要組成部分,其核心作用在于消除編碼過程中產(chǎn)生的圖像塊效應(yīng)。圖像中的塊效應(yīng)主要因為以宏塊為基本單元的編碼結(jié)構(gòu)而產(chǎn)生。
AI智能
目標(biāo)檢測算法之YOLO
YOLO作為基于深度學(xué)習(xí)的第一個one-stage的方法做快可以在TitanX GPU上做到45幀每秒的檢測速度,輕量版的可以做到155幀每秒,相比于R-CNN精確度也有非常大的提升。
圖鴨科技TNGcnn4P壓縮算法在CVPR圖像壓縮挑戰(zhàn)賽獲得優(yōu)勝
據(jù)圖鴨科技圖片壓縮團(tuán)隊介紹:Tucodec TNGcnn4p 算法是基于端到端深度學(xué)習(xí)的算法,在該算法中使用了層次特征融合的網(wǎng)絡(luò)結(jié)構(gòu),并結(jié)合新的量化方法、碼字估計等技術(shù)對整體網(wǎng)絡(luò)進(jìn)行設(shè)計。
OpenAI NLP最新進(jìn)展:通過無監(jiān)督學(xué)習(xí)提升語言理解
近日,OpenAI 在其官方博客發(fā)文介紹了他們最新的自然語言處理(NLP)系統(tǒng)。這個系統(tǒng)是可擴(kuò)展的、與任務(wù)無關(guān)的,并且在一系列不同的 NLP 任務(wù)中都取得了亮眼的成績。但該方法在計算需求等方面仍存在改進(jìn)的空間。
AI從入門到放棄:CNN的導(dǎo)火索,用MLP做圖像分類識別?
在沒有CNN以及更先進(jìn)的神經(jīng)網(wǎng)絡(luò)的時代,樸素的想法是用多層感知機(jī)(MLP)做圖片分類的識別;但殘酷的現(xiàn)實是,MLP做這事的效果并不理想。
圖像
在WebRTC上實現(xiàn)ML Kit笑容檢測
本文來自Houseparty的WebRTC視頻專家Gustavo Garcia Bernardo和TokBox的WebRTC移動端專家Roberto Perez,他們通過Google的ML Kit在WebRTC通話中實現(xiàn)了簡單的笑容檢測,期間考慮到了檢測準(zhǔn)確率、延時以及檢測頻度與CPU占用率的平衡等,實際結(jié)果表明ML Kit的檢測結(jié)果令人滿意。
TensorFlow Lite+OpenCV實現(xiàn)移動端水印的檢測與去除
本篇文章介紹了TensorFlow Lite與OpenCV配合使用的一個應(yīng)用場景,并詳細(xì)介紹了其中用到的SSD模型從訓(xùn)練到端上使用的整個鏈路流程。在APP中的使用場景為,用戶在發(fā)布圖片時,在端上實現(xiàn)水印的檢測和定位,并提供去水印的功能。
總結(jié)
以上是生活随笔為你收集整理的音视频技术开发周刊 55期的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 别光看世界杯 7月还有一场音视频技术盛
- 下一篇: 基于镜头的编码