當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 230

發(fā)布時間：2024/4/11 编程问答 104 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 230 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術(shù)領(lǐng)域的干貨。

新聞投稿：contribute@livevideostack.com。

Opera視頻出海非洲面臨的技術(shù)挑戰(zhàn)及應(yīng)對

Opera是一個主要業(yè)務(wù)在海外的公司。非洲地區(qū)，基礎(chǔ)設(shè)施差，網(wǎng)絡(luò)帶寬小，人均收入低。如何在非洲地區(qū)做好視頻分發(fā)傳輸是需要一定的市場、技術(shù)深耕。本次LiveVideoStackCon 2021 音視頻技術(shù)大會北京站，我們邀請到了Opera的技術(shù)副總監(jiān)——張建磊，為我們帶來Opera在非洲面臨的技術(shù)挑戰(zhàn)和解決辦法。

牛贊：音視頻前端跨平臺技術(shù)應(yīng)用

Flutter是近兩年大火的跨終端框架，實時音視頻因為疫情的緣故也越來越融入到人們的日常工作生活中，如線上會議、在線教育等。兩者結(jié)合起來可以碰撞起什么樣的火花呢？利用Flutter實時音視頻SDK，我們可以快速開發(fā)一個跨平臺的會議、娛樂、教育等APP。LiveVideoStackCon 2021北京站邀請到騰訊云高級工程師——牛贊，為我們分享利用Flutter如何進行實時音視頻渲染，并深入底層，優(yōu)化視頻渲染的性能。

聲網(wǎng)AI降噪測評系統(tǒng)初探

音頻質(zhì)量的優(yōu)化是一個復(fù)雜的系統(tǒng)工程，而降噪是這個系統(tǒng)工程中的一個重要環(huán)節(jié)，傳統(tǒng)的降噪技術(shù)經(jīng)過幾十年的發(fā)展已經(jīng)陷入了瓶頸期，尤其是對非平穩(wěn)噪聲的抑制越來越不能滿足新場景的需求。而近幾年以機器學(xué)習(xí)/深度學(xué)習(xí)為代表的AI技術(shù)的崛起，為特殊場景下的音頻降噪帶來了新的解決方案。

Vulkan 在 FFmpeg 中的支持

周末時候看到一篇推送說 FFmpeg 升級到 5.0 版本了。其中提到 FFmpeg 引入了 Vulkan 驅(qū)動的新濾鏡，用于視頻水平、垂直翻轉(zhuǎn)。

M3U8 格式：為什么直播回放都用這個格式？丨音視頻基礎(chǔ)

M3U 文件是一種純文本文件，可以指定一個或多個多媒體文件的位置。它的設(shè)計初衷是為了播放音頻文件，但后來越來越多的用于播放視頻文件列表。而 M3U8 則是用 UTF-8 編碼的 M3U。M3U、M3U8 文件都是蘋果公司使用的 HLS(HTTP Live Streaming) 協(xié)議的基礎(chǔ)。

metaRTC集成到ffmpeg實現(xiàn)srs的webrtc拉流播放

ffmpeg是一個強大的音視頻處理軟件，處理各種音視頻的編解碼和傳輸?shù)?#xff0c;里面還集成有ffplay播放器等。metaRTC新版本支持靜態(tài)編譯集成到ffmpeg，使ffmpeg支持webrtc。

https://blog.csdn.net/m0_56595685/article/details/122594797

FFmpeg 5.0 正式發(fā)布

近日，FFmpeg 5.0正式發(fā)布。這一新版本代號被命名為“Lorentz”，主要為紀念偉大的荷蘭物理學(xué)家亨得里克·安頓·洛倫茲（Hendrik Antoon Lorentz）。此次重大發(fā)布包括大量API更改，并增添了一些新的特性。

EVC，VVC，LCEVC 測試：最新的 MPEG 編解碼器性能如何？

本文測試了一系列編解碼器，結(jié)果顯示 VVenC 在低于預(yù)期的復(fù)雜度下提供了高質(zhì)量。EVC 編解碼器達到了它們的質(zhì)量目標(biāo)。但此二者都難以很快在軟件中播放，必須等待硬件支持來部署它們。LCEVC 在 30% 的編碼時間內(nèi)提供了比全分辨率 x265 更好的質(zhì)量，并具有相同或更好的播放效率。AV1 在質(zhì)量上進一步領(lǐng)先，而 MainConcept HEVC FFmpeg 插件也比 x265 的表現(xiàn)好了近 20%。

通用場景下的開源優(yōu)化 VVC 編碼器

在 HEVC 標(biāo)準發(fā)布七年后，通用視頻編碼標(biāo)準 H.266/VVC 于 2020 年 7 月定稿。同樣視頻質(zhì)量下相比 HEVC， VVC 可提供約 50% 的碼率節(jié)省。為了提供比 VVC 參考軟件 VTM 更快的運行速度，優(yōu)化軟件 VVenC 于不久后開源。VVenC 同樣支持多線程、碼率控制、主觀質(zhì)量優(yōu)化等附加功能，并針對高分辨率下的 Random Access 模式做了優(yōu)化。

FFmpeg-Window QT環(huán)境調(diào)試環(huán)境搭建教程1-3

第一篇文章介紹Qt 調(diào)試ffmpeg.c 工程，第二篇文章講解如何自己編譯出ffmpeg的dll，第三篇文章主要講解，如何移植 ffmpeg 工程到 Qt creator環(huán)境進行斷點調(diào)試。

https://juejin.cn/post/7052201703281524750

https://juejin.cn/post/7052206048685490207

https://juejin.cn/post/7052208992109461541

我國光纖傳感技術(shù)的發(fā)展歷程

本篇推文涵蓋光纖概述，光纜概述，海底通信歷史，光纖分類，光纖熔接，熔接費用，熔接機品牌選擇等內(nèi)容。

視頻智能生產(chǎn)及內(nèi)容分析應(yīng)用工具開源了！

近年來，視頻行業(yè)持續(xù)高速成長，帶動數(shù)字經(jīng)濟新發(fā)展。在視頻用戶規(guī)模持續(xù)擴大的同時，產(chǎn)業(yè)對于海量多樣視頻內(nèi)容的智能化生產(chǎn)及應(yīng)用的需求也愈發(fā)明顯。傳統(tǒng)的處理方式需要耗費巨大的人力，智能視頻內(nèi)容分析和生產(chǎn)越來越受到業(yè)界的重視。

一些超棒的開源項目！

話不多說，讓我們一起來看看這周有什么不錯的開源資源吧！（排名不分先后）。

2021十大AR工業(yè)典型案例盤點：AR與工業(yè)，迎來深度融合

相比傳統(tǒng)的電腦、手機，AR（Augmented Reality，增強現(xiàn)實）技術(shù)可以將2D或3D信息疊加到真實物體和現(xiàn)實環(huán)境中，革新了信息傳遞、顯示、交互方式。在2022年開頭，我們篩選復(fù)盤了2021年完結(jié)的十大工業(yè)典型應(yīng)用案例，希望這些案例與經(jīng)驗，能給AR行業(yè)未來繼續(xù)前行帶來一些啟示。

了解元宇宙—VR虛擬現(xiàn)實技術(shù)

如果說將元宇宙比作一個樂隊的話，那么VR虛擬現(xiàn)實技術(shù)就好比是主唱，鏡頭前最多的是它，聽到最多的是它，看到最多的還是它，我們看到所有與元宇宙相關(guān)的圖片視頻也好，電影作品也好，看起來都與VR虛擬現(xiàn)實技術(shù)的表述關(guān)聯(lián)性最高，相似度也最高，那么，你真的了解虛擬現(xiàn)實技術(shù)嗎?

增強現(xiàn)實（AR）到底如何應(yīng)用于交互設(shè)計？

增強現(xiàn)實（AR）技術(shù)使用戶在添加數(shù)字內(nèi)容的同時看到現(xiàn)實世界并與之互動。我們可以通過智能手機，輕松下載 AR 應(yīng)用程序并嘗試這項技術(shù)。不過，體驗增強現(xiàn)實還有另一種方式——使用特殊的 AR 頭戴式設(shè)備，例如谷歌眼鏡，會將數(shù)字內(nèi)容顯示在用戶眼前的一個小屏幕上。

大話實時視頻編碼中的人工智能（上）

本文是”大話實時視頻編碼中的人工智能“上集，簡介了 AI 和 ML 的關(guān)系，介紹了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度表征方法，回顧了視頻編碼的演變和復(fù)雜度，總結(jié)了一些現(xiàn)有的機器學(xué)習(xí)方法在視頻編碼中的應(yīng)用。

大話實時視頻編碼中的人工智能（下）

本文是”大話實時視頻編碼中的人工智能“下集，討論了為何神經(jīng)網(wǎng)絡(luò)還未能進入實時視頻編碼框架，介紹了神經(jīng)網(wǎng)絡(luò)加速方面的研究，總結(jié)了在編碼領(lǐng)域已經(jīng)接近實用的 AI/ML 技術(shù)。

騰訊自主研發(fā)動畫組件PAG開源

PAG (Portable Animated Graphics) 是一套完整的動畫工作流。它提供從AE導(dǎo)出插件，到桌面預(yù)覽工具，再到各端的跨平臺渲染SDK，助力于將AE動畫方便快捷的應(yīng)用于各平臺終端。PAG目前是公司AVGenerator OTeam開源協(xié)同小組的核心組件之一，廣泛應(yīng)用于公司內(nèi)外40余款主流APP或業(yè)務(wù)，涵蓋UI動畫、視頻編輯、特效模板、服務(wù)端特效渲染等多個場景，于2022年1月開源至GitHub。

基于深度學(xué)習(xí)的超分辨率圖像技術(shù)

如今已經(jīng)有各種深度學(xué)習(xí)的超分辨率模型。這些模型依賴于有監(jiān)督的超分辨率，即用LR圖像和相應(yīng)的基礎(chǔ)事實（GT）HR圖像訓(xùn)練。雖然這些模型之間的差異非常大，但它們本質(zhì)上是一組組件的組合，例如模型框架，上采樣方法，網(wǎng)絡(luò)設(shè)計和學(xué)習(xí)策略等。

自動駕駛多目視覺感知

理論上說，雙目系統(tǒng)已經(jīng)可以解決3D信息獲取的問題，那么為什么還需要多目系統(tǒng)呢？原因大致有兩點：一是通過增加不同類別的傳感器，比如紅外攝像頭，來提高對各種環(huán)境條件的適應(yīng)性；二是通過增加不同朝向，不同焦距的攝像頭來擴展系統(tǒng)的視野范圍。下面我們就來分析幾個典型的多目系統(tǒng)。

自動駕駛域控芯片內(nèi)部架構(gòu)與性能影響

自動駕駛芯片，本質(zhì)上是一種包含處理器和控制器的高算力功能芯片，目前已量產(chǎn)商用的自動駕駛芯片基本處于高級駕駛輔助系統(tǒng)階段，可實現(xiàn)L1-L2級輔助駕駛，通常這類自動駕駛域控制器所采用的芯片不需要太高的AI算力，更多的是應(yīng)用邏輯算力進行相應(yīng)的邏輯運算。

閱讀推薦

未來已來，音視頻江湖再起波瀾

從通信為王的時代，到互聯(lián)網(wǎng)高歌猛進的二十一世紀，音視頻技術(shù)一直是眾多科技公司的必備技能。一部手機聯(lián)通全球各地，一個社交賬號互動各國友人，已經(jīng)不是什么新鮮事；就連超低延遲，超高清畫質(zhì)，沉浸式互動的元宇宙和全真互聯(lián)，都在快速發(fā)酵，似乎馬上就要被底層的摩爾定律催化過期。

2022 WebRTC發(fā)展趨勢分析

本篇為WebRTC技術(shù)專家Tsahi Levent-Levi發(fā)布在BlogGeek.me上的文章，我們翻譯了其中部分內(nèi)容發(fā)布在LiveVideoStack的公眾號上。感謝Tsahi的授權(quán)。

IDC FutureScape：中國人工智能及自動化市場十大預(yù)測

國際數(shù)據(jù)公司（IDC）于近日發(fā)布了《IDC FutureScape: 全球人工智能（AI）及自動化市場2022 預(yù)測——中國啟示》報告。在報告中，IDC分析師團隊描述了影響IT和業(yè)務(wù)決策者負責(zé)該項支出并有效利用相關(guān)解決方案的主要驅(qū)動因素，并給出了未來五年有關(guān)人工智能和自動化市場的十大預(yù)測。

無人駕駛自動駕駛智能汽車：理論，算法和實現(xiàn)（附150頁PDF文件下載）

自動駕駛智能汽車是通用技術(shù)的集合，用以提高汽車自動或半自動駕駛的安全性為目的，從根本上講，自動駕駛汽車就是若干移動機器人技術(shù)的集合，因此，自動駕駛汽車包含四項基本技術(shù)：環(huán)境感知與建模、定位與地圖構(gòu)建、路徑規(guī)劃與決策、運動控制。

活動推薦

LiveVideoStackCon 專題評審團活動報名

為了更加完善LiveVideoStackCon 音視頻技術(shù)大會的演講內(nèi)容，如：準確性、邏輯性、可閱讀性、內(nèi)容的干貨程度、以及對參會者的受益情況等，保證內(nèi)容對外輸出的準確&嚴謹；其次，對演講者的自我提升（輸出內(nèi)容更加專業(yè)、降低錯誤、增加演講自信、多方溝通促進交流）；而對參與審校人員來說，在評審內(nèi)容時可以了解到業(yè)內(nèi)的最新動態(tài)，與評審團成員相互交流，分享心得。

因此我們特別成立LiveVideoStackCon 評審團機制，點擊閱讀原文了解更多詳情，報名參與：

http://livevideostack.mikecrm.com/mVxofCi

總結(jié)

以上是生活随笔為你收集整理的音视频技术开发周刊 | 230的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。