當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 203

發布時間：2024/4/11 编程问答 48 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 203 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術領域的干貨。

新聞投稿：contribute@livevideostack.com。

小提示：鏈接跳轉僅支持公眾號相關鏈接

B站直播中HLS和去中心化P2P的實際應用

隨著光纖入戶的普及和電腦性能的不斷提升，觀眾對直播的需求越來越高。常用的流媒體協議HLS雖已被廣泛用于PC和手機終端的音視頻服務，但在使用中仍然存在一些不足。我們邀請到嗶哩嗶哩彈幕視頻網直播技術部的姜軍（雷鳴）老師，介紹基于HLS的直播P2P以及研發過程中他們遇到的挑戰及未來規劃。

降低網絡擁塞，追求美好體驗——對話拍樂云首席科學家章琦

LiveVideoStack近日采訪了拍樂云首席科學家&合伙人章琦老師，他將從產品、技術挑戰、應對策略以及AI賦能等角度和大家聊聊他對音視頻技術的理解和展望。章琦老師也是LiveVideoStackCon北京站的嘉賓講師，將在會上為我們帶來精彩的演講。

低延遲流媒體協議SRT、WebRTC、LL-HLS、UDP、TCP、RTMP詳解

低廣播延遲已經成為任何關于建設源端站和CDN的招標和競爭中的必要特性。以前這種標準只適用于體育廣播，但現在運營商要求每個領域的廣播設備供應商提供低延遲，比如：廣播新聞、音樂會、表演、采訪、談話節目、辯論、電子競技等等。在這篇文章中，我們將分析目前市場上在低延遲廣播方面提供的方案。

用Starlink填補5G和光纖之間的空白

今天，世界上大約一半的人口 (大約37億人) 沒有互聯網。正如在最近新冠病毒大流行期間，互聯互通可以對全球人民的生活產生變革性的影響。為此，SpaceX利用其制造火箭和航天器的經驗推出了“星鏈”— 世界上最先進的寬帶互聯網系統，能夠將高速寬帶互聯網傳送到接入不可靠或完全不可用的地區。

QUIC助力Snapchat提升用戶體驗

Snapchat（色拉布）是由斯坦福大學兩位學生開發的一款“閱后即焚”照片分享應用。利用該應用程序，用戶可以拍照、錄制視頻、添加文字和圖畫，并將他們發送到自己在該應用上的好友列表，這些照片及視頻被稱為“快照”（"Snaps"）。本文來自Snapchat Client Network Team，主要介紹了Snapchat在使用QUIC協議后，用戶體驗得到了很大提升。

ICME2021：基于機器學習的VVC幀內編碼碼率控制

本文來自ICME論文《MACHINE LEARNING-BASED RATE DISTORTION MODELING FOR VVC/H.266INTRA-FRAME 》，文章提出利用4種傳統機器學習模型構建VVC幀內編碼幀的RD模型。

Access Advance宣布已經完成VVC視頻編碼專利池的構建

https://www.iam-media.com/frandseps/vvc-access-advance-patent-pool

基于學習的視覺數據壓縮技術和標準

本文來自PCS會議（2021）的一次Keynote，演講者是來自騰訊的Shan Liu，題為“Learned Visual Data Compression Technologies and Standards”。主要對基于學習的視覺多媒體信息壓縮及其歷年標準提案進行了綜述。

Per-Title編碼的過去、現在和未來

https://www.streamingmedia.com/Articles/Editorial/Featured-Articles/The-Past-Present-and-Future-of-Per-Title-Encoding-147705.aspx

“零耗時”首幀視頻體驗的優化實踐

本文整理自火山引擎開發者社區 Meetup 第三期演講，主要介紹了火山引擎點播端到端解決方案在零耗時首幀背后進行的相關技術優化。

WebRTC 發送方碼率預估實現解析

WebRTC是一個非常復雜且龐大的東西，今天我們就對其中的發送方碼率評估這一塊做一個簡單的實現解析，幫助大家更好的理解這部分內容。

揭秘版權保護下的視頻隱形水印算法

本篇大致介紹了在封裝層和在變換前的原始像素數據上進行處理的隱形水印嵌入方法，內容比較集中在格式標準上。在下一篇中，我們將給大家介紹更多圖像處理相關的內容，包括 DCT（離散余弦變換）、DWT（離散小波變換）以及SVD（奇異值分解）在隱形水印上的應用，這些方法能夠大幅提高隱形水印的魯棒性，從而在有損壓縮以及人為攻擊后仍能在一定程度上保證水印的內容。

火山引擎 RTC 在互娛場景下的最佳實踐

本文將分享火山引擎 RTC 在互娛場景下的最佳實踐，主要包括千人聊天、直播連麥和云渲染這三個具體場景。

淘系的音視頻編輯方案：非線性編輯引擎

本文以淘系的音視頻非線性編輯引擎Marvel為主題，介紹了它的應用場景和引擎設計。音視頻非線性編輯涉及到許多技術，包括編解碼、音頻處理、圖像算法、圖像渲染等等諸多方面，都是非常有意思的東西，每一塊都可以單獨成為一個技術方向。非線性編輯引擎不僅僅是基于這些技術的組裝，也需要對這些技術進行升華，挖掘它們在非線性編輯中的業務價值。

基于學習的光學圖像損傷修復

本文來自OSA Publishing，由來自微軟的研究科學家Sehoon Lim帶來，主要介紹的是針對基于學習的圖像修復任務進行孔徑設計。

TIP2021—重訪CV經典: 首個無監督深度學習圖像拼接框架

圖像拼接(Image Stitching)可以說是計算機視覺領域中一個非常經典且完備的體系，由于其包含如特征點檢測、映射估計、匹配對齊、投影變換和圖像融合等重要算法（其中每一個小點都可單獨拿出來研究），如此綜合全面的技術常常被選為各類畢業論文的研究課題。

https://zhuanlan.zhihu.com/p/386863945

GAN之再進化：分布判別器，大連理工提出一種新式無監督圖像合成方法

該論文是關于GAN圖像生成類的文章出自于大連理工大學并發表于CVPR2021。GAN生成能力最關鍵的一環在于模型利用真實數據的信息量的多少，但是GAN及其相應的變體因為利用的信息量比較單薄，所以會導致模型在訓練的過程中非常脆弱，容易導致模型崩塌。

論文推介：語音轉換中的源風格到目標的遷移

近期，由西工大音頻語音與語言處理研究組（ASLP@NPU）和愛奇藝合作的論文“Enriching Source Style Transfer in Recognition-Synthesis based Non-Parallel Voice Conversion”被語音研究頂級會議INTERSPEECH2021接收[2]。該論文提出一種顯隱式混合建模的方法，可以有效的利用從源音頻中提取的顯式韻律特征以及從梅爾譜和瓶頸特征中提取的隱式韻律特征，在語音轉換中實現源風格到目標的有效遷移。

AISHELL-4 多通道中文會議開源語音數據庫

在多人交互場景下的公開數據集例如：LibriCSS、AMI、CHiME都是基于英文語言，AISHELL-4的發布推動了智能語音技術在會議場景里中文多人交互技術的研究及落地。

論文精讀| “以音動人”：姿態可控的語音驅動說話人臉

本文不使用任何人為定義的結構信息（人臉關鍵點或者3D人臉模型），成功實現了人頭姿態可控的語音驅動任意說話人臉生成。本文的關鍵在于，隱式地在潛空間（latent space）中定義了一個12維的姿態編碼，用于頭部運動控制。

Facebook升級3D AI仿真平臺Habitat，號稱速度達同類的50到100倍

近期，Facebook推出Habitat 2.0版，在AI Habitat基礎上提升了速度、物理模擬和交互性，加速機器人在練習拾取、開關抽屜/門、補貨、整理房間等動作上的培訓過程。此外，Facebook還推出3D場景數據集ReplicaCAD，以及全新的機器人仿真培訓標準HAB，并與3D解決方案公司Matterport合作，發布交互式3D室內場景數據集Habitat-Matterport 3D（HM3D），其中包含1000份高分辨率3D掃描場景（商用建筑或住宅），這可能是目前公開的最大3D場景數據集。

Open 3D Engine

Open 3D Engine(O3DE) 是基于Apache 2.0 的多平臺 3D 引擎，開發人員和內容創建者能夠通過其構建 AAA 游戲、電影品質的 3D 世界和高保真模擬。

https://o3de.org/

前沿 | 一文詳解自動駕駛激光雷達和攝像頭的數據融合方法

自動駕駛感知模塊中傳感器融合已經成為了標配，只是這里融合的層次有不同，可以是硬件層（如禾賽，Innovusion的產品），也可以是數據層（這里的討論范圍），還可以是任務層像障礙物檢測（obstacle detection），車道線檢測（lane detection），分割（segmentation）和跟蹤（tracking）以及車輛自身定位（localization）等。

自動駕駛中實時車道檢測和警報

目前，自動駕駛應用程序目前正在測試各種案例，包括客車、機器人出租車、自動商業運輸卡車、智能叉車以及用于農業的自動拖拉機。自動駕駛需要計算機視覺感知模塊來識別和導航環境。在本文中，我們將探究一個實時模型，用于檢測車道、其他車輛等以及生成警報。

Openpose+Tensorflow 這樣實現人體姿態估計 | 代碼干貨

人體姿態估計指從單個 RGB 圖像中精確地估計出人體的位置以及檢測骨骼關鍵點的位置。人體姿態估計是計算機視覺領域的研究熱點，是諸多計算機視覺任務的基礎，如動作分類、異常行為檢測、自動駕駛等。

閱讀推薦

Fabrice Bellard：一個人抵得上一個百人團隊

如果有人告訴你，有一個程序員僅僅用了10個月時間就寫了一個軟基站，你肯定覺得是天方夜譚，因為這種大工程可是幾百個人的工作量，而且還得是精英團隊，怎么可能由一個人完成？可世界上總有一些天才式的人物，他們站在普通人無法企及的高度，僅憑一己之力，在短時間內，就能實現常人需要花費數年甚至一生才能達到的成就，法國程序員Fabrice Bellard就是其中之一。

活動推薦

近年來，視頻安防行業一直處于高速發展階段，據預測，2021全國在視頻安防領域新增攝像頭數量在1.2億臺，已經全面進入大視頻時代，視頻資源在我國的安全、治理、交通、警務、城管、環保等領域發揮著越來越重要的作用。同時，隨著我國智慧城市建設的高速推進，當下較低的視頻資源利用水平與不斷提高的數字城市業務需求間的矛盾也愈加突出。

7月15日 19：30，我們邀請到了 華為云視頻接入服務產品經理齊彥昆 結合在視頻接入服務的實踐經驗，與大家一同探討視頻上云趨勢、痛點、華為的解決方案及帶來的好處。

【CoderPark】第二期 7月15日即將開啟

Android12的核心變化是什么？Fish-Redux復雜場景的落地與演進以及Android SDK框架有什么亮點？谷歌、閑魚、MobTech的專家將集聚一堂移動開發者們知悉行業趨勢動向，探索新興技術的應用場景及實踐。

豐厚直播福利等你來搶：極客背包/鼠標墊/U型枕/《移動開發架構設計實戰》

插圖源自Pexels

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 | 203的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：淘系的音视频编辑方案：非线性编辑引擎
下一篇：【线上分享】安防视频上云趋势、痛点，华为