當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音视频技术开发周刊 | 239

發布時間：2024/4/11 编程问答 84 豆豆

生活随笔收集整理的這篇文章主要介紹了音视频技术开发周刊 | 239 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

每周一期，縱覽音視頻技術領域的干貨。

新聞投稿：contribute@livevideostack.com。

什么是體積視頻？

本文介紹了體積視頻（Volumetric Video）的解釋，創建體積視頻所需的設備，并給出了具體的用例。

原創干貨 | 入門或者轉行音視頻，應該要怎么做？

想從事（入門或者轉行）音視頻開發，要怎么做？很多人對此都有疑惑，不光有工作多年的職場老司機，也有求學期間的研究生同學們，本文幫你分析到底要不要從事音視頻開發工作，以及如果從事音視頻開發要怎么做？

虎牙直播在AI實時剪輯技術上的創新實踐

如何讓用戶快速甚至實時地回顧到直播中的精彩鏡頭成了我們關注的問題，直接的人工剪輯需要耗費大量人力，我們希望通過設計算法來自動剪輯，將好看的精彩鏡頭實時呈現給觀眾。

Google Widevine及其工作原理

在本文中，我們將深入了解谷歌的Widevine DRM解決方案——它是一種流行的DRM解決方案，在Web和移動生態系統中獲得了廣泛支持。

FFmpeg 源碼分析-轉碼6

本系列以 FFmpeg4.2 源碼為準，FFmpeg 源碼分析系列以一條簡單的命令開始，ffmpeg -i a.mp4 b.flv，分析其內部邏輯。本文主要分析 process_input_packet() 的內部邏輯。

https://juejin.cn/post/7052338839527882766

iOS AVDemo（6）：音頻渲染，免費獲得源碼丨音視頻工程示例

在音視頻工程示例這個欄目，我們將通過拆解采集 → 編碼 → 封裝 → 解封裝 → 解碼 → 渲染流程并實現 Demo 來向大家介紹如何在 iOS/Android 平臺上手音視頻開發。這里是第六篇：iOS 音頻渲染 Demo。

5G Edge-XR 中的音頻處理

本文主要介紹了 5G Edge-XR 及其所使用自動聲源識別和混音的機器學習方法。利用GPU加速，5G Edge-XR 在云上部署了創新的算法，使得音頻內容可以實時自動混合，為觀眾提供個性化、沉浸式和交互式的體驗。

音視頻開發之旅（三）AudioTrack播放PCM音頻

Android SDK 中提供了三種播放聲音的API，常見的是MediaPlayer和AudioTrack其中AudioTrack管理、播放單一音頻資源。可以將PCM音頻數據傳輸到音頻接收器，以供播放，只能播放源碼流即PCM。

視頻編解碼芯片設計原理----07 重建環路

本文給出了HEVC重建環路的相關背景知識，并在此基礎上分析了VLSI實現下重建環路所面臨的實際問題，并有針對地在模塊層次和架構層次對重建環路進行了優化。

AV1編碼現狀(2022.1)

本文主要對 AV1 編碼器就如下幾方面進行概述：發展歷程、2022 年應用情況、設備部署和性能。此外，主講還簡要介紹了基于 Bitmovin 編碼器的 AV1 編碼流程。

小目標檢測、圖像分類、圖像識別等開源數據集匯總

本文收集整理了多個小目標檢測、圖像識別、圖像分類等方向的開源數據集，本次還有貓咪、斯坦福狗狗數據集以及3D MNIST數字識別等～

TensorFlow基礎入門十大操作總結

TensorFlow 是一個開源的、基于 Python 的機器學習框架，它由 Google 開發，提供了 Python，C/C++、Java、Go、R 等多種編程語言的接口，并在圖形分類、音頻處理、推薦系統和自然語言處理等場景下有著豐富的應用，是目前最熱門的機器學習框架。

如何在OpenCV中使用YOLO

今天，我們將研究如何在OpenCV框架中使用YOLO。YOLO于2016年問世，用于多目標檢測，它與OpenCV框架兼容，但我們需要下載“ yolov3.weights”和“yolov3.cfg”。

云視頻傳輸中的記時與同步

本次演講主要介紹了在視頻云服務中的傳輸問題，介紹了其中同步的重要性，并給出了對于視頻處理和傳輸流程中的延時記錄和同步處理的解決框架。

如何實現 LL HLS

在本教程中，我將回顧創建流媒體過程，測試我們制作的流的延遲，并介紹一些有價值的資源，讓你熟悉 LL HLS 的當前性能包絡。

一網打盡車載以太網之SOME/IP(上)

你知道什么是SOME/IP嗎？你知道為什么會產生SOME/IP即相關背景嗎？你知道SOME/IP與SOA又有著哪些千絲萬縷的聯系呢？SOME/IP在實踐中到底應該如何使用呢？今天，我們就來一起探索并回答這些問題。

GNN for Science: 騰訊AI Lab、清華共同發文綜述等變圖神經網絡

在這篇綜述里面，我們系統性的梳理了近年等變圖神經網絡的發展脈絡，并且提供了一個簡潔的視角幫助讀者能夠很快的理解這類網絡的內涵。我們還詳盡闡釋了當前的挑戰和未來的可能方向。

PP-YoLoE | PP-YoLov2全面升級Anchor-Free，速度精度完美超越YoLoX和YoLov5

PP-YOLOE是基于PP-YOLOv2的卓越的單階段Anchor-free模型，超越了多種流行的yolo模型。PP-YOLOE有一系列的模型，即s/m/l/x，可以通過width multiplier和depth multiplier配置。

端到端深度學習項目：第1部分

第1部分介紹了問題陳述的設置、數據預處理、遷移學習背后的直覺、特征提取、微調和模型評估。

FP-DETR：通過完全預訓練提升transformer目標檢測器

最近，Detection Transformer[4,5,6,7]提供了一種簡潔的目標檢測框架，在實現端到端的同時也取得了不錯的檢測性能。

龐貝古城千年廢墟復活：VR模型與眼動追蹤復現被火山灰掩埋的建筑

VR技術現在已經進展到，即使古跡被火山灰埋了兩千年，也可以復現出當年的原貌，還能為游客定制觀景體驗啦。

2022 GDC AR/VR盤點：游戲產業化趨勢勢不可擋

2022年GDC在美國舊金山于3月21日至25日召開。本次大會上出現了諸多令人眼前一亮的精彩瞬間，本文將會為大家呈現。

ICCV 2021 | R-MSFM: 用于單目深度估計的循環多尺度特征調制

深度估計的目的是確定圖像中每個像素的深度。從計算機視覺的早期階段開始，對圖像的深度估計就一直是研究者面臨的主要挑戰之一。深度估計作為一項低級任務，需要完成高級任務，包括三維重建、自動駕駛、三維目標檢測、水下圖像恢復等。

超詳講解圖像拼接/全景圖原理和應用 | 附源碼

圖像拼接是計算機視覺中最成功的應用之一。如今，很難找到不包含此功能的手機或圖像處理API。在這篇文章中，我們將討論如何使用Python和OpenCV執行圖像拼接。

波恩大學最新開源！自動駕駛場景自監督三維點云表征學習無需標注

在本文中，我們提出了一種在自動駕駛場景中 3D 點云數據的表征學習算法。我們提出了一種新的對比方法，旨在學習場景中不同結構和物體之間的關系和特征。

萬字綜述車載攝像頭

車載攝像頭被譽為“自動駕駛之眼”，是ADAS系統、汽車自動駕駛領域的核心傳感設備。主要通過鏡頭和圖像傳感器實現圖像信息的采集功能，可實現360°視覺感知，并彌補雷達在物體識別上的缺陷，是最接近人類視覺的傳感器。

《軟件定義汽車服務API參考規范》第二版發布

2022年3月30日，中國汽車工業協會SDV工作組發布了《軟件定義汽車服務API參考規范》2.0正式稿，本正式稿通過廣泛征集工作組成員意見，并針對廣大整車廠/零部件供應商/軟件開發等企業在智能汽車開發過程中提出的優化建議進行評審，以確保軟件定義汽車服務API標準規范滿足產業落地需求。

閱讀推薦

對話七牛云技術總監陳輝：音視頻行業中的新系統新規劃和新增長

我們有幸地采訪到了七牛云技術總監陳輝，聊一聊這半年來七牛云在以音畫質量為主線，結合自身 QRTC 產品進行的迭代和創新；以及七牛云未來在 RTC 方面的規劃等內容。

音視頻PaaS的“未畢之旅”

本文由LiveVideoStack和趙加雨的對話整理而成，旨在還原一名技術創業者的思考，涉及創業、RTC與音視頻PaaS、to B SaaS、出海和釘釘生態。

從30天到1天，專業視頻制作背后的技術探索之路

近日，LiveVideoStack采訪到了視杏科技的創始人&CEO李志強，請他來跟大家談談市面上內容生產工具和解決方案普遍存在的痛點、視杏科技旗下的專業視頻內容制作神器VE引擎、視杏科技的技術創新和研究重點以及海外市場探索等話題。

屏幕發聲 | 揚聲器和麥克風二合一的智能屏幕離我們還有多遠？

“我們的目標是讓顯示器——或任何平面——成為揚聲器、麥克風和觸摸界面。”音頻和音樂工程專業的Ben Kevelson是羅切斯特大學團隊的一員，該團隊致力于設計可以作為聲學和觸覺界面的平面，不需要外部麥克風或揚聲器。

活動推薦

【品牌專場】七牛云音畫質量優化

在 2021 年的 LiveVideoStackCon 2021北京站大會中，七牛云音視頻團隊發布了結合行業特定屬性的音畫質量分析系統QoE。該系統可通過對通用音視頻評價維度的打分和基于質量美學維度的評分相結合，客觀綜合地對數據源進行評價。至今發布，已有多家行業頭部客戶完成測試并上線，這一系統正在切實地助力客戶業務發展。在即將開幕的LiveVideoStackCon 2022音視頻技術大會上海站中，七牛云將繼續以音畫質量為主線，結合自身QRTC的產品，給大家帶來這半年的迭代和創新。

活動時間：2022年5月21日? 9:30～12:15

活動地點：上海·海神諾富特大酒店麥哲倫3廳

報名地址：點擊「閱讀原文」立即報名。

超強干貨來襲云風專訪：近40年碼齡，通宵達旦的技術人生

總結

以上是生活随笔為你收集整理的音视频技术开发周刊 | 239的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。