音视频技术开发周刊 | 240
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
使用體積視頻創建數字人
本文介紹了如何使用體積視頻創建數字人,體積視頻的后處理方法和傳輸方式等。
iOS AVDemo(7):視頻采集,視頻系列來了丨音視頻工程示例
在音視頻工程示例這個欄目,我們將通過拆解采集 → 編碼 → 封裝 → 解封裝 → 解碼 → 渲染流程并實現 Demo 來向大家介紹如何在 iOS/Android 平臺上手音視頻開發。這里是第七篇:iOS 視頻采集 Demo。
音視頻開發之旅(四)Camera視頻采集
音視頻開發之旅系列之四,本期主要介紹Camera視頻采集,包括Camera基礎知識,視頻采集的流程,以及采集中遇到的問題等。
W3C/SMPTE 專業媒體制作 Web 技術聯合研討會總結報告
W3C 和 SMPTE 舉辦的專業媒體制作 Web 技術研討會于2021年10-11月舉行。該研討會旨在連接 Web 平臺社區和專業媒體制作社區,探索 Web 平臺技術變革以滿足專業媒體制作的需求。本報告總結線上主題討論的話題,回顧因時間關系而沒有進行線上討論的話題,并提出下一步計劃。
https://www.w3.org/2021/03/media-production-workshop/zh.report.html
Smell-O-Vision: 將嗅覺體驗加入視頻中
本文講述了將嗅覺體驗加入視頻中的技術發展歷史,從早期的人們在電影院安裝復雜的氣味發生裝置,到簡易便攜的氣味卡片,再到利用流媒體視頻數據控制氣味釋放的裝置,演講者介紹了不同時期裝置的特點和對應的視頻作品。
Arcturus on Volumetric Videos
在這篇采訪中,主講人主要介紹了 Arcturus 公司所開發的集成平臺 HoloSuite。該工具可以對捕獲后的三維模型進行縮放、編輯和處理以滿足實際的藝術或生產需求。此外,主講人還表達了自己對體積視頻未來發展的看法。
短視頻中解決音視頻混音出現雜音的問題
現在抖音快手各種短視頻也算是深入人心了,短視頻剪輯中有一個非常重要的功能,就是音視頻合成,選擇一段視頻和一段音頻,然后將它們合成一個新的視頻,新生成的視頻中會有兩個音頻的混音。
使用FFmpeg添加、刪除、替換和提取視頻中的音頻
FFmpeg是一個超級強大的工具,它可以在視頻文件中添加、刪除、提取或者替換音頻。如果你的電腦上已經安裝了FFmpeg,那么你就擁有了可以給電影添加或刪除音頻的工具!我們一起來看看FFmpeg是如何做到的。
房間均衡 | 如何給房間調音?
在過去的40年中,許多學者對房間均衡進行了深入的研究,提出了許多有效的技術來應對不同均衡問題。這篇文章旨在介紹一些常用的均衡方法,并討論每種方法的利弊。
汽車聲學
汽車聲學作為人車交互核心載體,有望成為下一類車燈屬性賽道,至少可看10年以上長期發展,空間巨大。構成上看,汽車聲學硬件主要包含車載揚聲器、功放及行人警示器AVAS,軟件主要包括整車調音技術、聲學信號處理技術。
機器學習助力實現更準確的語音識別能力
研究人員開發了一個機器學習模型,該模型確定聽眾所經歷的聲學條件,然后估計聽眾在該環境中識別單詞的能力。為了進行此估計,該模型使用基于機器學習的自動語音識別系統。
蘋果又出空間音頻新專利,適用于FaceTime等應用
在iOS和iPadOS 14中,蘋果首次引入了空間音頻,現應用于Apple TV、Mac和 HomePod中。現在,一項新的專利申請顯示,蘋果正在為FaceTime開發空間音頻。
VVC怎么了?
VVC作為國際標準于2020年7月首次發布,現在時間已經過去了18個月,讓我們來看看VVC迄今為止的進展(包括許可、性能、芯片開發和測試等)。
編碼VS轉碼:有什么區別?
如果您正在嘗試流式傳輸視頻,那么您無疑已經聽說過“編碼”和“轉碼”這兩個術語——但它們有什么區別,又有什么關系呢?
https://www.wowza.com/blog/encoding-vs-transcoding
視頻編解碼芯片設計原理----08 環路濾波
本系列主要介紹視頻編解碼芯片的設計,以HEVC視頻編碼標準為基礎,簡要介紹編解碼芯片的整體硬件架構設計以及各核心模塊的算法優化與硬件流水線設計。本文將首先介紹環路濾波的基礎知識,對H.265/HEVC標準的兩種濾波器進行概述。然后分別給出兩種濾波器的硬件實現方案,并與已有的硬件實現工作進行對比。
FFmpeg 源碼分析-轉碼總結
本系列 以 FFmpeg4.2 源碼為準,FFmpeg 源碼分析系列以一條簡單的命令開始,ffmpeg -i a.mp4 b.flv,分析其內部邏輯。本文主要分析 process_input_packet() 的內部邏輯。
https://juejin.cn/post/7052339186958860296
査勇:華為云在視頻AI轉碼領域的技術實踐
華為云媒體處理服務研發負責人查勇 結合華為云在超高清視頻轉碼領域的實踐經驗,詳細介紹了云上使用AI技術提升視頻視聽體驗的關鍵技術,以及如何助力行業實現音視頻體驗升級。
CVPR2022:局部和全局知識蒸餾用于目標檢測(源代碼開源)
在今天分享中,研究者進一步探討了前景和背景的知識蒸餾對目標檢測的影響。通過分離蒸餾過程中的前景背景來設計實驗。
玩轉HLS
HLS是由蘋果公司提出基于HTTP的流媒體網絡傳輸協議。是蘋果公司QuickTime X和iPhone軟件系統的一部分。它的工作原理是把整個流分成一個個小的基于HTTP的文件來下載,每次只下載一些。
面向未來的移動寬帶音視頻傳輸協議
本報告從視頻制作域和傳輸域的需求入手,分別總結了不同場景下傳輸協議的需求和關鍵指標,并給予技術分析。最后在此基礎上,本報告對面向未來移動通信技術的新型視頻制作和分發給予了展望。
1024x1024 分辨率,效果驚人!InsetGAN:全身圖像生成 (CVPR 2022)
作者提出了一種組合多個預訓練的GAN的新方法,其中一個GAN生成一個全局人體圖像和一組專門生成特定人體部分的GAN,然后將部分人體圖像無縫插入到全體人體圖像中。論文中大量的實驗結果也表明該方法的有效性。
GNN落地不再難,一文總結高效GNN和可擴展圖表示學習最新進展
本文旨在概述關于高效圖神經網絡和可擴展圖表示學習的關鍵思想,并將介紹數據準備、GNN 架構和學習范式方面的關鍵進展,這些最新進展讓圖神經網絡能夠擴展到現實世界,并應用于實時場景。
OpenAI的DALL·E迎來升級,不止文本生成圖像,還可二次創作
去年 1 月 6 日,OpenAI 發布了新模型 DALL·E,不用跨界也能從文本生成圖像,打破了自然語言與視覺次元壁,引起了 AI 圈的一陣歡呼。時隔一年多后,DALL·E 迎來了升級版本——DALL·E 2。
保姆級教程:深度學習環境配置指南!(Windows、Mac、Ubuntu全講解)
如果你正在面臨配置環境的痛苦,不管你是Windows用戶、Ubuntu用戶還是蘋果死忠粉,這篇文章都是為你量身定制的。接下來就依次講下Windows、Mac和Ubuntu的深度學習環境配置問題。
VR行業數據&&VR未來發展路線分析
近期給大家帶來了「VR領域」分享,主要大綱如下:VR發展史 - VR技術介紹 - VR行業數據 - VR未來發展路線 - 更全面了解VR。今天我們帶來的是VR行業數據&&VR未來發展路線分析,歡迎關注,留言交流學習。
【嘮嘮】VR技術介紹
今天我們帶來的是VR技術介紹,歡迎關注,留言交流學習。其實VR眼鏡的概念很簡單:把一個顯示器罩在人的眼睛上,人向哪里看,就在顯示器里顯示對應方向的景物,從而讓人感覺自己身處一個無限大的虛擬空間中。
未來已來!汽車AR導航正式上路(視頻)
今天早些時候,全息AR公司WayRay發布了一段新視頻,展示了其True AR HUD在真實道路上的應用,為AR技術在駕駛引導和安全領域的應用開啟全新的時代。
使 Android 相機上傳功能更快、更可靠
相機上傳是我們的 Android 和 iOS 應用程序中的一項功能,可自動將用戶的照片和視頻從他們的移動設備備份到 Dropbox。這篇文章是關于在為 Android 構建新的相機上傳功能時做出的一些設計、驗證和發布決定。該項目成功交付,沒有中斷或重大問題;錯誤率下降,上傳性能大大提高。
https://dropbox.tech/mobile/making-camera-uploads-for-android-faster-and-more-reliable
圖像信號處理芯片設計原理----01 概論
本系列主要介紹圖像信號處理器 (ISP, Image Signal Processor) 中各核心算法模塊的設計以及相關的前沿研究,以典型的相機成像系統為基礎,涉及的內容包括各類缺陷校正,去馬賽克,去噪,3A算法(自動對焦,自動曝光,自動白平衡),超分,HDR,風格遷移等主題。
超級干貨 | 用萬字文章總結25種正則化方法(值得收藏)
一些圖像處理任務,如圖像分類和目標檢測,已經通過使用卷積神經網絡(CNN)性能得到了顯著的改進。訓練中的一個關鍵因素是網絡的正則化,它可以防止模型在訓練的過程中出現過擬合的現象。
工業相機參數之幀率相關知識詳解
工業相機已經被廣泛應用于工業生產線在線檢測、智能交通,機器視覺,科研,軍事科學,航天航空等眾多領域。工業相機的主要參數包括:分辨率、幀率、像素、像元尺寸、光譜響應特性等。下面我們來對工業相機幀率的相關知識進行講解。
無人駕駛時代指日可待?2035年將取代傳統汽車
無人駕駛技術的“美夢”始于20世紀80年代,近年來,無人駕駛技術突飛猛進,各大整車企業、無人駕駛系統解決方案提供商(如百度阿波羅、景馳)也在不斷推動無人駕駛商業化。如今,無人駕駛已經不再是遙不可及的“未來科技”。
自動駕駛前沿綜述:基于深度強化學習的自動駕駛算法
這是 21 年的一篇綜述文章,可以算得上是最前沿的自動駕駛技術綜述。這幾年隨著深度表征學習的發展,強化學習領域也得到了加強。本文會對目前最先進的自動駕駛 DRL 算法進行匯總和分類。
一文了解車載攝像頭創新應用
攝像頭作為汽車感知的核心傳感器,主要是獲取圖像信息為ADAS各種功能所服務。下面,智駕最前沿就帶大家一起來了解下車載攝像頭的一大革命性應用:電子后視鏡CMS。
閱讀推薦
IEEE INFOCOM2022權威論文|PPIO邊緣云“EdgeMatrix”云邊資源優化框架
PPIO云邊資源優化框架“EdgeMatrix”可以解決資源異構、資源競爭和網絡系統動態等諸多挑戰,使邊緣云系統在復雜網絡環境下為用戶服務提供強有力的SLA(服務等級協議Service Level Agreement)保證,所需求解時間降低了數十倍。
Meta 的 AI 頂尖人才都不干了?
大公司人員的流失并不是什么新鮮事,但是扎堆離職事件還是較為罕見。據外媒CNBC報道,這幾個月來,Meta(前身Facebook) AI部門失去了至少四位頂尖科學家。
CVPR 2022 論文/代碼分類匯總!持續更新中!
CVPR 2022 的論文官方還沒有完全公布,但有作者陸續公布出來一些。為方便大家跟進論文,了解最新技術,CV君在Github建了一個倉庫,對已經出來的論文(目前是340多篇)進行了按類別匯總。對于Oral或有公布代碼的論文也鏈接了代碼,方便大家查找。
深度學習深陷困境!
AI 領域充滿了炒作和虛張聲勢。在過去的幾十年間,AI一次又一次掀起熱浪,雖然給出了各種承諾,但能夠兌現的承諾卻非常罕見。
CVPR2022 | 京東探索研究院CVPR再突破,34篇入選論文合集解讀
近日,CVPR 2022官方公布了接收論文列表,本屆大會大約 2067 篇論文被接收,其中京東探索研究院共34篇論文被CVPR收錄,論文涵蓋包括目標檢測與識別、表征學習、知識蒸餾、圖像生成、文本語義識別等領域。以下為京東探索研究院本次入選論文的亮點介紹。
活動推薦
【城市沙龍】LiveVideoStack Meet深圳:元宇宙與音視頻
去年底,元宇宙一詞入選了《柯林斯詞典》2021年度熱詞,雖然外界對于元宇宙概念和屬性的看法仍在變化,但對其未來的良好前景已基本達成共識。元宇宙又會給音視頻互動帶來哪些新玩法與新場景?4月23日LiveVideoStack Meet將在深圳與大家見面,共聊元宇宙與音視頻發展!
活動時間:2022年4月23日? 14:00-17:00
活動地點:深圳市南山區卓越前海壹號T3寫字樓38層培訓室
報名方式:點擊「閱讀原文」立即報名。
騰訊云音視頻專業能力認證火熱上線
騰訊云音視頻與騰訊云產業互聯網學堂攜手打造“騰訊云音視頻從業者認證”以及“騰訊云音視頻開發工程師認證”兩大認證能力,助力全方位的音視頻行業人才培養,主為音視頻行業打造知原理,擅推廣、懂技術、會操作的專業人才,一起提升音視頻產品和解決方案能力。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 240的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VVC怎么了?
- 下一篇: 【专题介绍】开源与创新