音视频技术开发周刊 | 237
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
瘦臉、瘦腿太初級,揭秘「亞洲秘術」美顏美體特效
在機器之心最新一期技術分享中,機器之心機動組以「揭秘人體美化技術」為主題,邀請到了快手、淘寶、火山引擎的技術專家,為大家解密這些特效背后的相關技術。
UGC 視頻質量評價
由于內容和質量的高度多樣性,用戶生成內容 (UGC) 的視頻質量非常難以評估,傳統測量和評估視頻質量的算法和模型不能很好起作用,在這樣的情況,亟需針對 UGC 視頻的視頻質量評價方法。
使用 Puppeteer + canvas + WebCodecs 來代替 FFmpeg
技術團隊將 Puppeteer、MP4Box.js、WebCodecs、canvas 和 FFmpeg(final muxing)結合在一起,創建了一個管道,為網絡開發者提供熟悉的 canvas 圖形 API,而不犧牲 FFmpeg 的性能。
低延遲體育中的內容感知播放
主講人主要介紹了在直播體育的場景下,他們提出的內容感知速率控制算法,以避免直播重要時刻的卡頓。
音視頻開發之旅(一)三種方式繪制圖片
在Android開發中我們最常使用的繪制圖片的方式就是ImageView,設置src。那么有沒有其他方案可以實現圖片的繪制吶?有三種方案!
iOS AVDemo(4):音頻解封裝,從 MP4 中解封裝出 AAC丨音視頻工程示例
這里是第四篇:iOS 音頻解封裝 Demo。這個 Demo 里包含以下內容:1、實現一個音頻解封裝模塊;2、實現對 MP4 文件中音頻部分的解封裝邏輯并將解封裝后的編碼數據存儲為 AAC 文件;3、詳盡的代碼注釋,幫你理解代碼邏輯和原理。
人工智能語音識別幫助識別機器故障
聲音提供有關計算機運行情況的重要信息。ETH研究人員現在已經開發出一種新的機器學習方法,可以自動檢測機器是否“健康”或是否需要維護。
如何基于實時聲紋變聲實現對聲音的“克隆”
「實時聲紋變聲」將顛覆傳統的變聲音效軟件與AI實時變聲體驗,通過提取語音的音素特征與聲紋特征等一系列技術手段,在實時音視頻互動中可以將任意用戶的語音實時變換成指定或任意一個他人的語音,實現像柯南變聲器那樣對聲音的真正“克隆”,接下來我們將分別介紹傳統主流變聲方法與實時聲紋變聲背后的技術原理。
自回歸解碼加速64倍,谷歌提出圖像合成新模型MaskGIT
來自谷歌研究院的研究者提出了一種使用雙向 transformer 解碼器的新型圖像合成模型 MaskGIT,在性能和速度上都獲得了大幅改進。實驗表明,MaskGIT 在 ImageNet 數據集上顯著優于 SOTA transformer 模型,并將自回歸解碼的速度提高了 64 倍。
視頻編解碼芯片設計原理--05 整像素運動估計
本系列主要介紹視頻編解碼芯片的設計,以HEVC視頻編碼標準為基礎,簡要介紹編解碼芯片的整體硬件架構設計以及各核心模塊的算法優化與硬件流水線設計。
實時通訊中的擁塞控制算法
實時通訊的需求不斷增長, 低延時的擁塞控制就顯得由為重要。這樣就有一個組織叫RMCAT專門來負責制定用于實時通訊的擁塞控制的標準。
馬普所開源ICON,顯著提高單張圖像重建三維數字人的姿勢水平
本文介紹了馬普所二年級 CS 博士生修宇亮(Yuliang Xiu)入選 CVPR 2022 的一項三維數字人姿態重建新研究 ——ICON[1]。在本文中,他將詳述這項工作的來龍去脈,包括厘清本研究的動機及思維起點 (motivation)、梳理出這二十多頁論文的主線、論文中沒提及的洞見 (insight),并著重講一下 ICON 的局限及改進思路。
字節跳動開源大模型訓練框架 veGiantModel
字節跳動 AML 團隊內部開發了火山引擎大模型訓練框架 veGiantModel?;?PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 為基礎的高性能大模型訓練框架。
使用 FFmpeg 對直播流媒體進行內容分類
首先介紹了 FFmpeg 現有的濾波器,比如超分濾波器或者去雨濾波器。然后討論了自定義創建場景分類器的過程,介紹了一些訓練模型、使用 tensorflow 后端以及利用 GPU 運行模型的經驗,該項目已完全開源。
FFmpeg 源碼分析-轉碼4
本系列 以 FFmpeg4.2 源碼為準,本文主要分析 transcode_step() 的內部邏輯,以一條簡單的命令開始,ffmpeg -i a.mp4 b.flv。
https://juejin.cn/post/7052338143004983303
星球專享 | 播放器 FFmpeg 依賴庫的配置
眾所周知,FFmpeg 是有很多編譯選項和依賴選項的,打開工程之后,接下來就要添加 FFmpeg 的依賴了。這里并不打算講要如何編譯 FFmpeg ,因為一開始就被編譯困住了,很難接下來的學習,反而有一種簡單的方式直接拿編譯好的庫就行了。
公網傳輸技術之SRT協議解析(上)
本文將從SRT協議的原理分析入手,嘗試定義出一個衡量SRT鏈路可靠性高低的指標:鏈路安全冗余量(Secure-Margin),并詳細介紹如何依照這個指標來部署一個可靠的SRT傳輸鏈路,并分析在不同的直播場景中的參數調整策略。
基于 QUIC 的低延時視頻
QUIC (RFC 9000) 是一種新的網絡協議,將視頻映射到 QUIC API 有多種方法,具體取決于目標延遲和用戶體驗。在 Twitch/IVS,一個新的分發協議 (Warp) 被構建來替換原來的 HLS 堆棧,利用獨特的優先級方案來最大限度地減少面對擁塞時的延遲。
FaceShifter:一秒換臉的人臉交換模型
如今,深度學習已近在圖像合成、圖像處理領域中取得驚人的成果。FaceShifter 便是其中之一,它是一種深度學習模型,可以非常先進的技術實現人臉交換。在本文中,我們將了解它是如何工作的。
Transformer將在AI領域一統天下?現在下結論還為時過早!
從自然語言處理任務起家,又在圖像分類和生成領域大放異彩,所向披靡的 Transformer 會成為下一個神話嗎?
2022斯坦福AI指數報告出爐!中國霸榜AI頂會,但引用量最低
2022年人工智能指數報告發布了!這份報告中,中國在AI頂會論文上表現不凡,但在引用數量方面卻低于美國、歐盟和英國。
人工智能的學習經驗總結!
在現在這個時代,我們以前的學習方式不太適用了,如果想高效率的學習,需要轉換一種學習方式,不妨從實用的角度出發,遇到不會的再去查漏補缺,這樣效率更高。
什么是AR衍射光波導?
衍射光波導是較為主流的AR眼鏡光學顯示方案,很多AR眼鏡采用的都是這種顯示方案,為什么各大AR硬件廠商如此青睞衍射光波導?衍射光波導究竟是什么?今天小編就帶大家了解一下什么是衍射光波導。
分享 | 建筑設計師不可錯過的3款增強現實(AR)軟件
ARki、Fologram、Twinbuild和Gamma AR為設計師、承包商和業主提供了從制造、施工到運營和維護在真實世界中精確參考數字模型的能力。
AR技術在物理實驗教學中的應用與實踐
將AR技術與傳統紙質教材和實驗儀器或實驗裝置實物進行結合,學生通過手機等移動端就可以觀看實驗儀器或裝置的內部三維模型和三維動畫等內容,實現了儀器或實驗現象的可視化和交互化操作。
2022:AR邁入新紀元丨深度
增強現實可以說是迎來了發展的春天,不論是從硬件角度來看,還是從技術上的發展來看2022年,盡管AR技術發展依舊長路漫漫,但或許已經到了能夠為世界經濟和科技的下一步發展提供可靠動力的關鍵節點。
圖像分類的主要難點
圖像分類是根據圖像的類型(類別)為圖像分配標簽的過程??紤]我們有以下類別的圖像:貓和狗因此,當我們將給定類別的圖像提供給圖像分類系統時,系統會根據類別為圖像分配標簽。
騰訊老照片修復算法開源,細節到頭發絲,3種預訓練模型可下載
還記得能將老照片修復到纖毫畢現的GFPGAN嗎?現在,它的代碼正式開源了!官方已經在GitHub上傳了3個預訓練模型。
自動駕駛的第五大感知技術:“聽覺”+自動駕駛
回顧2021,各大互聯網、科技巨頭紛紛涉足自動駕駛產業,加速自動駕駛產業的布局。隨著資本的不斷涌入,以及相關法規政策的完善,自動駕駛產業駛入了發展的快車道。
聊聊未來自動駕駛必須解決哪些感知問題
對于研究下一代智能汽車的系統設計、軟件開發而言,需要解決包含架構設計、功能開發、車輛控制等方面的諸多問題,而以上問題的根源都在于環境感知的能力研究。
閱讀推薦
Web音視頻應用開發趨勢
互聯網上的視頻應用越來越普及,音視頻方面的技術也越來越成熟,單從局部上做出技術創新已經非常之難。曾經“很難”的音視頻技術逐步被人們所克服,“折疊”成一個個具體的模塊、組件、SDK和云服務。接下來我們就看看Web端給音視頻應用開發者帶來了哪些新的東西與能力。
M3U8 文件格式詳解
M3U8 是 Unicode 版本的 M3U,用 UTF-8 編碼。"M3U" 和 "M3U8" 文件都是蘋果公司使用的 HTTP Live Streaming(HLS) 協議格式的基礎,這種協議格式可以在 iPhone 和 Macbook 等設備播放。
VVC采用緣何頻頻受阻?
VVC正在進入一個競爭激烈的編解碼器市場,身在其中,它的未來將更依賴專利費用成本,而非它的技術標準。最近,Charles River Associates 在Unified Patents 上發布了一份VVC economic report ,其中詳述了VVC正在面臨來自MPEG的EVC、現存的HEVC、AVC以及AOM聯盟AV1的激烈競爭。
人物專訪 | 首都在線助力中國企業出海,提供全球云網服務一體化方案
近日,有幸采訪了首都在線的首席網絡架構師劉錚,聊一聊首都在線目前提供的服務、在音視頻行業關注的重點以及如何助力中國企業出海等話題。
構建DRM系統的重要基石——EME、CDM、AES、CENC和密鑰
任何想要理解DRM的人都要遇到AES、CDM、CENC、EME等縮略詞。對于初學者來說,這些詞很容易混淆,但只有理解了它們,才能真正地理解DRM。我們將在本文中簡單介紹DRM的基本構成:EME、CDM、AES、CENC以及密鑰和密鑰服務器的使用。
大視場全息AR顯示:錐形全息光學元件
近期,元宇宙概念的興起,極大的推進了增強現實(AR)和虛擬現實(VR)技術的發展。為了進一步提升 AR 顯示中用戶與現實場景交互的 3D 沉浸式體驗,解決輻輳和調節沖突以及視疲勞等問題,人們引入了全息顯示技術,該技術可以完整的重建出3D物體的波前信息,獲得雙眼視差和連續運動視差,被認為是理想的 3D 顯示技術之一。
活動推薦
LiveVideoStackCon 2022 上海站
LiveVideoStackCon 音視頻技術大會是多媒體技術領域的盛會,分享技術創新與最佳實踐,至今已在北京、上海等多地成功舉辦九屆大會。歷經半年多的時空隔閡,我們將于5月20日-5月21日在上海舉行一場音視頻領域的線下聚會。點擊「閱讀原文」了解更多大會詳情。
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 237的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 构建DRM系统的重要基石——EME、CD
- 下一篇: 【专题介绍】音视频+