音视频技术开发周刊 | 205
每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
小提示:鏈接跳轉僅支持公眾號相關鏈接
火山引擎視頻云:從toC到toB,如何將最好的技術開放出去
6月10日,火山引擎召開品牌發布會。在發布會上的演講中,火山引擎總經理譚待提到要把字節跳動最好的技術開放出去,而經過抖音、西瓜等產品的千錘百煉,服務過數億用戶的火山引擎視頻云產品就是其中之一。從to C到to B,火山引擎視頻云可以延續哪些C端優勢?如何利用這些優勢為客戶提供更好的服務和體驗?面對競爭激烈的市場,它又如何突破重圍?未來還有哪些值得期待的音視頻新場景?
?
近日,LiveVideoStack來到字節跳動采訪了火山引擎視頻云產品負責人Keith,他和大家分享了火山引擎視頻云的情況,以及對音視頻技術未來趨勢的看法。
技術解碼 | 云渲染中的 WebRTC
云渲染在現實?活中,得到越來越多的應?。其中,云游戲是云渲染最為經典的落地場景,多家游戲互動直播平臺?前已經對接騰訊云云游戲 PaaS 平臺,異常?爆。另外,萬科南頭古城云渲染項?也是騰訊云云渲染團隊完成的。在可見的未來,云渲染將會有更多更有想象力的落地場景。和直播場景不同,在云渲染的場景中,用戶關注的是?個按鍵發出后,到看到操作的響應,總共需要多少的時間,更關注低時延。我們選擇 WebRTC 技術作為我們的低延遲?案。
web多線程之webworkers
瀏覽器的js腳本運行一直都是單線程運行的,所以我們不需要考慮多線程同步加鎖這種情況。但是當我們需要做一些比較耗時的計算時候如果還放在這個單線程里面,可以想象頁面會卡住。其實瀏覽器也是支持多線程運行的叫做web workers。通過web workers可以把耗時的計算放在非主線程里面。從而充分發揮電腦的性能。
2021 年第二季度 DDoS 攻擊趨勢
最近幾周見證了大規模勒索軟件和勒索 DDoS(分布式拒絕服務)攻擊活動,這些攻擊活動中斷了世界各地關鍵基礎設施的各個方面,包括最大的石油管道系統運營商之一和世界上最大的肉類加工公司之一。本季度早些時候,比利時的 200 多個組織,包括政府和議會網站以及其他服務,也受到了 DDoS 攻擊。
https://blog.cloudflare.com/ddos-attack-trends-for-2021-q2/
視頻壓縮標準簡史:從1929到2020
多年以來,人們設計出許多不同的算法來壓縮視頻。視頻壓縮雖然聽起來是一個很現代的詞,但其實它從模擬視頻開始,已經有很長的歷史了。在本篇文章中,我會向大家一一介紹視頻壓縮史上的里程碑事件,正是這些事件的發生才有了今天的視頻壓縮。從過去到現在,各類視頻壓縮方法由最初的概念最終演化成現今的標準。很多壓縮標準今天還在使用,人們也一直在繼續開發和完善新的標準。
1KB/s 也能開暢享視頻會議?信號不好不再是借口!
在近日ICME2021會議上,上海交大的medialab團隊提出一種新的視頻壓縮編碼框架“A Generative Compression Framework For Low Bandwidth Video Conference”,只需要1KB/s碼流,就能獲得高質量的視頻會議,相較于VVC編碼標準,節省了3/4的碼率。
【線上圓桌整理 - 微軟】后疫情時代現代化辦公新趨勢
本次分享將結合微軟在后疫情時代全球的洞察和生產力趨勢變化,介紹現代化辦公的挑戰和機遇,尤其是技術如何更好的賦能而不是“內卷”職場人。內容源自微軟(中國)Microsoft Teams 高級產品市場經理 段旭東在視頻會議下半場圓桌上的分享。
【線上圓桌整理 - 騰訊會議】進化中的視頻會議
本次分享將聚焦在進行中的視頻會議,針對視頻會議新技術做探討。視頻會議不是單純的編解碼和網絡傳輸應用,它背后的數據支撐以及新能力引入都會帶來新的可能和機遇。本次演講邀請到騰訊會議產品部網絡技術組許景禧分享騰訊會議最近在網絡質量分析方面的工作(本文略過),以及探討近期熱門的光場會議,與大家交流視頻會議潛在的進化方向。內容源自騰訊會議產品部高級研究員 許景禧在視頻會議下半場圓桌上的分享。
作業幫:基于 WeNet + ONNX 的端到端語音識別方案
首先感謝出門問問和西北工業大學聯合開源的WeNet端到端語音識別工具。作業幫基于WeNet在非常短的時間內搭起一套完整的語音識別系統,并且基于WeNet的U2模型,在很多場景下都能獲得非常不錯的效果。我們作業幫語音技術組也借鑒了很多WeNet相關代碼和技術,在我們的場景下使用U2模型(以及最新的U2++模型),無論是識別效果或者實時率都得到了可觀的提升,目前我們的語音彈幕服務已經上線了WeNet模型。
本文介紹我們作業幫的WeNet + ONNX端到端語音識別推理方案,實驗表明,相比LibTorch,ONNX的方案獲得20%~30%的速度提升。
技術系列課回顧 | 網易云信線上萬人連麥技術大揭秘
本文根據網易云信資深音視頻服務端開發工程師陳策在《MCtalk Live#5:網易云信線上萬人連麥技術大揭秘》線上直播分享整理。
基于Python的視頻剪輯工具
MoviePy(完整文檔)是一個用于視頻編輯的 Python 庫:剪切、串聯、標題插入、視頻合成(又名非線性編輯)、視頻處理和創建自定義效果。有關使用示例,請參閱圖庫。MoviePy 可以讀取和寫入所有最常見的音頻和視頻格式,包括 GIF,并在 Windows/Mac/Linux 上運行,使用 Python 3.6+。
https://github.com/Zulko/moviepy
使用擴散模型生成高保真圖像
今天,我們提出了兩種相互關聯的方法,它們突破了擴散模型的圖像合成質量的界限——通過重復細化 (SR3) 的超分辨率和一種稱為級聯擴散模型 (CDM) 的類條件合成模型。我們得出了通過擴大擴散模型和精心挑選的數據增強技術,可以勝過現有的方法。具體來說,SR3 在人類評估中獲得了超過 GAN 的強大圖像超分辨率結果。CDM 生成的高保真 ImageNet 樣本在 FID 分數和分類準確度分數上均大大超過 BigGAN-deep 和 VQ-VAE2。
https://ai.googleblog.com/2021/07/high-fidelity-image-generation-using.html
給圖像特征提取開個“ViP”是什么效果?字節&牛津提出視覺解析器,全面超越HaloNet!
本文作者提出了一個視覺解析器(Visual Parser,ViP),將視覺特征分為part級別和whole級別。通過顯示建模part特征和whole特征,從而提升模型語義建模的能力。該工作在三大CV任務上都表現優異,在更少的計算量下,ViP模型的性能依舊可以明顯優于ResNe(X)t。
基于壓縮結構光場圖像進行多信息融合深度估計
本文來自OSA Publishing,演講者是鄭州大學的Xiaomin Liu,題目是“基于壓縮結構光場圖像進行多信息融合深度估計”。
用OpenCV和深度學習進行年齡識別
通過本文可Get如何使用OpenCV,深度學習和Python執行年齡的自動識別/預測。擼完本教程您將能以相當高的精確度,預測靜態圖像文件、實時視頻中人的年齡。?
和空間計算做好友,什么才是AR/VR的未來?
比起當下成熟的智能手機市場,AR和VR仍然處于早期階段。但當我們對技術了解得越深入,就會發現AR和VR未來具備著極大的潛力,這種潛力有助于開拓更多應用場景,同時反過來對于產品形態優化、產品體驗提升都有著至關重要的作用。從獲取信息的角度來看,AR和VR是最貼近人類自然習慣的信息獲取方式,它能沉浸式的顯示圖文、視頻、甚至一個三維模型,虛擬物體可以融入到現實環境中來,身臨其境的氛圍和交互邏輯與智能手機完全不同。那么具備如此多優勢的AR和VR接下來會如何發展,未來是否又會誕生比AR和VR更重要的技術或應用呢?下面我們就帶著大家來探究一下。
數字人越來越“真實”的當下,我們該如何保護自己的數據隱私?
逼真的虛擬化身也引起了人們對“深度偽造”這個問題的關注。目前,涉及合成視頻或音頻的深度偽造會對人們產生誤導。未經授權使用虛擬化身也可能使人們對與它所描述的真實人物的認知產生混淆。?
雖然任何虛擬化身,不管是否真實都可能由第三方驅動,但逼真的虛擬化身由于有類似人類的表情和手勢,更容易建立信任。更糟糕的是,在未來或許你所認識的人的逼真虛擬化身可能會被用于廣告或影響他人意見。
AR Mapping:高效快速的AR建圖方案
在本文中,我們介紹了一種特殊場景的AR建圖,它由具有6個自由度姿態的RGB圖像組成,每個圖像有稠密深度圖和完整的點云圖。這里提出了一個有效的端到端的解決方案來生成和評估AR地圖,首先,為了有效地獲取數據,提出了一種背包掃描裝置,該裝置具有統一的校準流程。其次,提出了一個AR建圖流程,它接收掃描設備的輸入,生成精確的AR地圖。最后,我們提出了一種利用高端激光掃描儀的高精度重建結果來評估AR地圖精度的方法。據我們所知,這是第一次提出一個端到端的解決方案,以高效和準確地建立AR地圖的應用。
自動駕駛爭霸賽:三個萬億市場、兩個千億市場和數個百億市場
自動駕駛商業化的選擇就像一次賭注,沒有人知道哪個賽道會勝出。
4000 字蘋果汽車座艙交互設計猜想
我們都知道,蘋果前段時間更新了 iOS 15,將新的交互方式呈現在我們眼前。特斯拉 Model S Plaid 的問世,也向我們展示了特斯拉在汽車交互上的新探索。那么,蘋果的車載系統會有哪些特別之處?我們認為,蘋果在對汽車系統的定位 ,將 完全不同于 我們已知的任何 傳統汽車廠商和新能源品牌。蘋果會強調其工具性,而非智能性。蘋果在歷代產品的介紹上都會以極其簡短的標題來突出傳達產品特征,而非冗長的排列各項性能,使產品具有明確的「工具感」。
無人車最新破綻:3D打印障礙輕松騙過9成算法,激光雷達和視覺「融合了個寂寞」
在自動駕駛系統里,實時「感知」周圍物體,是所有重要駕駛決策的最基本前提。感知模塊負責實時檢測路上的障礙物,比如:周圍車輛,行人,交通錐 (雪糕筒)等等,目前各個公司研制的高級別(L4)無人車系統,普遍采用多傳感器融合的設計,即融合不同的感知源,比如激光雷達(LiDAR)和攝像頭(camera),從而實現準確并且高冗余的感知。
活動推薦
DTCC2021中國數據庫技術大會150+議題精彩預覽!
2021年8月18日~8月20日,由 IT168 旗下 ITPUB社區主辦的第十二屆中國數據庫技術大會(DTCC202 1),將在北京隆重召開。大會以“數造未來”為主題,設置2大主會場,20+技術專場,邀請了超百位行業專家,為廣大數據領域從業人士提供一場年度盛會和交流平臺。
本屆DTCC2021大會在技術主題方面,從數據庫的底層內核代碼開發,到數據庫的架構設計,再到數據庫技術的云平臺實踐,再到上層的AI與大數據應用,在大會的主題設置中,實現了比較全面的覆蓋。針對當前比較熱門的數據庫技術主題,例如,云原生數據庫的開發實踐、分布式數據庫的應用、圖數據庫技術的應用、時序數據庫,在本次大會中,設置了多個專場,進行集中式分享。為期3天的DTCC大會,150+案例主題,讓我們預覽一下精彩概要主題及日程安排:https://mp.weixin.qq.com/s/nNdZMRUjpvesPpuxNrLV4Q
插圖源自Pexels
總結
以上是生活随笔為你收集整理的音视频技术开发周刊 | 205的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 火山引擎视频云:从toC到toB,如何将
- 下一篇: 字节跳动VQScore算法拿下ICME