音视频技术开发周刊:FFmpeg内置的一个无中生有的音视频输入数据 | 214
新聞投稿:contribute@livevideostack.com
火山引擎視頻云:堅持基礎技術創新,打造極致用戶體驗
從toC到toB,作為抖音背后的視頻技術中臺,火山引擎視頻云經歷了哪些轉變和挑戰?對于國際標準的制定,它是如何實現從跟隨者到參與者的跨越?視頻盜版問題泛濫,火山引擎視頻云又有哪些應對措施?面對日益豐富的直播場景,火山的音視頻引擎如何有效支持直播業務不斷增加的場景變化?未來還將有哪些直播新玩法?
與WebXR共同創建者Diego Marcos一起探討沉浸式Web的未來(上)
WebXR是一組由瀏覽器實現的API,可以將VR和AR功能添加到網站上。在當時的團隊中,我更多地致力于前端和其中的工具部分,而 A-frame就在其中,它的目的就是支持和授權所有 Web 開發人員創建AR和VR內容。
與WebXR共同創建者Diego Marcos一起探討沉浸式Web的未來(下)
Diego Marcos:“Web已經是元宇宙了,我們只需要把它做成 3D。”這是我們過去在 Mozilla 常說的。
《6G網絡架構愿景與關鍵技術展望》白皮書全文
《6G網絡架構愿景與關鍵技術展望》白皮書是全球首個多方聯合發布的6G網絡架構白皮書,由IMT-2030(6G)網絡技術組34家單位共同完成。白皮書首次提出了面向DOICT融合創新的發展思路,從業務驅動、DOICT融合驅動、IP新技術驅動三方面闡述了6G網絡架構演進的驅動力;提出6G網絡架構設計原則包括“2個堅持”和“4個轉變”,即“堅持網絡兼容”、“堅持智簡設計”,以及“集中向分布轉變、增量向一體轉變、外掛向內生轉變、地面向泛在轉變”。
WebCodecs 工作草案正式定稿
該規范定義了用于音頻、視頻和圖像編碼和解碼的編解碼器的接口。并且該規范不指定或要求任何特定的編解碼器或編碼或解碼方法。其目的是為其他開發的現有編解碼器技術的實現提供JavaScript接口。開發者可以自由地支持任何編解碼器組合。
Intel v.s. Nvidia:使用 GPU 進行視頻編碼的比較
視頻轉碼是一項非常耗費資源的任務,CPU 轉碼的成本可能相當昂貴,使用 GPU 轉碼可以節省資源。本文以 Intel 的 QuickSync 和 Nvidia 的 NVENC 為例,從轉碼速度、質量、功耗、機架空間以及專業應用方面,討論了這些解決方案的主要優缺點。
MOVI-Codec:無運動的深度學習視頻壓縮
本文提出了一個端到端的基于深度學習的視頻壓縮框架,對運動預測進行了改進,提出了用位移幀差異作為運動信息的方案,并將其輸入進一個時空壓縮網絡來學習最優的幀間插值表示。另外,提出了一個 UNet 的新版本 —— LSTM-UNet,它能綜合利用時空信息來進行幀重建。該算法可以有效降低算法復雜度。
對比學習(Contrastive Learning):研究進展精要
本文詳細介紹了對比學習的研究進展,分別介紹了四類對比學習的方法,并對對比學習的不同方法的效果以及目前的對比學習模型仍然存在的問題進行了探討。
FFmpeg 內置的一個無中生有的音視頻輸入數據
相信很多人在遇到音視頻處理的時候,或者做音視頻數據測試的時候,會因為把握不好音視頻輸入源的而苦惱。當然,有的人有很多種子的可能不但不會苦惱而且還會很歡樂。可是我們用在工作中的測試視頻,總不能拿那些用種子下載下來的葫蘆娃、黑貓警長、汪汪隊立大功來測試吧?畢竟那是有版權的視頻,拿來亂用也不太合適。除了這些,再就是常見的花花公子經典照片Lena這種圖片了。而視頻呢,上面兩種應該是比較常用的,其實也不太夠用,尤其是想要逐幀確認,或者測試音頻之類的情況的時候,并且這些視頻一直在電腦里存著也挺占地方的,現場下載也挺浪費時間的,所以 FFmpeg 提供了一組雖然看上去不那么美觀,但是應該足夠用調試和測試用的視頻源數據生成的方法。
基于深度學習的圖像分割:網絡結構設計
文章總結了利用CNNs進行圖像語義分割時,針對網絡結構的創新,這些創新點主要包括新神經架構的設計(不同深度、寬度、連接和拓撲結構)和新組件或層的設計。前者是利用已有的組件組裝復雜的大型網絡,后者是更偏向于設計底層組件。
TransCenter: MIT&INRIA開源多目標物體跟蹤算法
近日,來自 MIT 等機構研究者提出了 TransCenter,這是首個用于預測密集目標點熱力圖 (dense center heatmap)Transformer MOT 架構。在相同訓練策略和同等數據下,TransCenter 在兩個標準 MOT 數據集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。
XR應用“由廣至深”,5G+云加速產業落地
國內VR/AR產業自熱潮過后一直處于低調、蓄勢的狀態,直至近兩年才在5G、疫情,以及元宇宙新概念等事件的作用下再次出圈。相比于海外更為出色的消費終端表現,國內VR/AR市場雖然并不亮眼,但卻在另一個方向有著自己得天獨厚的優勢,那就是不斷加大的政策力度以及5G的先發優勢。尤其是政策扶持,是國內VR/AR產業即使低迷卻能堅持下去直至回暖的重要原因。今年3月,AR/VR產業還在“十四五”規劃綱中被進一步列為數字經濟重點產業。
自動駕駛分級國標明年3月起實施,系統比SAE更有主動權
日前,市場監管總局(標準委)發布了《汽車駕駛自動化分級》國家推薦標準(GB/T 40429-2021),該國標明確了駕駛自動化定義及分級要素,對駕駛自動化等級劃分規則、各級技術要求,以及駕駛員應該承擔的相應責任,均做出明確規范。該國標將于2022年3月1日起實施。
MIT中國博士生開發出第一套保護自動駕駛車輛的感知算法!
近日,清華大學校友、MIT 在讀的中國博士生楊珩與團隊合作開發了第一套針對自動駕駛汽車的“可認證的感知”算法,有助于提高下一代自動駕駛汽車的行駛安全。
MIT:特斯拉 Autopilot 駕駛功能被激活后,車主普遍注意力下降
截至上周末,全球范圍內已經有成千上萬的特斯拉車主體驗到了特斯拉的 FSD beta 軟件的最新 10.0.1 版本。MIT 在一份題為《圍繞特斯拉 Autopilot 引發的注意力渙散的自然掃視行為模型》的報告中表示,當車主啟動 Autopilot 功能時,注意力集中度會出現快速下降。這份報告對波士頓地區 290 余位 Model S 及 Model X 車主開展了為期一年以上的持續追蹤。
9月16日,火山引擎在北京舉辦了“火山引擎增長沙龍-人工智能專場”活動
9月16日,火山引擎在北京舉辦了“火山引擎增長沙龍-人工智能專場”活動。會上,火山引擎AI解決方案、智能視頻編輯解決方案等部門的相關負責人分別講解了火山引擎AI業務線如何為用戶內容創作進行賦能以及火山引擎在智能視頻編輯領域的四大優勢。
在音視頻基礎編輯方面,據火山引擎智能視頻剪輯負責人介紹,火山引擎的多軌編輯器可以實現在軌道區對每一個素材的加入都有可視化的界面,可以對它的每一段特效進行編輯;火山引擎的視頻合拍最早用在抖音產品中,可以將兩個視頻合成一個視頻,在同一個頁面顯示;在單幀識別方面,則可以做到對圖像進行精細到1幀上的處理,幫助用戶打造更為出色的視頻作品。
前沿趨勢|美國發布35頁科技趨勢報告
該報告是在美國過去五年內由政府機構、咨詢機構、智囊團、科研機構等發表的32份科技趨勢相關研究調查報告的基礎上提煉形成的。通過對近700項科技趨勢的綜合比對分析,最終明確了20項最值得關注的科技發展趨勢。該報告的發布:一是為了幫助美國相關部門對未來30年可能影響國家力量的核心科技有一個總體上的把握。二是為國家及社會資本指明科技投資方向,以確保美國在未來世界中的戰略優勢。
插圖源自Pexels
總結
以上是生活随笔為你收集整理的音视频技术开发周刊:FFmpeg内置的一个无中生有的音视频输入数据 | 214的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 与WebXR共同创建者Diego Mar
- 下一篇: 灵光一现的创造——霍夫曼编码