打破两项世界纪录,腾讯优图开源视频动作检测算法DBG
近日,騰訊優圖實驗室提出一種新的視頻動作檢測算法DBG并開源,這是繼今年4月人臉檢測算法DSFD開源后,優圖的又一次開源動作。
目前,DBG算法在全球兩大權威視頻動作數據集ActivityNet-1.3和THUMOS14上均取得了第一。相關論文《Fast Learning of Temporal Action Proposal via Dense Boundary Generator》已被國際人工智能頂級會議AAAI2020接收,與此同時,算法代碼已在優圖研究官方Github上開源。
Github開源地址:
https://github.com/TencentYoutuResearch/ActionDetection-DBG
論文公開地址:
https://arxiv.org/pdf/1911.04127.pdf
三點創新,探索視頻動作檢測最優方案視頻動作檢測技術是精彩視頻集錦、視頻字幕生成、動作識別等任務的基礎,隨著互聯網的飛速發展,在產業界中得到越來越廣泛地應用。視頻動作檢測算法需要在給出視頻中找到動作發生的位置(起點和終點)和置信度。如下圖所示,我們需要在一段體育視頻場景中,找到“跳高”這個動作發生的起點時刻和終點時刻。與現有的視頻動作檢測算法相比,DBG算法有3點創新:
(1)提出一種快速的、端到端的稠密邊界動作生成器(Dense Boundary Generator,DBG)。該生成器能夠對所有的動作提名(proposal)估計出稠密的邊界置信度圖。
(2)引入額外的時序上的動作分類損失函數來監督動作概率特征,該特征能夠有利于回歸動作的完整度。
(3)設計一種高效的動作提名特征生成層,該層能夠有效捕獲動作的全局特征,便于后面的分類和回歸模塊。
據了解,DBG算法在全球兩大權威視頻動作數據集ActivityNet-1.3和THUMOS14上均取得了第一。算法的整體框架主要包括三個部分:視頻特征抽取(Video Representation),稠密邊界動作檢測器(DBG),后處理(Post-processing)。DBG算法框架圖
從評估結果來看,DBG無論在召回率還是耗時上都優于現有其他開源算法。其中,ActivityNet1.3數據集分為Validation和Test兩個評估集,DBG單模型(表中Ours)在Validation和Test的兩種評估模式上均取得了Top 1,通過使用多種特征提取網絡和多尺度特征等策略,DBG算法的融合結果是73.05%,達到ActivityNet榜單的第一名。目前THUMOS14數據集測試集標注已經公開,通過將DBG與現有的開源方法進行對比,DBG在不同指標下的召回率均有顯著提升。
此外,DBG算法的耗時要明顯少于BSN和BMN等其他經典方法。?
突破痛點 ,DBG算法為產業發展助力隨著互聯網時代發展,視頻內容越來越多,預計到2021年,80%左右的互聯網流量將會來自于視頻。視頻內容的爆發也催生了對動作檢測算法的巨大需求。互聯網場景視頻內容的多樣性對技術提出了很多的挑戰,如視頻場景復雜、動作長度差異較大、邊界模糊、相機運動帶來背景變化等。針對這些挑戰,優圖DBG動作檢測算法應運而生,在實際業務中取得了很好的精度與速度的提升。目前,動作檢測技術已經應用于公司內外的多個業務中,覆蓋教育、社交、娛樂、視頻等多個場景。以社交娛樂場景為例,短視頻APP用戶拍攝上傳一段原始視頻后,基于DBG算法的功能接口,可實現對視頻中“跳舞”動作的檢測和識別并智能剪輯,幫助用戶自動生成更加專業的短視頻。
自2017年,騰訊開始加快對外開源節奏,主要覆蓋AI、云、游戲、安全、小程序等相關領域,其中計算機視覺技術的開源也是其重要一環。2017年7月,騰訊優圖首個AI開源項目NCNN開源,2019年至今已有人臉檢測、屬性等5項技術開源。騰訊優圖將不斷研究和探索,通過開源更多新技術為產業發展提供助力。
總結
以上是生活随笔為你收集整理的打破两项世界纪录,腾讯优图开源视频动作检测算法DBG的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯正式开源图计算框架Plato,十亿级
- 下一篇: 「递归」第3集 | 向善的信念,让技术自