ICCV 2021 Oral | AdaFocus:利用空间冗余性实现高效视频识别
?原創 ·?作者 | 王語霖
單位?|?清華大學自動化系
研究方向?|?機器學習、計算機視覺
本文主要介紹我們被 ICCV 2021 會議錄用為 Oral Presentation 的一篇文章:Adaptive Focus for Efficient Video Recognition。代碼和預訓練模型已經在 Github 上面放出,歡迎大家試用和吐槽。
論文標題:
Adaptive Focus for Efficient Video Recognition
論文來源:
ICCV 2021
論文鏈接:
https://arxiv.org/pdf/2105.03245.pdf
代碼鏈接:
https://github.com/blackfeather-wang/AdaFocus
B站視頻簡介:
https://www.bilibili.com/video/BV1vb4y1a7sD/
現有高效視頻識別算法往往關注于降低視頻的時間冗余性(即將計算集中于視頻的部分關鍵幀),如圖 1 (b)。本文則發現,降低視頻的空間冗余性(即尋找和重點處理視頻幀中最關鍵的圖像區域),如圖 1 (c),同樣是一種效果顯著、值得探索的方法;且后者與前者有效互補(即完全可以同時建模時空冗余性,例如關注于關鍵幀中的關鍵區域),如圖 1 (d)。在方法上,本文提出了一個通用于大多數網絡的?AdaFocus 框架,在同等精度的條件下,相較 AR-Net (ECCV-2020) 將計算開銷降低了?2.1-3.2 倍,將 TSM 的?GPU 實測推理速度加快了?1.4 倍。
▲?圖1 AdaFocus 與現有方法的對比
研究動機及簡介
相較于圖像,視頻識別是一個分布范圍更廣、應用場景更多的任務。如下圖所示,每分鐘,即有超過?300 小時的視頻上傳至 YouTube;至 2022 年,超過?82%?的消費互聯網流量將由在線視頻組成。自動識別這些海量視頻中的人類行為、事件、緊急情況等內容,對于視頻推薦、監控等受眾廣泛的實際應用具有重要意義。
▲?圖2 在線視頻的規模
近年來,已有很多基于深度學習的視頻識別算法取得了較佳的性能,如 TSM、SlowFast、I3D 等。然而,一個嚴重的問題是,相較于圖像,使用深度神經網絡處理視頻通常會引入很大的計算開銷。如下圖所示,將 ResNet-50 應用于視頻識別將使運算量(FLOPs)擴大?8-75 倍。
▲?圖3 視頻識別模型計算成本較高
因此,一個關鍵問題在于,如何降低視頻識別模型的計算開銷。一個非常自然的想法是從視頻的時間維度入手:一方面,相鄰的視頻幀之間往往具有較大的相似性,逐幀處理將引入冗余計算;另一方面,并非全部視頻幀的內容都與識別任務相關?,F有工作大多從這一時間冗余性出發,動態尋找視頻中的若干關鍵幀進行重點處理,以降低計算成本,如下圖所示。
▲?圖4 基于時間冗余性的高效視頻識別
但是,值得注意的一點是,我們發現,目前尚未有工作關注于視頻中的空間冗余性。具體而言,在每一幀視頻中,事實上只有一部分空間區域與識別任務相關,例如下圖中的運動員、起跳動作、水花等。
▲?圖5 視頻幀的空間冗余性
出于這一點,本文以回答圖 6 中的兩個問題作為主線:
1. 空間冗余性是否可以用于實現高效視頻識別?假如我們能找到每一視頻幀中的關鍵區域,并將主要的計算集中于這些更有價值的部分,而盡可能略過其他任務相關信息較少的區域,理論上,我們就可以顯著降低網絡的計算開銷(事實上,我們之前基于單張圖像驗證過類似做法的效果:NeurIPS 2020 | Glance and Focus: 通用、高效的神經網絡自適應推理框架 [1])。
2. 空間、時間冗余性是否互補?若上述假設成立的話,它應當可與現存的、基于時間冗余性的工作相結合,因為我們完全可以先找到少數關鍵幀,再僅在這些幀中尋找關鍵的圖像區域進行重點處理。
▲?圖6 使用空間冗余性進行高效視頻識別
方法詳述
首先為了回答問題 1,我們設計了一個 AdaFocus 框架,其結構如下圖所示:
▲?圖7 AdaFocus 網絡結構
此處我們假設視頻幀按時間次序逐個輸入網絡,AdaFocus 使用四個組件對其進行處理:
1. 全局CNN(Global CNN)是一個輕量化的卷積網絡(例如MobileNet-V2),用于以低成本對每一幀視頻進行粗略處理,獲取其空間分布信息。
2. 策略網絡??(Policy Network)是一個循環神經網絡(RNN),以?的提取出的特征圖作為輸入,用于整合到目前為止所有視頻幀的信息,進而決定當前幀中包含最重要信息的一個圖像小塊(patch)的位置。值得注意的是由于取得patch 的 crop 操作不可求導,是使用強化學習中的策略梯度方法(policy gradient)訓練的。
3. 局部 CNN??(Local CNN)是一個容量大、準確率高但參數量和計算開銷較大的卷積網絡(例如 ResNet),僅處理策略網絡??選擇出的局部 patch,由于 patch 的空間尺寸小于原圖,處理其的計算開銷顯著低于處理整個視頻幀。
4. 分類器??(Classifier)為另一個循環神經網絡(RNN),輸入為?和??輸出特征的并聯,用于整合過去所有視頻幀的信息,以得到目前最優的識別結果?(??表示幀序號)。
AdaFocus 的訓練分為三個階段。在第一階段,我們移除策略網絡??,隨機選取局部 patch,訓練網絡的分類部分最小化交叉熵損失,如下圖所示。這一階段意在訓練網絡從隨機的 patch 序列中自適應提取信息,我們進而便可以根據分類部分網絡的行為判斷不同 patch 的重要性。
▲?圖8 訓練階段1
在第二階段,我們引入隨機初始化的策略網絡??,將之建模為智能體(agent),固定分類部分,以強化學習算法對??進行訓練,優化目標為最大化折扣獎勵函數。
▲?圖9 訓練階段2
關于強化學習的具體細節,請參見我們的 paper。粗略而言,我們將選擇 patch 建模為一個在若干個候選 patch 上的多類離散分布,每一類別的概率由策略網絡??的輸出決定。訓練時,我們隨機從這個分布中采樣出一個動作,并得到一個對應的獎勵函數值(reward),reward 較大的動作將受到鼓勵,reward較低的動作則將受到抑制。我們將 reward 的值定義為給定動作在標簽類別上的 confidence 上升的效果與隨機選擇 patch 所得效果的比較。
▲?圖10 策略網絡的訓練方法
在第三個階段,我們固定階段二學到的 patch 選擇策略,對 AdaFocus 的分類部分進行微調。這一階段并非必須,但可以些微提升網絡的分類性能。?
▲?圖11 訓練階段3
到目前為止,AdaFocus 對每一幀視頻花費的計算量是均等的,換言之,其只建模了空間冗余性。為了探索空間、時間冗余性是否互補的問題,我們提出了增強版本的 AdaFocus,AdaFocus+。具體而言,我們加入了一個與??結構完全相同的策略網絡??,用于判斷對于每一幀視頻是否激活??處理由??選擇出的局部 patch,如下圖所示。
▲?圖12 AdaFocus+
??可以在訓練階段二中,?的訓練完成后采用與其相同的強化學習算法進行訓練。?的輸出決定了一個二分類分布(Bernoulli distribution)的參數,訓練時,我們隨機從該分布中采樣,并在采樣得激活??時將該操作所帶來的標簽類別上的confidence上升的效果與激活?的計算開銷進行比較。只有當這一比較結果為正時,激活??這一動作才會得到鼓勵。
關于 AdaFocus 和 AdaFocus+ 的更多細節,由于比較繁雜,不在這里贅述,可以參閱我們的 paper。
實驗結果
與其他高效視頻識別框架的比較(基于 ActivityNet):
▲?圖13 ActivityNet
在 FCVID 和 Mini-Kinetics 上的結果:
▲?圖14 FCVID, Mini-Kinetics
基于 TSM 部署 AdaFocus 的結果,包含理論計算開銷、CPU 和 GPU 的實際測速結果:
▲?圖15 AdaFocus-TSM在something-something V1, V2上的實際效果
AdaFocus 的可視化結果,綠色方框代表我們的方法在每一幀選擇的 patch,可見 AdaFocus 成功定位到視頻幀中的任務相關區域,例如帆船、自行車、做三明治的手部動作、摩托、長笛、運動員等。
▲?圖16 可視化結果
關于網絡結構設計的細節、獎勵函數的設計、習得 patch 選擇策略的有效性,我們還提供了詳盡的消融實驗(Ablation Study)結果,細節請參閱我們的 paper。
結語
總結來說,這項工作的貢獻點在于:
1. 在現有的基于時間冗余性的方法之外,思考利用空間冗余性實現高效視頻識別;
2. 基于強化學習,提出了一種在理論上和實測速度上效果都比較明顯的通用框架,AdaFocus;
3. 在五個數據集上進行了實驗,包括與其他通用框架的比較和部署于現有高效識別網絡(例如 TSM)上的效果等。
歡迎大家 follow 我們的工作。
@InProceedings{Wang_2021_ICCV,author = {Wang, Yulin and Chen, Zhaoxi and Jiang, Haojun and Song, Shiji and Han, Yizeng and Huang, Gao},title = {Adaptive Focus for Efficient Video Recognition},booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},month = {October},year = {2021} }如有任何問題,歡迎留言或者給我發郵件,附上我的主頁鏈接:
http://www.rainforest-wang.cool/
參考文獻
[1]?https://zhuanlan.zhihu.com/p/266306870
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的ICCV 2021 Oral | AdaFocus:利用空间冗余性实现高效视频识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ResNet才是YYDS!新研究:不用蒸
- 下一篇: 转弯的车辆就那么没有权利吗?