管中窥“视频”,“理解”一斑 —— 视频理解概览
?PaperWeekly 原創(chuàng) ·?作者|Lingyun Zeng
學校|北京航空航天大學
研究方向|計算機視覺
本文通過對視頻理解/分類(Video Understanding/Classification)的基礎(chǔ)和經(jīng)典論文進行梳理,幫助把握整體發(fā)展走向。
背景
隨著通信技術(shù)的發(fā)展,目前已進入全民視頻&音頻時代,各種短視頻、中視頻應用崛起,占據(jù)了大部分生活時間;深度學習視覺技術(shù)的研究焦點,也從單純的圖片向視頻、多模態(tài)領(lǐng)域傾斜。
視頻理解基礎(chǔ)
2.1 3D卷積?
3D 卷積和 2D 卷積的區(qū)別:3D 卷積核多了一層深度的維度,用以提取時間序列信息(包含光流變化等)?
2D 卷積核 shape:(channels,k_height,k_width)?
3D 卷積核 shape:(channels,k_depth,k_height,k_width) ,與 2D 卷積核的本質(zhì)區(qū)別在于是否在 depth 維度進行滑動(可以把 2D 卷積看作 3D 卷積的特殊形式)?
2.2 模型評價標準?
視頻分類 metric:和圖片分類類似,使用 top1,top5 accuracy 評價。
2.3 常用數(shù)據(jù)集
2.4 經(jīng)典模型?
2.4.1 DT及iDT算法(手工提特征,非深度學習方法)?
● DT算法?
流程:密集采樣特征點,特征點軌跡跟蹤,軌跡特征提取。?
1. 密集采樣特征點:使用網(wǎng)格劃分的方法,在二維圖像上進行特征點采樣。同時設(shè)置閾值,去除缺乏變化區(qū)域的采樣點(缺乏變化區(qū)域的特征點后續(xù)難以在時間序列上進行跟蹤,e.g. 白色墻壁中心的點)。?
2. 特征點軌跡跟蹤:通過計算特征點運動方向,得到軌跡向量。特征點運動方向計算公式:,其中 , 和 代表光流方向,M 為中值濾波。即運動方向是以特征點領(lǐng)域內(nèi)光流中值確定的。
3. 軌跡特征提取:對每幀圖像中特征點領(lǐng)域進一步進行網(wǎng)絡劃分,提取 HOG, HOF, MBH 特征,并對特征歸一化后進行編碼。
4. 使用 SVM 對編碼后的視頻特征進行分類。
●?iDT算法?
在 DT 算法上進行改進:光流圖像優(yōu)化,特征歸一化方式改進,特征編碼方式改進(目前一些深度學習方法 ensamble iDT 后會有提升)。
1. 光流圖像優(yōu)化:由于相機運動,背景也存在很多軌跡信息,會對前景的特征采樣造成影響。因此 iDT 專門去除了背景上的特征點。(通過估計相機運動,來消除背景區(qū)域的光流);?
2. 特征歸一化方式改進:使用 L1 正則后再開方,提升約0.5%。(DT 算法使用 L2 范式進行歸一化);?
3. 特征編碼方式改進:使用 Fisher Vector 方式編碼(DT 算法使用 Bag of Features)。
1.4.2 P3D模型
論文標題:
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks
論文來源:
ICCV 2017
論文鏈接:
https://arxiv.org/abs/1711.10305
代碼鏈接:
https://github.com/ZhaofanQiu/pseudo-3d-residual-networks
提出了 3 種 3d 殘差卷積塊,將 3x3x3 的 3D conv 解耦成 1x3x3 的空間卷積(即“S”)以及3x3x1的時間卷積(即“T”),便于減少計算量和使用預訓練模型。?
1.4.3 R(2+1)D模型?
論文標題:
A Closer Look at Spatiotemporal Convolutions for Action Recognition
論文來源:
CVPR 2018
論文鏈接:
https://arxiv.org/abs/1711.11248
代碼鏈接:
https://github.com/facebookresearch/VMZ
證明了在殘差網(wǎng)絡結(jié)構(gòu)中,3D 卷積優(yōu)于 2D 卷積(對于動作識別任務而言);證明了分解 3D conv 為 spatial conv 和 temporal conv 能顯著提升準確率。?
R2D:4 維張量 reshape 成 3 維張量處理;?
MCx:認為動作建模在淺層更必要;?
rMCx:認為動作建模在深層更必要;?
R3D:在所有層都使用 3D conv 進行動作建模;?
R(2+1)D:3D conv 解耦為 2D conv 和 1D conv。
好處:(a) 解耦后增加 relu 層,增加了非線性操作,提升網(wǎng)絡表達能力 (b)解耦之后更容易優(yōu)化,loss 更低。
視頻理解-經(jīng)典論文梳理
3.1 ICCV 2015
論文標題:
Unsupervised Learning of Visual Representations using Videos
所屬領(lǐng)域:
無監(jiān)督學習(利用視頻數(shù)據(jù),ICCV 2015)?
論文鏈接:
https://xiaolonw.github.io/papers/unsupervised_video
代碼鏈接:
https://github.com/xiaolonw/caffe-video_triplet
Background
大量視覺任務使用監(jiān)督學習或者半監(jiān)督的方法來提取特征,并且大部分基于?image。?
Motivation
1. 目前無監(jiān)督學習無法趕超監(jiān)督學習, 瓶頸在哪里?
2. 人類視覺是從動態(tài)的感知信息而不是靜態(tài)圖片中獲取信息的,CNN 能否也從對動態(tài)感知(即視頻數(shù)據(jù))的學習中得到提升??
Method
提出了 siamese network,三個子網(wǎng)絡共享權(quán)重,和 AlexNet 結(jié)構(gòu)類似,在 pool5 后面接了 4096 和 1024 維的全連接層,即每個視頻 patch 最終被映射為 1024 維的向量。?
Input:pair of patches(size:227x227,從視頻幀中提取)?
Output:3 個 1024 維向量?
Loss Function:正則化項 +cos 距離項?
其中,W:權(quán)重 weight,:track 的起始兩個 patch,:從其他 video 中隨機選取的 patch(用來 triplet),:兩個 patch 的 cos 距離,M:兩個距離的 gap 超參,設(shè)置為 0.5。
Details
1. 提取感興趣的 patch(即包含我們想要的 motion 的部分),并跟蹤這些patches,以此來創(chuàng)建 train instances。
● 提取 patch:采用 two-step approach:
(1)獲取 SURF 特征點,然后使用 IDT [1] 中單應性估計方法獲取每個 SURF 特征點的軌跡。
說明:之所以使用這個方法,是因為 youtube 視頻包含很多相機移動的噪聲。IDT 這一步專門去除了相機運動信息。?
(2)獲取了 SURF 點的軌跡后,將移動幅度大于 0.5 像素的點歸類為 “moving” 。
(3)幀過濾:過濾掉(a)包含 moving 類的 SURF 點低于 25%(可能這些是噪聲點) 和(b)包含 moving 類的 SURF 點高于 75% 的幀(可能都是相機的運動)。?
(4)用 227x227 的 bbox 做 sliding window,提取包含最多 moving 點的 bbox 作為該幀的 patch。
● tracking:?
使用 KDF tracker [2] 對前面獲得的 patch 進行跟蹤,track 的第一幀和最后一幀會作為 pair of patches 進行訓練。
2. 如何選擇 negative 樣本?
(1)先隨機選擇:對每個 pair of patches,在同一個 batch 中隨機選擇 K 個 patch 作為 negative patch,得到 K 個 triplet。每個 epoch 都進行 shuffle,確保每 個pair of patches 都能和不同的 negative patch 組合。
(2)訓練大概 10 個 epoch 后,進行 hard negative mining。對每個 pair of patches,將它們和同一個 batch 中其他的 patches 過網(wǎng)絡前向計算,根據(jù) loss (下圖 loss)的大小進行排序,選取 loss 最大的前 K 個(此處 K=4)patch 作為 negative patch。使用這 K 個 patches 進行后續(xù)的訓練。
3. 如何將這個網(wǎng)絡應用到監(jiān)督學習的任務?
(1)方法一:直接將 triplet network 作為預訓練網(wǎng)絡,修改輸出層適應不同任務。
(2)方法二:迭代式訓練。先用 triplet 做預訓練,再將 finetuned network 拿來跑 triplet,最后再對應的任務上做 finetune。?
4. 訓練設(shè)置?
Dataset: Youtube, 100K videos。提取出 8million 的 patches,后續(xù)做 finetune 實驗分別使用 1.5M / 5M / 8M 的數(shù)據(jù);Batchsize:100 ;初始 LR rate:0.001。
Results
1. 直接使用 VOC 訓練,mAP 44.0%;ensemble 3 個模型后,mAP 47.3%(+3.3)。
2. 無監(jiān)督方法的預訓練模型 +VOC finetune, mAP 46.2%;增加無監(jiān)督訓練數(shù)據(jù)后,mAP 47.0%(+0.8)以及 47.5%(+1.3),證明無監(jiān)督模型對特征提取有益。
3. 在 VOC 上 retrieval rate 40%(ImageNet 預訓練模型:62%,但是它已經(jīng)學習過 semantics 了)。
可視化結(jié)果:使用 VOC 2012 val 做 query,然后從訓練數(shù)據(jù)中找 cos 距離最近的 5 張圖。?
3.2 ECCV 2016
論文標題:
TSN-Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
所屬領(lǐng)域:
動作/行為識別(基于視頻,ECCV 2016)
?
論文鏈接:
https://arxiv.org/abs/1608.00859
代碼鏈接:
https://github.com/ZJCV/TSN
Background
基于圖片的動作識別已經(jīng)取得了良好效果,但基于視頻的研究并沒有太大突破。作者認為主要瓶頸在于以下三個方面:?
1. 長時間段的視頻結(jié)構(gòu)包含了豐富的動態(tài)行為信息,但目前的主流研究方法,在實際應用中,受限于計算資源的限制,只能基于短時間段的序列,會丟失一些長時間段中的信息。?大部分在這個方面進行的研究,基于密集的時間間隔采樣:會帶來巨大的計算開銷,在實際應用場景中不適合。?
2. 好的網(wǎng)絡模型需要大量的訓練數(shù)據(jù),目前(論文發(fā)表時)只有 UCF101, HMDB51 數(shù)據(jù)集,數(shù)據(jù)量和類別種類都不夠。?
3. 視頻的動作分類模型還沒有深層網(wǎng)絡(相比于圖像分類模型來說),訓練深層網(wǎng)絡容易造成過擬合。?
Motivation
1. 設(shè)計一種高效的,適用于長時間段視頻的模型;?
2. 在有限的訓練數(shù)據(jù)下實現(xiàn)卷積網(wǎng)絡的學習。?
Methods
設(shè)計了一種 two-stream architecture 的模型,主要創(chuàng)新點在于對完整視頻段進行分割,再對分割段的預測結(jié)果進行整合,從而實現(xiàn)了利用少量幀信息即可獲取完整視頻信息的目的,在滿足資源限制的條件下實現(xiàn)對完整視頻段特征的學習。?
損失函數(shù):?
將每個 Video 劃分為 K 個 segments,然后從每個 segment 里隨機挑選幀組成 snippet,對這些 snippet 分類,聚合分類結(jié)果作為視頻的分類結(jié)果。?
Experiment
視頻的光流特征使用 OpenCV TVL1 optical flow algorithm 進行提取。
1. 對輸入模式和訓練策略進行實驗,結(jié)論:?
(1)使用 Cross modality 和 partial BN with dropout 的方案可以提升精度;?
(2)融合光流、wrap 光流、RGB 輸入的結(jié)果精度最高,92.3%(加 RGB difference 會掉點,如果對計算資源有嚴格要求的時候可以考慮使用) 。
2. 聚合函數(shù)探索,結(jié)論:average 最好。
3. 在 UCF101 上精度 94.2%,HMDB51 69.4%。
3.3 ICCV 2019
論文標題:
SlowFast Networks for Video Recognition
所屬領(lǐng)域:
視頻識別(FAIR,ICCV 2019)
?
論文鏈接:
https://arxiv.org/abs/1812.03982
代碼鏈接:
https://github.com/facebookresearch/SlowFast
Background
目前視頻識別的工作可以分為 3 個方向:利用 3D conv 等來整合時間序列上的信息;使用光流特征來進行學習;two-stream 的網(wǎng)絡結(jié)構(gòu)。
Motivation
1. 受啟發(fā)于生物學結(jié)論:人眼對于快慢動作信息有兩套不同的 path 進行處理,fast path 聚焦快速動作信息,忽略顏色紋理信息,slow path 聚焦顏色紋理,忽略動作。?
2. 常見的 two-stream 結(jié)構(gòu)需要手工提取光流信息,能否設(shè)計一種 end-to-end 的網(wǎng)絡結(jié)構(gòu)??
Methods
設(shè)計了一種 end-to-end 的視頻分類網(wǎng)絡,包含 Slow 和 Fast 兩條學習路徑,Slow path 的數(shù)據(jù)是低幀率的,主要學習空間紋理、顏色信息;Fast Path 是高幀率的,負責學習時間維度上的動作信息。最后對兩路學習結(jié)果進行 fuse。?
設(shè)置 Fast Path 有更高的時間幀率,更小的通道數(shù):?
Experiment
Fast path 有助于提升精度 , 可以達到 SOTA。
3.4 CSN, CVPR
論文標題:
Video Classification with Channel-Separated Convolutional Networks
所屬領(lǐng)域:
視頻分類(FAIR,CVPR 2019)
?
論文鏈接:
https://arxiv.org/abs/1904.02811
代碼鏈接:
https://github.com/facebookresearch/VMZ
Contributions
探究了 3D group conv 的作用,包括“是否能降低計算開銷”,“主要影響因素”,“trade-off 方案” 。
Conclusions
1. 3D group conv 可以有效降低計算開銷。
2. 3D channel-separated conv 有正則化效果,能夠提升測試準確率。
Methods
irCSN 和 ipCSN?
提出兩種 3D 組卷積結(jié)構(gòu)(ip 和 ir):?
(a)resnet 3D conv
(b)ip block(Interaction-preserved channel-separated bottleneck block)
使用一個 1x1x1 卷積和一個 3x3x3 depth wise 卷積替換原來的一個 3x3x3 卷積,由于新增了一個 1x1x1 卷積,因而保留了 channels 之間的連接信息,所以稱為 Interaction-preserved。?
(c)ir block(Interaction-reduced channel-separated bottleneck block)
使用一個 3x3x3 depth wise 卷積替換原來的一個 3x3x3 卷積,由于此處已經(jīng)丟失了部分連接信息,因而稱為 Interaction-reduced。?
Experiments
1. 在 50 和 101 layer 的實驗中,可以超過原始 resnet 結(jié)構(gòu):69.4 -> 70.8,70.6->71.8。
2. ip-CSN 和 resnet 在 kinetics 上 training error 的對比:ip-CSN 有更高的 train error,但是有更低的 test error,證明 ip 結(jié)構(gòu)可以提供正則化效果,防止過擬合。?
3. 在 kinetics 上可以達到 sota:?
簡單過了一遍,總體來說分為兩大陣營:
以 SlowFast 為首的 3D conv 結(jié)構(gòu)(i3D, P3D, R(2+1)D, SlowFast等);
以 TSM 為首的 2D conv 結(jié)構(gòu)(TSM,TSN,TIN)等;
基本也是 trade-off 問題了,3D conv 精度更高,2D conv 速度更快。相信也會像目標檢測一樣,忽然有個逆天結(jié)構(gòu)出來改變賽場模式吧(比如 Transformer?)
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的管中窥“视频”,“理解”一斑 —— 视频理解概览的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 老公姓卢老婆姓江网名怎么取?
- 下一篇: CVPR 2021 | 五官复原效果惊艳