Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记
論文筆記
1 引子
? 在本文中,我們提出了一種新穎的協作時空(CoST)特征學習操作,它與權重共享共同學習時空特征。
? 給定3D體積視頻張量,我們通過從不同角度觀看它們,將其展平為三組2D圖像。 然后將2D卷積應用于每組2D圖像。
圖1示出了來自示例性視頻剪輯的三個視圖的2D快照,其中一個人在體育場高跳。 H-W的視圖是人類熟悉的自然景觀。 通過在時間T上從該視圖逐幀掃描視頻,我們能夠理解視頻內容。 盡管來自涉及T(即T-W和T-H)的視圖的快照難以為人類解釋,但它們包含與正常H-W視圖完全相同的信息量。
作者在給出給出視頻序列的3D向量 T * H * W,作者首先從不同的視角把它分解成3個2D圖像集合,然后用卷積操作分別對三個圖像集合進行卷積。從三個視角得到的視頻序列分別是
1 H-W視角,就是把H-W看作一個平面,T作為單獨的一個維度把平面擴充。
2 T-W視角,就是把T-W看做一個平面,H作為單獨的一個維度把平面擴充
3 T-H視角,就是把T-H看做一個平面,W作為一個單獨的維度把平面擴充。
這樣的設計可以讓每一幀都包含豐富的動作信息,而不是在兩幀之間有動作信息,使用2D卷積可以直接捕捉時序動作線索,另外可以使用2D卷積學習時空特征而不用3D特征。
2 CoST
2.1 cost與 c3d 比較:
下圖對比CoST操作和C3D(3x3x3)和C3D(3x1x1),C3D(3x3x3)利用3D卷積把時間和空間特征聯合提取出來,C3D(3x1x1)首先用3x1x1的卷積提取時間上的特征,然后用1x3x3的卷積提取空間特征。
作者用3個3x3的2D卷積核從三個視角分別進行卷積操作,然后通過加權求和將三個特征圖進行融合,需要注意的是,這里三個卷積核參數是共享的!!!。
注釋:三個卷積核參數共享使得cost的參數量遠少于C3D,在github非官方的cost模型實現中,cost模型參數量幾乎是C3D的1/3。如果沒有參數共享,cost在參數量上與C3D相當。同時作者在論文中也詳細給出了參數能共享的原因。)
2.2 CoST(b)結構
作者設計兩種CoST結構,這里只講CoST(b)結構。 如圖所示:
輸入的的X是T×H×W×C1,C是輸入特征的通道,三個視角的卷積操作可以表示為:
其中?表示3D卷積操作,w是增加一個維度的三個視角的共享參數。
這里的卷積可以理解為:對于H-W視角,把H-W看做一個平面,T看做是平面的堆疊,其中每一個平面有C1個通道。如果單獨的看一個平面,只對一個平面進行卷積操作,則卷積核的大小為C1x3x3,卷積結果大小為H×W。從視角出發,共有T個這樣的平面,則所用的平面進行卷積之后,大小為T×H×W。因為一共用C2個卷積核,所以經過卷積之后特征圖的大小為T×H×W×C2.上述的公式中忽略了平面的通道數C1.
得到三個視角的特征后,對其進行加權求和得到該層的最終輸出:
α=[αhw,αtw,αth],其中α是一個C2×3大小的矩陣,其中3表示三個視角,C2表示得到特征圖的通道數。為了避免從多個視圖得到的響應發生巨大的爆炸,用softmax對α進行歸一化處理。
系數α是基于特征被網絡預測得到的,這個設計靈感來源于self-attention。每個樣本的系數值取決于樣本自己。
在上圖中,首先用全局pooling將三個視角的特征pooling為1x1x1,然后用1x1×1的卷積核進行卷積,這里的參數是共享的,接下來拼接在一起然后送入到全連接層,(特別的,在, the three sets of features feeds intoa fully connected (FC) layer, FC layer is applied to each row of the C2 × 3 matrix, which captures the contextual information among different views.)最后用softmax進行歸一化處理。
非官方源代碼分析 點擊這里
參考 :
[1] 非常感謝 https://zhuanlan.zhihu.com/p/111704731 ,不妥侵刪
總結
以上是生活随笔為你收集整理的Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字典树c语言,字典树的应用 单词意义查找
- 下一篇: 【论文阅读-句向量】Whitening