當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记

發布時間：2023/12/8 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

論文筆記

1 引子

? 在本文中，我們提出了一種新穎的協作時空（CoST）特征學習操作，它與權重共享共同學習時空特征。

? 給定3D體積視頻張量，我們通過從不同角度觀看它們，將其展平為三組2D圖像。然后將2D卷積應用于每組2D圖像。

圖1示出了來自示例性視頻剪輯的三個視圖的2D快照，其中一個人在體育場高跳。 H-W的視圖是人類熟悉的自然景觀。通過在時間T上從該視圖逐幀掃描視頻，我們能夠理解視頻內容。盡管來自涉及T（即T-W和T-H）的視圖的快照難以為人類解釋，但它們包含與正常H-W視圖完全相同的信息量。

作者在給出給出視頻序列的3D向量 T * H * W，作者首先從不同的視角把它分解成3個2D圖像集合，然后用卷積操作分別對三個圖像集合進行卷積。從三個視角得到的視頻序列分別是

1 H-W視角，就是把H-W看作一個平面，T作為單獨的一個維度把平面擴充。

2 T-W視角，就是把T-W看做一個平面，H作為單獨的一個維度把平面擴充

3 T-H視角，就是把T-H看做一個平面，W作為一個單獨的維度把平面擴充。

這樣的設計可以讓每一幀都包含豐富的動作信息，而不是在兩幀之間有動作信息，使用2D卷積可以直接捕捉時序動作線索，另外可以使用2D卷積學習時空特征而不用3D特征。

2 CoST

2.1 cost與 c3d 比較：

下圖對比CoST操作和C3D（3x3x3）和C3D（3x1x1），C3D（3x3x3）利用3D卷積把時間和空間特征聯合提取出來，C3D（3x1x1）首先用3x1x1的卷積提取時間上的特征，然后用1x3x3的卷積提取空間特征。

作者用3個3x3的2D卷積核從三個視角分別進行卷積操作，然后通過加權求和將三個特征圖進行融合，需要注意的是，這里三個卷積核參數是共享的！！！。

注釋：三個卷積核參數共享使得cost的參數量遠少于C3D，在github非官方的cost模型實現中，cost模型參數量幾乎是C3D的1/3。如果沒有參數共享，cost在參數量上與C3D相當。同時作者在論文中也詳細給出了參數能共享的原因。）

2.2 CoST(b)結構

作者設計兩種CoST結構，這里只講CoST(b)結構。如圖所示：

輸入的的X是T×H×W×C1，C是輸入特征的通道，三個視角的卷積操作可以表示為：

其中?表示3D卷積操作，w是增加一個維度的三個視角的共享參數。

這里的卷積可以理解為：對于H-W視角，把H-W看做一個平面，T看做是平面的堆疊，其中每一個平面有C1個通道。如果單獨的看一個平面，只對一個平面進行卷積操作，則卷積核的大小為C1x3x3，卷積結果大小為H×W。從視角出發，共有T個這樣的平面，則所用的平面進行卷積之后，大小為T×H×W。因為一共用C2個卷積核，所以經過卷積之后特征圖的大小為T×H×W×C2.上述的公式中忽略了平面的通道數C1.

得到三個視角的特征后，對其進行加權求和得到該層的最終輸出：

α=[αhw,αtw,αth],其中α是一個C2×3大小的矩陣，其中3表示三個視角，C2表示得到特征圖的通道數。為了避免從多個視圖得到的響應發生巨大的爆炸，用softmax對α進行歸一化處理。

系數α是基于特征被網絡預測得到的，這個設計靈感來源于self-attention。每個樣本的系數值取決于樣本自己。

在上圖中，首先用全局pooling將三個視角的特征pooling為1x1x1，然后用1x1×1的卷積核進行卷積，這里的參數是共享的，接下來拼接在一起然后送入到全連接層，（特別的，在, the three sets of features feeds intoa fully connected (FC) layer， FC layer is applied to each row of the C2 × 3 matrix, which captures the contextual information among different views.）最后用softmax進行歸一化處理。

非官方源代碼分析點擊這里

參考：
[1] 非常感謝 https://zhuanlan.zhihu.com/p/111704731 ,不妥侵刪

總結

以上是生活随笔為你收集整理的Collaborative Spatiotemporal Feature Learning for Video Action Recognition 论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：字典树c语言,字典树的应用单词意义查找
下一篇：【论文阅读-句向量】Whitening