當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020年, video captioning论文汇总

發布時間：2025/3/15 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了 2020年, video captioning论文汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CVPR2020：ORG-TRL

題目
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
下載鏈接
動機
貢獻
方法
實驗

CVPR2020：STG-KD

題目
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
下載鏈接
動機
已有的video captioning方法中，使用object-level或scene-level的信息生成captions，而不考慮objects之間的交互，這樣生成的captions缺乏可解釋性。本文提出在空間和時間兩個維度上考慮objects之間的關系。
貢獻

本文提出了新穎的時空圖網絡（ spatio-temporal graph network），用于video captioning。

本文提出了基于對象感知的知識蒸餾機制（object-aware knowledge distillation mechanism），用于處理時空圖網絡中的noisy features。

方法
本文方法的整體框架如下圖所示。其中，從Transformer到output之間存在一條線，作者為了圖像清晰沒有畫出來。
實驗
在MSR-VTT上的實驗結果：

在MSVD上的實驗結果：

在MSVD上的消融實驗：

一些實驗結果，其中對比的方法出自ICCV 2019。

TIP2020：OSTG

題目
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
下載鏈接
動機
本文方法和STG-KD幾乎一致，作者認為準確的video captioning需要不僅需要考慮整體內容和顯著物體，還要考慮物體間的關系（時間+空間）。
貢獻

雙向時間對齊（Bidirectional temporal alignment）。在兩個時間方向上對objects進行對齊，可以實現互補。

基于圖的空間關系學習（Graph based spatial relation learning）。使用圖卷積捕獲每幀中的物體之間的關系，將結果輸入到后續的處理中，提高captions的準確性。

基于對象感知的特征聚合（Object-aware feature aggregation）。本文在物體的雙向軌跡（the bidirectional trajectories of objects）上構造trainable VLAD（Vector of Locally Aggregated Descriptors），可以學到每個物體的具有判別力的特征。

方法
本文方法的整體框架如下圖所示。其中，VLAD（vector of locally aggregated descriptors）出自
實驗
在 MSVD數據集上的實驗結果：

在MSR-VTT上的實驗結果：

消融實驗：

TPAMI2020：SibNet（MM2018）

題目
SibNet: Sibling Convolutional Encoder for Video Captioning
下載鏈接
動機
現有的方法中，編碼video的信息時，常使用“一條線”（a single flow），本文為了更好的編碼video信息，提出了“兩條線”（two-branch）方法。其中，第一個分支（內容分支，content branch）使用自編碼器編碼video的視覺內容。第二個分支（語義分支，semantic branch）使用視覺-語義嵌入編碼video的語義信息。然后，使用soft-attention將二者聯合，再使用RNN進行解碼，得到最終輸出。
貢獻

提出Sibling Convolutional Encoder (SibNet)，由兩個分支組成，內容分支負責捕獲視覺信息，語義分支用于生成“特定語義（semantic-specific）”的表示，這種表示可以捕獲某些幀在語義上的重要性，為內容分支提供補充。

本文設計了新的損失函數，由三項組成，分別是：content loss、semantic loss、decoder loss。

方法
本文方法的整體架構如下圖所示。

上圖中，TCB（temporal convolutional blocks）是本文提出的一個模塊，其結構如下圖所示。
實驗
在MSVD上的實驗結果：

在MSR-VTT上的實驗結果：

消融實驗：

與其他模型的參數量對比：

一些實驗結果展示：

WACV2020：DSD

題目
Domain-Specific Semantics Guided Approach to Video Captioning
下載鏈接
動機
這篇文章的出發點有些類似于Tracking中的MDNet，基于video features進行domain分類，對于每個domain都有一個語義特定的decoder。
貢獻

提出領域特定（domain-specific）方法，使用領域特定的語義tags進行video captioning。

提出一種同時使用視覺特征和語義特征對video進行domain分類的方法。

提出一種視頻共享的方法生成不同domain的decoder。

提出使用temporal VLAD聚合使用2D-CNN和3D-CNN模型提取的視頻幀的描述符。

方法
本文方法的整體框架如下圖所示。關于domain，本文使用tags進行聚類，得到多個domain。
實驗
消融實驗：

在MSVD數據集上的實驗結果：

在MSR-VTT數據集上的實驗結果：

實驗結果展示：

WACV2020：STaTS

題目
Spatio-Temporal Ranked-Attention Networks for Video Captioning
下載鏈接
動機
本文從空間和時間的角度出發，提出在模型中同時添加兩種不同的attention，并分兩條線、兩種順序添加。第一條線是先S后T，另一條線是先T后S。并在第一條線上添加了本文提出的Ranked Attention。
貢獻

提出s-t和t-s模型，兩條線可以實現互補。

提出ranked attention，使用LSTM對rank-SVM進行仿真。

實驗表明達到了sota。

方法
本文方法的整體架構如下圖所示。

其中，ST模塊的結構如下圖所示。其中，Ranked Attention即為ST中的T。

其中，TS模塊的結構如下圖所示。
實驗
使用不同特征，在MSVD和MSR-VTT上的實驗結果：

在MSVD上與SOTA相比：

在MSR-VTT上與SOTA相比：

總結

以上是生活随笔為你收集整理的2020年, video captioning论文汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2020年, VQA论文汇总
下一篇： 2020年, image caption