2020年, video captioning论文汇总
生活随笔
收集整理的這篇文章主要介紹了
2020年, video captioning论文汇总
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- CVPR2020:ORG-TRL
- CVPR2020:STG-KD
- TIP2020:OSTG
- TPAMI2020:SibNet(MM2018)
- WACV2020:DSD
- WACV2020:STaTS
CVPR2020:ORG-TRL
- 題目
Object Relational Graph with Teacher-Recommended Learning for Video Captioning
下載鏈接 - 動機
- 貢獻
- 方法
- 實驗
CVPR2020:STG-KD
- 題目
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation
下載鏈接 - 動機
已有的video captioning方法中,使用object-level或scene-level的信息生成captions,而不考慮objects之間的交互,這樣生成的captions缺乏可解釋性。本文提出在空間和時間兩個維度上考慮objects之間的關系。
- 貢獻
- 方法
本文方法的整體框架如下圖所示。其中,從Transformer到output之間存在一條線,作者為了圖像清晰沒有畫出來。
- 實驗
在MSR-VTT上的實驗結果:
在MSVD上的實驗結果:
在MSVD上的消融實驗:
一些實驗結果,其中對比的方法出自ICCV 2019。
TIP2020:OSTG
- 題目
Video Captioning with Object-Aware Spatio-Temporal Correlation and Aggregation
下載鏈接 - 動機
本文方法和STG-KD幾乎一致,作者認為準確的video captioning需要不僅需要考慮整體內容和顯著物體,還要考慮物體間的關系(時間+空間)。
- 貢獻
- 方法
本文方法的整體框架如下圖所示。其中,VLAD(vector of locally aggregated descriptors)出自
- 實驗
在 MSVD數據集上的實驗結果:
在MSR-VTT上的實驗結果:
消融實驗:
TPAMI2020:SibNet(MM2018)
- 題目
SibNet: Sibling Convolutional Encoder for Video Captioning
下載鏈接 - 動機
現有的方法中,編碼video的信息時,常使用“一條線”(a single flow),本文為了更好的編碼video信息,提出了“兩條線”(two-branch)方法。其中,第一個分支(內容分支,content branch)使用自編碼器編碼video的視覺內容。第二個分支(語義分支,semantic branch)使用視覺-語義嵌入編碼video的語義信息。然后,使用soft-attention將二者聯合,再使用RNN進行解碼,得到最終輸出。
- 貢獻
- 方法
本文方法的整體架構如下圖所示。
上圖中,TCB(temporal convolutional blocks)是本文提出的一個模塊,其結構如下圖所示。
- 實驗
在MSVD上的實驗結果:
在MSR-VTT上的實驗結果:
消融實驗:
與其他模型的參數量對比:
一些實驗結果展示:
WACV2020:DSD
- 題目
Domain-Specific Semantics Guided Approach to Video Captioning
下載鏈接 - 動機
這篇文章的出發點有些類似于Tracking中的MDNet,基于video features進行domain分類,對于每個domain都有一個語義特定的decoder。
- 貢獻
- 方法
本文方法的整體框架如下圖所示。關于domain,本文使用tags進行聚類,得到多個domain。
- 實驗
消融實驗:
在MSVD數據集上的實驗結果:
在MSR-VTT數據集上的實驗結果:
實驗結果展示:
WACV2020:STaTS
- 題目
Spatio-Temporal Ranked-Attention Networks for Video Captioning
下載鏈接 - 動機
本文從空間和時間的角度出發,提出在模型中同時添加兩種不同的attention,并分兩條線、兩種順序添加。第一條線是先S后T,另一條線是先T后S。并在第一條線上添加了本文提出的Ranked Attention。 - 貢獻
- 方法
本文方法的整體架構如下圖所示。
其中,ST模塊的結構如下圖所示。其中,Ranked Attention即為ST中的T。
其中,TS模塊的結構如下圖所示。
- 實驗
使用不同特征,在MSVD和MSR-VTT上的實驗結果:
在MSVD上與SOTA相比:
在MSR-VTT上與SOTA相比:
總結
以上是生活随笔為你收集整理的2020年, video captioning论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2020年, VQA论文汇总
- 下一篇: 2020年, image caption