Image Captioning概述
目錄
- 任務描述
- 應用領域
- 主要問題
- 主流框架
- 常用數據集
- Metrics
Metrics的部分內容參考自知乎
任務描述
- 輸入:圖片III
- 輸出:由 nnn個單詞組成的圖片內容描述S={s1,...,sn}S=\{ s_1,...,s_n \}S={s1?,...,sn?}
應用領域
- 圖文互搜
- (細粒度)圖像檢索
- 對視覺障礙者進行輔助
主要問題
-
dataset bias
已有方法:將cnn特征分解為object、attributes、relation、function等
參考文獻:[1] ICCV 2019 Learning to Collocate Neural Modules for Image Captioning -
long tail
long tail本身也算作dataset bias的一種,在很多task中普遍存在。單獨列出來的原因是,有的方法專門針對long tail問題進行優化。
已有方法:按頻率多階段訓練
參考文獻:[1] CVPR 2020 Learning to Segment the Tail -
數據集標注昂貴
已有方法:無監督
參考文獻:[1] CVPR 2019 Unsupervised Image Captioning
? ? ? ? ? ? ? ? ?[2] ICCV 2019 Unpaired Image Captioning via Scene Graph Alignments -
模型的recall低、多樣性低
已有方法:改進損失函數、可控的Captioning
參考文獻:[1] CVPR 2020 Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
? ? ? ? ? ? ? ? ?[2] CVPR 2020 Better Captioning with Sequence-Level Exploration
? ? ? ? ? ? ? ? ?[3] CVPR 2019 Intention Oriented Image Captions with Guiding Objects
? ? ? ? ? ? ? ? ?[4] CVPR 2019 Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions
? ? ? ? ? ? ? ? ?[5] CVPR 2019 Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech
? ? ? ? ? ? ? ? ?[6] CVPR 2016 DenseCap: Fully Convolutional Localization Networks for Dense Captioning -
生成的結果不夠human-like
已有方法:使用貢獻字典引入先驗知識
參考文獻:[1] CVPR 2019 Auto-Encoding Scene Graphs for Image Captioning -
長序列建模問題
已有方法:探索單詞之間的連貫性
參考文獻:[1] CVPR 2019 Reflective Decoding Network for Image Captioning -
提升grounding能力
已有方法:知識蒸餾+強化學習
參考文獻:[1] CVPR 2019 More Grounded Image Captioning by Distilling Image-Text Matching Model -
網絡結構優化
已有方法:對self attention進行改進
參考文獻:[1] CVPR 2020 Normalized and Geometry-Aware Self-Attention Network
for Image Captioning
主流框架
- encoder + decoder結構,對圖片的regions信息進行編碼,建立不同objects之間的關系后,使用decoder解碼,生成sentence。encoder部分常使用CNN,decoder部分為RNNs,后由于Transformer的興起,RNN被替換為了SANs(Self Attention Networks)。
常用數據集
- Flickr30k Entities
下載鏈接
論文原文 - MS-COCO Karpathy
下載鏈接
論文原文
Metrics
-
BLEU-n(Bilingual Evaluation Understudy,雙語評估輔助工具):比較候選譯文和參考譯文里的 n-gram 的重合程度,重合程度越高就認為譯文質量越高。把sentence劃分成長度為n個單詞的短語,統計它們在標準譯文中的出現次數,除以劃分總數。
-
(mBleu-4, best-k):對于一個image,選擇生成的最好的k個captions,對于每個caption,計算其與其他k-1個captions的BLEU-4值,再取平均。值越低,多樣性越高。
-
METEOR(Metric for Evaluation of Translation with Explicit ORdering,顯式排序的翻譯評估指標):計算生成結果和參考譯文之間的準確率和召回率的調和平均。
-
ROUGE(Recall-Oriented Understudy for Gisting Evaluation,面向召回率的摘要評估輔助工具):大致分為四種:ROUGE-N,ROUGE-L,ROUGE-W,ROUGE-S。常用的是前兩種(-N與-L)。ROUGE-N中的“N”指的是N-gram,其計算方式與BLEU類似,只是BLEU基于精確率,而ROUGE基于召回率。ROUGE-L中的“L”指的是Longest Common Subsequence,計算的是候選摘要與參考摘要的最長公共子序列長度,長度越長,得分越高,基于F值。
-
CIDEr(Consensus-based Image Description Evaluation,基于共識的圖像描述評估):把每個句子看成文檔,然后計算其 TF-IDF 向量(注意向量的每個維度表示的是n-gram 而不一定是單詞)的余弦夾角,據此得到候選句子和參考句子的相似度。
-
SPICE(Semantic Propositional Image Caption Evaluation,語義命題圖像標題評估):SPICE 使用基于圖的語義表示來編碼 caption 中的 objects, attributes 和 relationships。它先將待評價 caption 和參考 captions 用 Probabilistic Context-Free Grammar (PCFG) dependency parser parse 成 syntactic dependencies trees,然后用基于規則的方法把 dependency tree 映射成 scene graphs。最后計算待評價的 caption 中 objects, attributes 和 relationships 的 F-score 值。
總結
以上是生活随笔為你收集整理的Image Captioning概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IJCAI 2019 《GraspSno
- 下一篇: Visual Question Answ