让机器学会看图说话:Image Caption任务最新综述
?PaperWeekly 原創 ·?作者?|?張一帆
學校?|?華南理工大學本科生
研究方向?|?CV,Causality
Abstract
聯系視覺和語言在通用人工智能中起著至關重要的作用。因此近幾年來大量的工作致力于圖像字幕(image captioning),這項任務簡而言之就是“使用語法和語義正確的語言描述圖像”。
從 2015 年開始這項任務的 pipeline 就被分為了兩部分,第一階段即對圖像特征進行編碼,第二階段生成語句。這兩年來,隨著對物體對象區域,屬性,以及物體之間的關系的開發,和對多模態連接,全注意力方法以及像 BERT 一樣的早期融合方法的引入,這兩個階段都得到了極大的發展。雖然性能是提升了,但是圖像字幕依然沒有得到一個“最終答案”。
這篇工作旨在提供一個綜合性的概述以及對現有方法的分門別類,它的分類方式大概是根據如下方面的不同:1. 視覺編碼;2. 文本生成;3. 訓練策略;4. 數據集;5. 評測指標。
文中定量地比較了圖像字幕很多模型,以此來找出最有影響力的網絡結構和訓練策略方面的技術革新。除此之外,文中還討論了大量的變體方法和他們面臨的挑戰。這項工作的最終目標是作為一個工具來理解現有的最先進的技術,并強調計算機視覺和自然語言處理可以找到最佳協同的未來研究方向。
論文標題:
From Show to Tell: A Survey on Image Captioning
論文鏈接:
https://arxiv.org/abs/2107.06912
Introduction
圖像字幕即使用自然語言描述圖像,使用一個圖像理解模塊和一個自然語言生成模塊。神經科學在近幾年里闡述了人類語言和視覺之間的聯系。同樣的,在 AI 領域能夠處理圖像和生成語言的架構的設計是一個非常新的問題。這些研究工作的目標是找到最有效的 pipeline 來處理輸入圖像,表示其內容,并在保持語言流暢性的同時產生視覺元素和文本元素之間的聯系,將其轉換為單詞序列。
在其標準配置中,圖像字幕是一個圖像到序列的問題,其輸入是像素。在視覺編碼步驟中,這些特征被編碼為一個或多個特征向量,為第二個生成步驟(稱為語言模型)準備輸入。這就產生了一個根據給定詞匯解碼的單詞或子單詞序列。
在這幾年里,研究團體對模型進行了很大的改進:從第一個基于深度學習的建議,采用循環神經網絡(RNNs),通過卷積神經網絡(CNN)提取全局圖像描述,之后還引進了注意力和強化學習等方法。直到最近 transformer 和注意力機制取得了巨大突破,類似于 BERT 這種 single-stream 的方法開始興起。
與此同時,計算機視覺和自然語言處理(NLP)社區已經解決了建立適當的評估協議和評估指標的挑戰,以將結果與人工生成的 ground truth 進行比較。除此之外,研究人員還研究了幾個領域特定的場景和任務的變體。然而,已經取得的成果還遠未確定一個最優的解決方案。
根據字幕模型固有的兩階段性質,本文開發了視覺編碼和語言建模方法的分類,重點關注它們的關鍵突破和局限性。本文還關注了過去幾年文獻中遵循的訓練策略,從交叉熵損失到強化學習,以及預訓練范式獲得的最新進展。此外,本文回顧了用于研究圖像字幕的主要數據集,從領域通用的基準測試到收集的領域特定的數據集,以調查問題的某些特殊方面,并分析用于性能評估的標準和非標準指標,這些指標捕獲了產生的標題質量的不同方面。
這項工作的另一個貢獻是對主要圖像字幕方法的定量比較,其中考慮了標準和非標準指標,并討論了它們之間的關系,揭示了最重要的模型的性能、差異和特征。最后,本文概述了該問題的許多變體,并討論了一些開放的挑戰和未來的方向。
Conclusion and Future Direction
圖像字幕是機器智能面臨的一個復雜挑戰,因為它包含了了計算機視覺和自然語言生成兩方面的困難。雖然大多數方法保持了圖像編碼和語言建模步驟的分離,但類似 BERT 架構的 single-stream 趨勢需要對可視化數據和文本數據進行早期融合。這種策略可以讓你取得出色的表現,但通常與大規模的預訓練相結合。因此,添加了預處理的標準 img2seq 方法能否達到類似的效果是值得研究的。盡管如此,基于經典兩階段范式的方法更易于解釋,無論是對模型設計者還是最終用戶。
文獻綜述和實驗比較表明,在過去的幾年中圖像字幕的性能有所改善。然而,由于準確性、穩健性和泛化結果遠不能令人滿意,許多開放的挑戰仍然存在。同樣,忠誠、自然和多樣性的要求也沒有得到滿足。在這方面,由于圖像字幕的構思是為了改善人機交互,將用戶納入循環這種思路是有希望的。基于以上分析,我們可以追蹤到圖像字幕領域的三個主要發展方向,下面將進行討論。
3.1 Procedural and architectural changes
訓練方式和模型架構的轉換是提升性能的關鍵:
Large-scale vision-and-language pre-training: 由于圖像字幕模型對數據的需求很大,在標準數據集的訓練可能提升有限。因此,在大范圍的視覺和語言數據集上進行預訓練,雖然現在沒有得到很好的管理,但它也是提高字幕能力的可靠策略。此外,可以設計新的預訓練策略,以自監督的方式利用現有的數據。通過重建輸入預測相關性,最終提高下游任務比如圖像字幕的性能。
Novel ?architectures ?and ?training ?strategies:目前,圖像字幕的最佳執行范式是自底向上范式,它利用對象檢測器進行圖像區域編碼。盡管如此,研究工作探索了一種完全基于 transformer 的范例,其中圖像 patch 直接應用于變 transformer 編碼器,如最近流行的 ViT:Vision Transformer。雖然這第一次嘗試的性能低于大多數以前的工作,但它表明這可能是一個有價值的未來方向。其他有前途的方向包括探索 Neural Architecture Search,以及將蒸餾機制應用于自回歸模型。最后,一個有希望的探索方向是培訓新目標函數的設計。特別是當強化學習進行時,可以考慮基于人類反饋或互動的獎勵。
3.2 Focus on the open challenges
對不同領域的泛化和生成字幕的多樣性和自然性的增加是圖像字幕的主要挑戰之一。
Generalizing to different domains:圖像字幕模型通常是在數據集上訓練的,這些數據集不能覆蓋所有可能的現實場景,因此不能很好地概括到不同的上下文。例如上圖中,有一些定性的結果存在明顯的錯誤,這表明在處理罕見的視覺概念時存在困難。在這個方面仍需要進一步的研究努力,構建一個一個強大的視覺概念表示。此外,圖像字幕變體的發展,如新奇物體字幕或可控制字幕可以幫助解決這個懸而未決的問題。這將是在特定應用中采用圖像說明的戰略,如醫藥、工業產品描述或文化遺產。
Diversity and natural generation:圖像字幕模型應該產生具有三個屬性的描述:語義忠實度,即反映實際的視覺內容;自然,即讀起來就像是一個人寫的一樣;多樣性,表達不同人會描述的明顯不同的概念。然而,大多數現有的方法只強調語義忠實度。雖然本文討論了一些工作嘗試使用對比學習、變分自動編碼器、詞性標注來促進自然和多樣性,但還需要進一步研究來設計適合現實應用的模型。
3.3 Design of trustworthy AI solutions
由于其在人機交互中的潛力,圖像字幕需要的解決方案是透明的和最終用戶可接受的,需要的框架可以產生可解釋的結果,克服偏見,能夠得到充分的評估。
The ?need ?for ?interpretability:人們可以自然地給出解釋,強調證據,對他們的預測表達信心,也認識到在得出結論之前需要更多的信息。相反,現有的圖像字幕算法缺乏可靠和可解釋的方法來找到產生特定輸出的原因。在這方面,一種可能的策略可以基于注意力的可視化,它松散地耦合單詞預測和圖像區域,表明相關性。然而,目前還需要進一步的研究來闡明模型的可解釋性,重點是這些模型如何處理來自不同模態或新概念的數據。
Tackling ? datasets ? bias:由于大多數視覺和語言數據集共享共同的模式和規律,記錄這些模式為算法提供了一條利用虛假相關性的捷徑。因此,數據集因為人類文本注釋或過度表示的視覺概念而產生的有偏差(bias)是任何視覺和語言任務的主要問題。這一主題已經在語言生成的背景下進行了研究,但在圖像字幕中更具有挑戰性,在圖像字幕中必須考慮視覺和文本數據的聯合歧義。從這個意義上說,應該對圖像-描述對的公平性和有偏性進行研究。在這方面,兩個可能的方向需要設計特定的評估指標和關注對虛假相關性的魯棒性。
The role of evaluation:盡管在基準數據集上具有良好的性能,但在自然場景下(數據集更自然更復雜),最先進的方法還不令人滿意。一個可能的原因是所使用的評價程序及其對目前采用的訓練方法的影響。圖像字幕算法被訓練成模仿真實句子,這與理解視覺內容并將其表達為文本是不同的任務。因此,設計合適的、可重復的評估方案和有洞察力的指標在圖像字幕中仍然是一個公開的挑戰。此外,由于該任務目前被定義為有監督的任務,因此受到訓練數據的強烈影響,開發不需要參考字幕來評估表現的分數將是轉向無監督圖像字幕的關鍵。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的让机器学会看图说话:Image Caption任务最新综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7自检通过不了怎么办 如何解决wi
- 下一篇: 深圳招聘 | 元象唯思:决策AI研发工程