ICCV 2019 | VrR-VG:聚焦视觉相关关系
作者丨梁遠智
學校丨西安交通大學碩士生
研究方向丨視覺關系
本文提出視覺相關的對象關系在語義理解上有更高的價值。在視覺關系學習表達中,我們需要關注于視覺相關關系,而避免對于視覺無關的信息學習。由于現(xiàn)有數(shù)據(jù)中存在大量的非視覺的先驗信息,方法上很容易學到簡單的位置關系或單一固定關系,而不具備進一步推測學習語義信息的能力。從而導致現(xiàn)有關系數(shù)據(jù)的表征并不能明顯提升語義相關任務性能。
而本文提出明確了視覺關系學習中什么是值得學習的,什么是需要學習的。并且通過實驗,也驗證了所提出的視覺相關關系數(shù)據(jù)可以有效的提升特征的語義理解能力。
數(shù)據(jù)及項目網(wǎng)站:http://vrr-vg.com/
引文
在計算機視覺的研究中,感知任務(如分類、檢測、分割等)旨在準確表示單個物體對象信息;認知任務(如看圖說話、問答系統(tǒng)等)旨在深入理解整體場景的語義信息。而從單個物體對象到整體場景,視覺關系表征兩個物體之間的交互,連接多個物體構成整體場景。關系數(shù)據(jù)可以作為物體感知任務和語義認知任務之間的橋梁和紐帶,具有很高的研究價值。?
考慮到關系數(shù)據(jù)在語義上的這種紐帶的作用,對象關系數(shù)據(jù)應當有效的推進計算機視覺方法對于場景語義理解上的能力。構建從單物體感知,到關系語義理解,到整體場景認知,由微觀到宏觀,由局部到整體的層次化的視覺理解能力。?
但現(xiàn)有關系數(shù)據(jù)中,由于大量先驗偏置信息的存在,導致關系數(shù)據(jù)的特征并不能有效的利用在語義理解中。其中,位置關系如“on”, “at”等將關系的推理退化為對象檢測任務,而單一固定的關系,如“wear”,“has”等,由于數(shù)據(jù)中主體客體組合搭配固定,此類關系將關系推理退化為簡單演繹推理。
因此這些關系數(shù)據(jù)的大量存在,導致關系特征的學習更多傾向于對單物體感知,而非真正的對場景語義的理解,從而無法使關系數(shù)據(jù)發(fā)揮的作用。同時,這種語義上的、學習上的先驗偏置,無法通過常規(guī)的基于頻率或規(guī)則的方法篩選剔除,這導致上述數(shù)據(jù)端的問題阻礙了關系語義理解上的發(fā)展與研究,使得視覺對象關系的研究與語義理解的目標漸行漸遠。?
本文首先提出視覺相關假設和視覺相關關系判別網(wǎng)絡來構建具有更高語義價值的數(shù)據(jù)集。我們認為,許多關系數(shù)據(jù)不需要理解圖像,僅僅通過單物體感知上的標簽信息(如 bounding box, class)就可以推斷的是關系學習中應避免的,即非視覺相關關系。而在關系數(shù)據(jù)中,對于視覺相關關系的學習與理解,將逼迫網(wǎng)絡通過圖像上的視覺信息,推理得到關系語義信息,而不是依賴基于單物體感知的能力,擬合先驗偏置的標簽。?
在我們的方法中,我們設計了一個視覺相關判別網(wǎng)絡,通過網(wǎng)絡自主的學習,分辨那些僅通過一些標簽信息即可推斷的非視覺相關關系,從而保證數(shù)據(jù)中留存的都是具有高語義價值的視覺相關關系。此外,我們設計了一個考慮關系的聯(lián)合訓練方法,有效的學習關系標簽的信息。
在實驗中,我們從兩個方面驗證了我們的想法。關系表征學習中,在場景圖生成任務上,我們的視覺相關關系有效的拉大了學習型方法與非學習型方法之間的性能差距,由此證明了非視覺關系是關系數(shù)據(jù)中的先驗偏置且通過簡單方法即可推斷。另一方面,通過學習視覺相關關系,我們得到的特征具有更好的語義表達與理解能力。該特征也在問答系統(tǒng)、看圖說話中展現(xiàn)出更好的性能,由此證明了視覺相關關系是真正需要被學習,且更有利于提升語義理解能力。
方法
視覺相關判別網(wǎng)絡(VD-Net)
提出的 VD-Net 用于分辨對象關系是否視覺相關。網(wǎng)絡僅需要物體對象的位置信息 bounding box 和類別信息 class,并將兩種信息做編碼輸入,而不考慮圖像信息。具體輸入如下。?
位置編碼:
其中含有物體中心點、寬高、位置關系信息、尺寸信息等。?
針對類別信息,我們使用類別標簽的 glove 特征向量作為輸入。網(wǎng)絡設置如下:
為了避免過擬合,網(wǎng)絡設計需要盡可能的小。網(wǎng)絡包含 4 個全連接層,其中,?,?分別是主體、客體的位置編碼及二者聯(lián)合位置編碼。,?分別是主體、客體對象的類別詞向量。
通過 VD-Net 網(wǎng)絡的學習,可以發(fā)現(xiàn)現(xiàn)有的數(shù)據(jù)集中,關系預測具有很高的準確率,在 VG150 中,37% 的標簽在 VD-Net 中有至少 50% 的準確率。?
考慮關系信息的聯(lián)合特征學習
我們提出的方法如下:
其中,我們使用 Faster-RCNN 用于特征提取,f(I) 取自于 RPN 部分。網(wǎng)絡綜合的學習位置、類別、屬性和關系信息。通過對象關系的信息,進一步拓展特征的語義表征能力。
實驗
場景圖生成實驗
Freqency-Baseline 是非學習型方法,基于對數(shù)據(jù)的統(tǒng)計。在我們的實驗中,VrR-VG 明顯的拉開了非學習方法與可學習方法之間的性能差距。更加凸顯出場景圖生成任務中,各個方法的真實性能。同時,實驗也說明非視覺相關的關系比較容易。相對來說,在含有大量非視覺關系的情況下,網(wǎng)絡學習到的內(nèi)容和基于統(tǒng)計的非學習型方法直接推斷的內(nèi)容差距有限。
問答系統(tǒng)實驗
在問答系統(tǒng)實驗中,通過學習視覺相關關系,特征具有更好的性能,在指標上有明顯的提升。
在具體的案例分析上,通過學習視覺相關關系,特征能夠提供更多的語義信息。一些通過單物體信息無法正確回答的問題,在我們的方法下有明顯的效果。
看圖說話實驗
在看圖說話的任務中,通過學習視覺相關關系,任務的性能也有提升。
通過對生成的句子案例分析,我們可以發(fā)現(xiàn),我們的方法給出了一些具有鮮明語義關系的句子。有時句子整體會有更加鮮活的表達,內(nèi)涵更加豐富的交互信息。
結論
在對象關系的學習與應用中,我們需要關注視覺相關關系的學習。現(xiàn)有關系數(shù)據(jù)不能有效的利用在語義相關的任務中,其主要問題是在數(shù)據(jù)側而非方法側。為了使對象關系應該在語義理解上有更廣泛深入的引用,需要首先明晰那些關系需要學習。在解決什么需要學的前提下,才能在如何學習的方法側走的更遠。
點擊以下標題查看更多往期內(nèi)容:?
ICCV 2019 | 沉迷AI換臉?不如來試試“AI換衣”
ICCV 2019?| 單幅圖像下實現(xiàn)任意尺度自然變換
ICCV 2019?| 打造炫酷動態(tài)的藝術字
ICCV 2019 | 基于關聯(lián)語義注意力模型的圖像修復
ICCV 2019 | 基于元學習和AutoML的模型壓縮
ICCV 2019?| 適用于視頻分割的全新Attention機制
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的ICCV 2019 | VrR-VG:聚焦视觉相关关系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 10周带你手推机器学习算法公式,30+视
- 下一篇: 2023河北公安警校预报名?