个人周报20200420
周報(bào)
本周主要看了visual dialog方面的論文,同時(shí),閱讀了兩篇SGG領(lǐng)域的論文,引發(fā)了一些我對V&L領(lǐng)域的思考,下面詳細(xì)談一談。
1.visual dialog在一定程度上可以視為連續(xù)的VQA,但是dialog和question-answer應(yīng)存在差異性,在dialog領(lǐng)域,AI的answer是否應(yīng)具有推動(dòng)后續(xù)對話的能力?visual dialog在V&L領(lǐng)域出現(xiàn)的算是比較晚,目前來說,可做的東西也應(yīng)該更多。但是,這個(gè)領(lǐng)域的一些方法和V&L其他領(lǐng)域較為類似,存在一定共通性,值得思考。
2.閱讀了兩篇SGG領(lǐng)域早些年的論文,一篇出自ECCV2016[1],一篇出自CVPR2017[2],兩篇文章均出自李飛飛組。前者在視覺模型的基礎(chǔ)上加入了語言模型,后者加入了消息傳遞機(jī)制,通過不斷迭代來對相鄰節(jié)點(diǎn)進(jìn)行約束,進(jìn)行特征特征增強(qiáng)。
3.在V&L領(lǐng)域,數(shù)據(jù)集的標(biāo)注正在由粗轉(zhuǎn)細(xì),旨在提高模型的可解釋性。在captioning領(lǐng)域,是否可以使用一種簡單有效的無監(jiān)督方法,利用更多的無標(biāo)注數(shù)據(jù)提升模型的能力,目前還在思考。
下周將繼續(xù)深入探究visual dialog領(lǐng)域,并繼續(xù)閱讀景師兄推薦的近兩年頂會(huì)論文的剩余部分,閱讀的同時(shí)自己也會(huì)多思考。
對視覺與語言的理解
對于兩位老師和景師兄推薦的京東AI研究院對視覺與語言的理解,我有以下看法:
- 高層語義信息
在神經(jīng)網(wǎng)絡(luò)中,低層特征圖中包含圖片的紋理、顏色等簡單信息,高層特征圖中包含場景、趨勢等語義信息。如:圖片中有一個(gè)人。經(jīng)過神經(jīng)網(wǎng)絡(luò)后,底層特征圖中會(huì)包含膚色、眼睛、手勢等信息,這些即為簡單信息。隨著感受野的增大,高層特征圖中可能會(huì)包含表情、情感、動(dòng)作等信息,這些即為語義信息。我認(rèn)為,高層語義信息指的那些接近人類理解圖片的信息。 - 語言建模
指的是建立指定自然語言的語言模型,針對該自然語言的文字系統(tǒng),了解文字系統(tǒng)的內(nèi)部結(jié)構(gòu),構(gòu)建出詞序列的分布。 - 視覺語言匹配
對于給定的文本描述,在圖像上得到與其匹配的區(qū)域。 - 精細(xì)化的視覺語言數(shù)據(jù)
指的是標(biāo)注粒度更細(xì)的數(shù)據(jù)。如VQA領(lǐng)域,A數(shù)據(jù)集的標(biāo)注形式為[Question, Image]→[Answer],B數(shù)據(jù)集的標(biāo)注形式為[Question, Image]→[Scene Graph]→[Answer],則B數(shù)據(jù)集的標(biāo)注較A數(shù)據(jù)集更加細(xì)致。精細(xì)化的視覺語言數(shù)據(jù)可以在訓(xùn)練時(shí)從多個(gè)角度對模型進(jìn)行限制,同時(shí)也更容易驗(yàn)證模型的可解釋性。 - V&L的核心
核心是視覺語言匹配,即兩種模態(tài)的跨模態(tài)對齊。只有將文本信息和視覺信息一一對齊,后續(xù)的推理和任務(wù)結(jié)果才具有說服力。 - 挑戰(zhàn)性問題
1.測試集中出現(xiàn)out-of-vocabulary詞匯。2.文本信息和視覺信息存在差異性。3.數(shù)據(jù)集標(biāo)注不統(tǒng)一。4.數(shù)據(jù)集標(biāo)注不夠詳細(xì)。 - 研究流派
可能是我對這個(gè)領(lǐng)域的了解不夠多,看的論文不夠全面。在我看來,目前在V&L領(lǐng)域是“百家齊放”的狀態(tài),基于無監(jiān)督的、基于強(qiáng)化學(xué)習(xí)的、基于SGG的、基于,但是未見像Fast R-CNN或YOLO那種一系列的文章。許多文章的方法在整體架構(gòu)上有類似,比如均采用“Encoder-Decoder”模式,但是也不能算是研究流派。 - 和多模態(tài)學(xué)習(xí)的關(guān)系
V&L屬于多模態(tài)學(xué)習(xí),VQA、Image (Video) Captioning等均可視為“文本-視覺”模態(tài)的下游任務(wù)。日常生活中,常見的模態(tài)有:圖像、視頻、語音、文本等。V&L任務(wù)中主要包含兩種模態(tài),即文本和圖像(或視頻),圖像模態(tài)和視頻模態(tài)也可以統(tǒng)稱為視覺模態(tài)。 - 和推理的關(guān)系
推理是V&L方法的必要能力,也是實(shí)現(xiàn)V&L可解釋性的必要手段。在早幾年的V&L方法中,其實(shí)重視推理的并不多,但是也能在數(shù)據(jù)集上達(dá)到很好的指標(biāo),但它們的泛化能力可能不如傳統(tǒng)方法。一方面,這暴露了深度學(xué)習(xí)方法在各個(gè)研究領(lǐng)域的存在的通病——學(xué)習(xí)shortcut。另一方面,也讓研究學(xué)者們意識(shí)到了提高模型可解釋性的重要性,而推理正是提高可解釋性的重要手段。 - 可解釋的人工智能算法是怎樣服務(wù)于V&L的
在V&L任務(wù)中,無論是文本,還是圖片(或視頻),都包含多個(gè)物體,物體之間存在關(guān)系。如人一樣,一個(gè)好的方法處理問題應(yīng)該是循序漸進(jìn)的、有邏輯的。我目前看到了具有可解釋性的V&L領(lǐng)域論文,大多是通過場景圖演示模型的推理過程,實(shí)現(xiàn)模型的可解釋性。
[1]. Visual Relationship Detection with Language Priors
[2]. Scene Graph Generation by Iterative Message Passing
總結(jié)
以上是生活随笔為你收集整理的个人周报20200420的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019年, SGG论文汇总
- 下一篇: Batch Normalization的