直播 | UCLA博士生洪逸宁:视觉和语言的联合语法归纳(ICCV 2021)
「AI Drive」是由 PaperWeekly 和 biendata 共同發起的學術直播間,旨在幫助更多的青年學者宣傳其最新科研成果。我們一直認為,單向地輸出知識并不是一個最好的方式,而有效地反饋和交流可能會讓知識的傳播更加有意義,從而產生更大的價值。
本期 AI Drive,我們邀請到加州大學洛杉磯分校(UCLA)計算機系博士生洪逸寧,為大家在線解讀其發表在 ICCV 2021?的最新研究成果:VLGrammar: Grounded Grammar Induction of Vision and Language。對本期主題感興趣的小伙伴,今晚 7 點,我們準時相約 PaperWeekly B 站直播間。
直播信息
認知語法表明語言語法的習得建立在視覺結構的基礎上。雖然語法是自然語言的基本表示,但它在視覺中也無處不在,用于表示分層的部分-整體結構。在這項工作中,我們在聯合學習框架中研究了視覺和語言的語法歸納。具體來說,我們提出了 VLGrammar,一種使用 Compound PCFG 同時歸納語言語法和圖像語法的方法。我們提出了一種新穎的對比學習框架來指導兩個模塊的聯合學習。
為了為語法歸納任務提供基準,我們收集了一個大規模數據集 PartIt,其中包含描述 3D 物體的人工編寫的句子。在 PartIt 數據集上的實驗表明,VLGrammar 在圖像語法歸納和語言語法歸納方面優于所有基線。VLGgrammar 有利于相關的下游任務。具體來說,它將圖像無監督聚類精度提高了 30%,在圖像檢索和文本檢索方面表現良好。值得注意的是,歸納的語法可以通過泛化到新的類別,顯示出優越的泛化性。
論文鏈接:
https://arxiv.org/abs/2103.12975
代碼鏈接:
https://github.com/evelinehong/VLGrammar
本次分享的具體內容有:?
語言語法歸納的常見方法
圖像語法的介紹
PartIt 數據集介紹
方法介紹:1) 語言 Compound PCFG 2)視覺 Compound PCFG 3)對比學習框架
實驗結果
未來方向探索
嘉賓介紹
?洪逸寧?/ 加州大學洛杉磯分校博士生?
洪逸寧,加州大學洛杉磯分校(UCLA)計算機系一年級博士生,師從朱松純教授。此前為上海交通大學的本科生。研究方向為計算機視覺、自然語言處理。在 ICML、ECCV、ICCV、ACL、AAAI 等會議發表論文近十篇。
直播地址?& 交流群
本次直播將在 PaperWeekly 視頻號和 B 站直播間進行,掃描下方海報二維碼或點擊閱讀原文即可免費觀看。線上分享結束后,嘉賓還將在直播交流群內實時 QA,在 PaperWeekly 微信公眾號后臺回復「AI Drive」,即可獲取入群通道。
B 站直播間:
https://live.bilibili.com/14884511
合作伙伴
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的直播 | UCLA博士生洪逸宁:视觉和语言的联合语法归纳(ICCV 2021)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 博士申请 | 宾州州立大学 (PSU)
- 下一篇: 沃尔沃中央后视镜开关在哪里怎么调?