當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

直播 | UCLA博士生洪逸宁：视觉和语言的联合语法归纳（ICCV 2021）

發布時間：2024/10/8 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了直播 | UCLA博士生洪逸宁：视觉和语言的联合语法归纳（ICCV 2021）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

「AI Drive」是由 PaperWeekly 和 biendata 共同發起的學術直播間，旨在幫助更多的青年學者宣傳其最新科研成果。我們一直認為，單向地輸出知識并不是一個最好的方式，而有效地反饋和交流可能會讓知識的傳播更加有意義，從而產生更大的價值。

本期 AI Drive，我們邀請到加州大學洛杉磯分校（UCLA）計算機系博士生洪逸寧，為大家在線解讀其發表在 ICCV 2021?的最新研究成果：VLGrammar: Grounded Grammar Induction of Vision and Language。對本期主題感興趣的小伙伴，今晚 7 點，我們準時相約 PaperWeekly B 站直播間。

直播信息

認知語法表明語言語法的習得建立在視覺結構的基礎上。雖然語法是自然語言的基本表示，但它在視覺中也無處不在，用于表示分層的部分-整體結構。在這項工作中，我們在聯合學習框架中研究了視覺和語言的語法歸納。具體來說，我們提出了 VLGrammar，一種使用 Compound PCFG 同時歸納語言語法和圖像語法的方法。我們提出了一種新穎的對比學習框架來指導兩個模塊的聯合學習。

為了為語法歸納任務提供基準，我們收集了一個大規模數據集 PartIt，其中包含描述 3D 物體的人工編寫的句子。在 PartIt 數據集上的實驗表明，VLGrammar 在圖像語法歸納和語言語法歸納方面優于所有基線。VLGgrammar 有利于相關的下游任務。具體來說，它將圖像無監督聚類精度提高了 30%，在圖像檢索和文本檢索方面表現良好。值得注意的是，歸納的語法可以通過泛化到新的類別，顯示出優越的泛化性。

論文鏈接：

https://arxiv.org/abs/2103.12975

代碼鏈接：

https://github.com/evelinehong/VLGrammar

本次分享的具體內容有：?

語言語法歸納的常見方法
圖像語法的介紹
PartIt 數據集介紹
方法介紹：1) 語言 Compound PCFG 2）視覺 Compound PCFG 3）對比學習框架
實驗結果
未來方向探索

嘉賓介紹

?洪逸寧?/ 加州大學洛杉磯分校博士生?

洪逸寧，加州大學洛杉磯分校（UCLA）計算機系一年級博士生，師從朱松純教授。此前為上海交通大學的本科生。研究方向為計算機視覺、自然語言處理。在 ICML、ECCV、ICCV、ACL、AAAI 等會議發表論文近十篇。

直播地址?& 交流群

本次直播將在 PaperWeekly 視頻號和 B 站直播間進行，掃描下方海報二維碼或點擊閱讀原文即可免費觀看。線上分享結束后，嘉賓還將在直播交流群內實時 QA，在 PaperWeekly 微信公眾號后臺回復「AI Drive」，即可獲取入群通道。

B 站直播間：

https://live.bilibili.com/14884511

合作伙伴

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

總結

以上是生活随笔為你收集整理的直播 | UCLA博士生洪逸宁：视觉和语言的联合语法归纳（ICCV 2021）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：博士申请 | 宾州州立大学 (PSU)
下一篇：沃尔沃中央后视镜开关在哪里怎么调？