CVPR 2022 Oral | 人大高瓴AI学院提出:面向动态视音场景的问答学习机制
點擊下方卡片,關(guān)注“CVer”公眾號
AI/CV重磅干貨,第一時間送達
標 ?? 題:CVPR2022 Oral | 人大高瓴AI學(xué)院提出面向動態(tài)視音場景的問答學(xué)習(xí)任務(wù)
作??? 者:李光耀?,衛(wèi)雅珂?,田亞鵬?,徐辰良,文繼榮,胡迪*
你知道AI可以自己欣賞音樂會嗎?而且AI可以知道演奏場景中每一個樂器的演奏狀態(tài),這是不是很神奇?對人類而言,欣賞美妙的音樂會是一件很享受的事情,但對于機器來說,如何將優(yōu)美的旋律和激昂的演奏畫面珠聯(lián)璧合來提升欣賞體驗卻頗有挑戰(zhàn)。
最近,中國人民大學(xué)高瓴人工智能學(xué)院GeWu實驗室就針對這一問題提出了一種新的框架,讓AI能像人一樣觀看和聆聽樂器演奏,并對給定的視音問題做出跨模態(tài)時空推理。
目前這一成果已被 CVPR 2022 接收并選為 Oral Presentation,相關(guān)數(shù)據(jù)集和代碼已經(jīng)開源。
論文:https://gewu-lab.github.io/MUSIC-AVQA/static/files/MUSIC-AVQA.pdf
代碼(已開源):https://github.com/GeWu-Lab/MUSIC-AVQA
項目地址:https://gewu-lab.github.io/MUSIC-AVQA/
接下來讓我們一起來看一下這個有趣的工作!
1. 引言
我們在日常生活中被視覺和聲音信息所包圍,這兩種信息的結(jié)合利用提高了我們對場景的感知和理解能力。想象一下,當(dāng)我們身處在一場音樂會中時,同時觀看樂器演奏動作和聆聽音樂的旋律可以很好地幫我們享受演出。受此啟發(fā),如何讓機器整合多模態(tài)信息,尤其是視覺和聲音等自然模態(tài),以達到與人類相當(dāng)?shù)膱鼍案兄屠斫饽芰?#xff0c;是一個有趣且有價值的課題。因此,我們專注于視聽問答(Audio-Visual Question Answering, AVQA)任務(wù),旨在回答有關(guān)不同視覺對象、聲音及其在視頻中的關(guān)聯(lián)的問題。顯然,必須對視聽場景進行全面的多模態(tài)理解和時空推理才能做出正確的回答。
近年來,研究人員在聲音對象感知、音頻場景分析、視聽場景解析和內(nèi)容描述等方面取得了顯著進展。盡管這些方法能將視覺對象與聲音關(guān)聯(lián),但它們中的大多數(shù)在復(fù)雜視聽場景下的跨模態(tài)推理能力仍然有限。相比之下,人類可以充分利用多模態(tài)場景中的上下文內(nèi)容和時間信息來解決復(fù)雜的場景推理任務(wù),如視聽問答任務(wù)等。現(xiàn)有的視覺問答(VQA)和聲音問答(AQA)方法等往往只關(guān)注單一模態(tài),從而不能很好的在真實的視音場景中進行復(fù)雜的推理任務(wù)。
如下圖所示的單簧管雙重奏場景,當(dāng)回答“哪個單簧管先發(fā)聲?”的問題時,需要在視聽場景中先定位出發(fā)聲的單簧管,并在時序維度上重點聚焦于哪個單簧管先發(fā)出聲音。要正確回答這個問題,本質(zhì)上需要有效地對視聽場景理解和時空推理。
圖1 AVQA任務(wù)問題樣例展示
對于上面這個例子,若我們僅考慮基于視覺模態(tài)的VQA模型則很難對問題中涉及的聲音信息進行處理,相反,若我們只考慮基于聲音模態(tài)的AQA模型,同樣難以對問題中涉及的空間位置信息進行處理。但是,我們可以看到同時使用聽覺和視覺信息可以很容易的對場景進行理解并正確的回答上述問題。
2. 數(shù)據(jù)集
為了更好的探索視聽場景理解和時空推理的問題,我們構(gòu)建了一個專注于問答任務(wù)的大規(guī)模的視聽數(shù)據(jù)集(Spatial-Temporal Music AVQA, MUSIC-AVQA)。我們知道高質(zhì)量的數(shù)據(jù)集對于視音問答任務(wù)的研究具有相當(dāng)大的價值,因此,考慮到樂器演奏是一個典型的視音多模態(tài)場景,并由豐富的視聽成分及其交互組成,非常適合用于探索視聽場景理解和推理任務(wù)。故我們從YouTube上收集了大量用戶上傳的樂器演奏視頻,構(gòu)建數(shù)據(jù)集中的視頻包括了獨奏、重奏的合奏等多種演奏形式。具體來說,我們一共選取了22種不同的樂器(如吉他、鋼琴、二胡、嗩吶等),設(shè)計了九種問題模板并涵蓋了聲音、視覺和視音三種不同的模態(tài)場景類型。
表1 MUCIS-AVQA數(shù)據(jù)集與其他QA數(shù)據(jù)集多維對比
如表1所示,我們發(fā)布的MUSIC-AVQA數(shù)據(jù)集具有以下優(yōu)勢:
1)MUSIC-AVQA數(shù)據(jù)集涵蓋大量的聲音問題、視覺問題和視聽問題的問答對,比其他問答類數(shù)據(jù)集更全面豐富。對于大多數(shù)問答任務(wù)數(shù)據(jù)集(ActivityNet-QA, TVQA等)來說,僅包含了視覺問題,難以探索視聽相關(guān)的研究。雖然現(xiàn)有的AVQA數(shù)據(jù)集(AVSD, Pano-AVQA等)也提供了視聽問答對,但它們更專注于相對簡單的問題(Existential或Location),只需要空間推理即可做出回答。
2)MUSIC-AVQA數(shù)據(jù)集由包含豐富視聽成分的樂器演奏場景組成,有助于更好地研究視聽交互場景理解和推理,并可以在一定程度上避免場景中的噪聲問題。大多數(shù)公開問答類數(shù)據(jù)集(ActivityNet-QA, AVSD等)中的聲音信息通常與其視覺對象不匹配,會產(chǎn)生嚴重的噪聲(如背景音樂),這使得它們難以探索不同模態(tài)之間的關(guān)聯(lián)。此外,TVQA數(shù)據(jù)集雖然包含視覺和聲音模態(tài),但其聲音是由人類說話聲組成的,在其問答對構(gòu)建過程中也只使用了相應(yīng)的字幕信息,并不是真正的視音關(guān)聯(lián)場景。
最終數(shù)據(jù)集包含了9,288個視頻并包含了22種樂器,其總時長超過150小時。并且以眾包的形式形成了45,867個問答對,平均每個視頻約5個問答對,這些問答對涵蓋了不同模態(tài)下的9類問題類型以及33個不同的問題模板。豐富而多樣復(fù)雜的數(shù)據(jù)集對AVQA任務(wù)的研究具有相當(dāng)大的價值和意義。
圖 2 MUSIC-AVQA數(shù)據(jù)集多維統(tǒng)計分析
3. 模型方法
為了解決上述 AVQA 任務(wù),我們分別從空間和時序感知的角度出發(fā),提出了一種動態(tài)視音場景下的空間-時序問答模型(如下圖所示)。首先,聲音及其視覺源的位置反映了視聽模態(tài)之間的空間關(guān)聯(lián),這有助于將復(fù)雜的場景分解為具體的視聽關(guān)聯(lián)。因此我們提出了一個基于注意力機制的聲源定位的空間模塊來模擬這種跨模態(tài)的關(guān)聯(lián)。其次,由于視聽場景隨時間動態(tài)變化,因此捕捉和突出與問題密切相關(guān)的關(guān)鍵時間戳至關(guān)重要。因此,我們提出了使用問題特征作為查詢的時間基礎(chǔ)模塊來聚焦關(guān)鍵時間片段,以有效地編碼問題感知音頻和視覺的嵌入。最后,融合上述空間感知和時間感知的視聽特征,得到問答的聯(lián)合表示,以預(yù)測視頻關(guān)聯(lián)問題的答案。
圖3 動態(tài)視音場景的空間-時序問答模型
4. 實驗結(jié)果
如表2所示,引入Audio和Visual模態(tài)信息都有助于模型性能的提升。此外,能明顯看到當(dāng)結(jié)合聲音和視覺模態(tài)時,AV+Q 模型的性能比A+Q和V+Q模型要好得多,這表明多感官感知有助于提升問答任務(wù)的性能。我們也能看到視音空間關(guān)聯(lián)模塊和時序關(guān)聯(lián)模塊都能夠很明顯的提升模型的性能,從而更好地對場景進行理解。
表2 不同模態(tài)消融實驗表
表3展示了一些最近的QA方法在我們的MUSIC-AVQA數(shù)據(jù)集上的結(jié)果。結(jié)果首先表明所有的AVQA方法都要好于VQA、AQA和VideoQA方法,這說明多模態(tài)感知可以有益于AVQA任務(wù)。其次我們的方法在大多數(shù)視聽問題上取得了相當(dāng)大的進步,尤其是對于需要空間和時序推理的視聽問題更為明顯(如Temporal和Localization等)。
表3 與其他QA類方法對比
為了進一步說明所提模型的有效性和可解釋性,我們進行了一些可視化展示。其中熱力圖表示聲源的位置,熱力圖下方的表格表示時序上的注意力分數(shù)。從可視化結(jié)果可以明顯看出所提的模型在多模態(tài)視聽場景中具有很好的理解和推理能力。
圖4 可視化結(jié)果
5. 總述
總體來說,本文探索了如何回答有關(guān)不同視覺對象、聲音及其在視頻中的關(guān)聯(lián)的問題,從而對動態(tài)復(fù)雜的視音場景進行細粒度理解和推理。作者團隊構(gòu)建了一個包含45,867個不同視聽模態(tài)和多種問題類型問答對的大規(guī)模MUSIC-AVQA數(shù)據(jù)集,以及提出了一個簡單高效的視音時序-空間模型來很好的解決AVQA問題。我們相信提出的MUSIC-AVQA數(shù)據(jù)集可以成為評估視聽場景細粒度理解和時空推理的基準平臺,同時也認為這項工作是探索視聽推理的開篇之作,為該領(lǐng)域開創(chuàng)了一個良好的開端,并借此希望能夠激勵更多的研究者同我們一道去探索這一領(lǐng)域。
團隊主要來自人大AI學(xué)院
本項研究由中國人民大學(xué)高瓴人工智能學(xué)院主導(dǎo),與美國羅徹斯特大學(xué)合作完成,通訊作者為GeWu實驗室胡迪助理教授,主要內(nèi)容由GeWu實驗室博士生李光耀負責(zé)。
GeWu實驗室目前具體的研究方向主要包括多模態(tài)場景理解、多模態(tài)學(xué)習(xí)機制和跨模態(tài)交互與生成等,最近半年實驗室同學(xué)已發(fā)表多篇高質(zhì)量文章,如TPAMI(人工智能領(lǐng)域影響因子最高的期刊,IF=17.861)和多篇CVPR(均為Oral)。
PS:我們發(fā)現(xiàn)常用的多模態(tài)模型存在欠優(yōu)化的單模態(tài)表征,這是由某些場景中另一種主導(dǎo)模態(tài)導(dǎo)致的。為此我們設(shè)計了OGM-GE方法,通過監(jiān)控不同模態(tài)對學(xué)習(xí)目標的貢獻差異來自適應(yīng)地調(diào)制每種模態(tài)的優(yōu)化,從而緩解了這種優(yōu)化上的不平衡。這篇工作也被CVPR2022接收為Oral Presentation,具體內(nèi)容我們將在后續(xù)發(fā)布中解說。
此外,GeWu實驗室非常歡迎對上述研究方向感興趣的同學(xué)加入(本、碩、博和訪問學(xué)生),詳情請進一步查看實驗室招生宣傳?:
https://zhuanlan.zhihu.com/p/496452639)
ICCV和CVPR 2021論文和代碼下載
后臺回復(fù):CVPR2021,即可下載CVPR 2021論文和代碼開源的論文合集
后臺回復(fù):ICCV2021,即可下載ICCV?2021論文和代碼開源的論文合集
后臺回復(fù):Transformer綜述,即可下載最新的3篇Transformer綜述PDF
目標檢測和Transformer交流群成立 掃描下方二維碼,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申請加入CVer-Transformer或者目標檢測?微信交流群。另外其他垂直方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態(tài)估計、超分辨率、SLAM、醫(yī)療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學(xué)習(xí)、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風(fēng)格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。 一定要備注:研究方向+地點+學(xué)校/公司+昵稱(如Transformer或者目標檢測+上海+上交+卡卡),根據(jù)格式備注,可更快被通過且邀請進群▲掃碼或加微信: CVer6666,進交流群 CVer學(xué)術(shù)交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優(yōu)質(zhì)開源項目、學(xué)習(xí)教程和實戰(zhàn)訓(xùn)練等資料,歡迎掃描下方二維碼,加入CVer學(xué)術(shù)交流群,已匯集數(shù)千人!▲掃碼進群 ▲點擊上方卡片,關(guān)注CVer公眾號整理不易,請點贊和在看總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 Oral | 人大高瓴AI学院提出:面向动态视音场景的问答学习机制的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ZOJ1111 - Poker Hand
- 下一篇: 计算机辅助项目管理课程方案,计算机辅助项