分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析
分層條件關(guān)系網(wǎng)絡(luò)在視頻問(wèn)答VideoQA中的應(yīng)用:CVPR2020論文解析
Hierarchical Conditional Relation Networks
for Video Question Answering
論文鏈接:https://arxiv.org/pdf/2002.10698.pdf
摘要
視頻問(wèn)答(VideoQA)具有挑戰(zhàn)性,因?yàn)樗枰D芰?lái)提取動(dòng)態(tài)視覺偽影和遠(yuǎn)距離關(guān)系,并將它們與語(yǔ)言概念相關(guān)聯(lián)。本文介紹了一種通用的可重復(fù)使用的神經(jīng)單元,稱為條件關(guān)系網(wǎng)絡(luò)(CRN),它作為構(gòu)建塊來(lái)構(gòu)建更復(fù)雜的視頻表示和推理結(jié)構(gòu)。CRN以一個(gè)張量對(duì)象數(shù)組和一個(gè)條件特征作為輸入,并計(jì)算一個(gè)編碼輸出對(duì)象數(shù)組。模型構(gòu)建成為這些可重用單元的復(fù)制、重新排列和堆疊的簡(jiǎn)單練習(xí),用于不同的模式和上下文信息。因此,該設(shè)計(jì)支持高階關(guān)系和多步推理。VideoQA的最終架構(gòu)是一個(gè)CRN層次結(jié)構(gòu),其分支表示子視頻或剪輯,所有分支都與上下文條件共享相同的問(wèn)題。本文對(duì)知名數(shù)據(jù)集的評(píng)估取得了新的SoTA結(jié)果,展示了在復(fù)雜領(lǐng)域(如VideoQA)上構(gòu)建通用推理單元的影響。
Introduction
回答關(guān)于視頻的自然問(wèn)題是認(rèn)知能力的有力證明。該任務(wù)涉及在語(yǔ)言線索的合成語(yǔ)義指導(dǎo)下獲取和操作時(shí)空視覺表征[7,17,20,30,33,36]。由于問(wèn)題可能不受約束,VideoQA需要深入的建模能力,以分層方式編碼和表示關(guān)鍵的視頻屬性,如對(duì)象持久性、運(yùn)動(dòng)pro-files、長(zhǎng)時(shí)間動(dòng)作和可變長(zhǎng)度時(shí)間關(guān)系。對(duì)于VideoQA來(lái)說(shuō),理想情況下,可視化表示應(yīng)該是特定的問(wèn)題并準(zhǔn)備好答案。
目前用于QA視頻建模的方法是構(gòu)建神經(jīng)架構(gòu),其中每個(gè)子系統(tǒng)要么是為特定的定制目的設(shè)計(jì)的,要么是為特定的數(shù)據(jù)模式設(shè)計(jì)的。由于這種特殊性,這種手工構(gòu)建的體系結(jié)構(gòu)對(duì)于數(shù)據(jù)形態(tài)的變化[17]、不同的視頻長(zhǎng)度[24]或問(wèn)題類型(如幀QA[20]與動(dòng)作計(jì)數(shù)[6])往往是最佳的。這導(dǎo)致了異構(gòu)網(wǎng)絡(luò)的激增。
在這項(xiàng)工作中,本文提出了一個(gè)通用的可重復(fù)使用的神經(jīng)單元,稱為條件關(guān)系網(wǎng)絡(luò)(CRN),它將對(duì)象數(shù)組封裝并轉(zhuǎn)換成一個(gè)新的基于上下文特征的數(shù)組。該單元計(jì)算輸入對(duì)象之間的稀疏高階關(guān)系,然后通過(guò)特定上下文調(diào)制編碼(參見圖2)。CRN的靈活性及其封裝設(shè)計(jì)使得它可以被復(fù)制和分層,以直接的方式形成深層的條件關(guān)系網(wǎng)絡(luò)(HCRN)。
因此,疊層單元提供了視頻對(duì)象關(guān)系知識(shí)的語(yǔ)境化重新定義——以階段性的方式,它將外觀特征與剪輯活動(dòng)流和語(yǔ)言語(yǔ)境相結(jié)合,并通過(guò)整合整個(gè)視頻運(yùn)動(dòng)和語(yǔ)言特征的語(yǔ)境進(jìn)行跟蹤。由此產(chǎn)生的HCRN是同質(zhì)的,符合網(wǎng)絡(luò)的設(shè)計(jì)理念,如InceptionNet[31]、ResNet[9]和FiLM[27]。
crn的層次結(jié)構(gòu)如下:在最低層次上,crn對(duì)剪輯中的幀外觀之間的關(guān)系進(jìn)行編碼,并將剪輯運(yùn)動(dòng)作為上下文進(jìn)行集成;該輸出在下一階段由crn進(jìn)行處理,crn現(xiàn)在集成在語(yǔ)言上下文中;在下一階段,CRN捕獲剪輯編碼之間的關(guān)系,并作為上下文集成在視頻運(yùn)動(dòng)中;在最后階段,CRN將視頻編碼與語(yǔ)言特征作為上下文集成(參見圖3)。該模型通過(guò)允許crn分層堆疊,自然地支持視頻和關(guān)系推理中的分層結(jié)構(gòu)建模;通過(guò)允許分階段引入適當(dāng)?shù)纳舷挛?#xff0c;該模型處理多模式融合和多步驟推理。
對(duì)于長(zhǎng)視頻,可以添加進(jìn)一步的層次結(jié)構(gòu)級(jí)別,以實(shí)現(xiàn)遠(yuǎn)距離幀之間關(guān)系的編碼。本文展示了HCRN在回答主要視頻qa數(shù)據(jù)集中的問(wèn)題的能力。四層CRN單元的層次結(jié)構(gòu)在所有的VideoQA任務(wù)中都能獲得良好的答案準(zhǔn)確性。值得注意的是,它在涉及外貌、動(dòng)作、狀態(tài)轉(zhuǎn)換、時(shí)間關(guān)系或動(dòng)作重復(fù)的問(wèn)題上一直表現(xiàn)良好,證明了模型可以分析和把所有這些渠道的信息結(jié)合起來(lái)。此外,HCRN可以很好地?cái)U(kuò)展到較長(zhǎng)的視頻,只需添加一個(gè)額外的層。
圖1展示了幾個(gè)典型的例子,這些例子對(duì)于視覺問(wèn)題交互的基線是困難的,但是可以通過(guò)本文的模型來(lái)處理。本文的模型和結(jié)果證明了建立支持本機(jī)多模態(tài)交互的通用神經(jīng)推理單元對(duì)提高VideoQA模型的魯棒性和泛化能力的影響。
- Related Work
本文提出的HCRN模型通過(guò)解決兩個(gè)關(guān)鍵挑戰(zhàn)來(lái)推進(jìn)VideoQA的發(fā)展:
(1) 有效地將視頻表示為各種互補(bǔ)因素的混合體,包括外觀、運(yùn)動(dòng)和關(guān)系,以及
(2) 有效地允許這些視覺特征與語(yǔ)言查詢的交互。
Spatio-temporal video representation
本文的HCRN模型是在這些趨勢(shì)的基礎(chǔ)上發(fā)展起來(lái)的,它允許視頻信息的所有三個(gè)通道,即外觀、運(yùn)動(dòng)和關(guān)系,在分層多尺度框架的每一步中迭代地相互作用和補(bǔ)充。 HCRN將調(diào)節(jié)因子從已確定的信息中分離出來(lái),因此它更有效,也更靈活地使操作者適應(yīng)調(diào)節(jié)類型。時(shí)間層次已經(jīng)被用于視頻分析[22],最近用遞歸網(wǎng)絡(luò)[25,1]和圖網(wǎng)絡(luò)[23]。然而,本文相信本文是第一個(gè)考慮多模式的層次交互,包括視頻問(wèn)答的語(yǔ)言提示。
Linguistic query–visual feature interaction in VideoQA
HCRN模型支持將語(yǔ)言線索作為語(yǔ)境因素對(duì)視頻特征進(jìn)行條件化處理。這使得語(yǔ)言線索比任何可用的方法都能更早、更深入地參與視頻呈現(xiàn)結(jié)構(gòu)。
Neural building blocks
在VideoQA領(lǐng)域之外,CRN單元與其他通用的神經(jīng)構(gòu)建塊共享神經(jīng)架構(gòu)一致性的理想,例如InceptionNet中的塊[31]、ResNet中的剩余塊[9]、RNN中的遞歸塊、影像中的條件線性層[27]和神經(jīng)矩陣網(wǎng)中的矩陣矩陣塊[5]。本文的CRN通過(guò)假設(shè)一個(gè)支持條件關(guān)系推理的數(shù)組到數(shù)組塊,并且可以重用來(lái)構(gòu)建視覺和語(yǔ)言處理中的其他用途的網(wǎng)絡(luò),從而顯著地背離了這些設(shè)計(jì)。
- Method
VideoQA的目標(biāo)是根據(jù)一個(gè)自然問(wèn)題q,從videoV中推斷出答案a。答案a可以在一個(gè)答案空間a中找到,該回答空間a是為開放式問(wèn)題預(yù)先定義的一組可能的答案,或者在多選題的情況下,可以在一個(gè)候選答案列表中找到。形式上,VideoQA可以表述如下:
Visual representation
Linguistic representation
通過(guò)這些表示,本文現(xiàn)在描述本文的新的VideoQA層次結(jié)構(gòu)(見圖3)。在第3.1節(jié)中,本文首先介紹了作為架構(gòu)構(gòu)建塊的核心組成計(jì)算單元。在下面的小節(jié)中,本文建議將F設(shè)計(jì)為一個(gè)逐層網(wǎng)絡(luò)架構(gòu),可以通過(guò)簡(jiǎn)單地以特定方式堆疊核心單元來(lái)構(gòu)建。
3.1. Conditional Relation Network Unit
本文引入了一個(gè)可重用的計(jì)算單元,稱為條件關(guān)系網(wǎng)絡(luò)(CRN),它將n個(gè)對(duì)象的數(shù)組和一個(gè)條件特征c-都放在同一向量空間Rd或張量空間中作為輸入。CRN生成一個(gè)相同維度的對(duì)象的輸出數(shù)組,其中包含給定全局上下文的輸入特征的高階對(duì)象關(guān)系。在Alg算法中給出了CRN單元的運(yùn)算1和圖2中的視覺效果。表1總結(jié)了這些演示文稿中使用的符號(hào)。
3.2. Hierarchical Conditional Relation Networks
本文使用CRN塊構(gòu)建一個(gè)深度網(wǎng)絡(luò)架構(gòu),利用視頻序列的內(nèi)在特征,即時(shí)間關(guān)系、運(yùn)動(dòng)和視頻結(jié)構(gòu)層次,并支持由語(yǔ)言問(wèn)題引導(dǎo)的推理。本文將提出的網(wǎng)絡(luò)架構(gòu)稱為層次條件關(guān)系網(wǎng)絡(luò)(HCRN)(見圖3)。通過(guò)堆疊可重復(fù)使用的核心單元來(lái)設(shè)計(jì)HCRN的部分靈感來(lái)自于現(xiàn)代CNN網(wǎng)絡(luò)架構(gòu),其中InceptionNet[31]和ResNet[9]是最著名的例子。
3.3. Answer Decoders and Loss Functions
在[10,30,6]之后,本文根據(jù)任務(wù)采用不同的應(yīng)答解碼器。開放式問(wèn)題被視為多標(biāo)簽分類問(wèn)題。為此,本文采用一個(gè)分類法,將檢索到的信息組合作為輸入。 對(duì)于多選題類型(如TGIF-QA中的重復(fù)動(dòng)作和狀態(tài)轉(zhuǎn)換),每個(gè)候選答案的處理方式與問(wèn)題相同。具體來(lái)說(shuō),本文使用共享參數(shù)HCRNs作為語(yǔ)言提示,無(wú)論是問(wèn)題還是每個(gè)候選答案。
3.4. Complexity Analysis
本文在這里提供一個(gè)簡(jiǎn)要的分析,留下詳細(xì)的衍生補(bǔ)充。對(duì)于固定采樣分辨率t,CRN的一次前向通過(guò)將花費(fèi)kmax中的二次時(shí)間。對(duì)于長(zhǎng)度n、特征尺寸F的輸入陣列,該單元產(chǎn)生具有相同特征尺寸的大小kmax-1的輸出陣列。HCRN的總體復(fù)雜性取決于每個(gè)CRN單元的設(shè)計(jì)選擇和CRN單元的具體布置。為了清楚起見,讓t=2和kmax=n-1,這在以后的實(shí)驗(yàn)中被發(fā)現(xiàn)是有效的。假設(shè)有N個(gè)長(zhǎng)度為T的剪輯,制作長(zhǎng)度為L(zhǎng)=NT的視頻。圖3的2級(jí)架構(gòu)需要2t LF時(shí)間計(jì)算最低層的crn,2NLF時(shí)間計(jì)算第二層,共2(T+N)LF時(shí)間。
- Experiments Results
4.1. Datasets
TGIF-QA datasets,MSVD-QA datasets,MSRVTT-QA datasets。
本文使用準(zhǔn)確度作為所有實(shí)驗(yàn)的評(píng)估指標(biāo),除了TGIF-QA數(shù)據(jù)集上應(yīng)用均方誤差(MSE)的重復(fù)計(jì)數(shù)。
4.2. Implementation Details
視頻被分割成8個(gè)片段,每個(gè)片段默認(rèn)包含16個(gè)幀。MSRVTT-QA中的長(zhǎng)視頻還被分割成24個(gè)片段,以評(píng)估處理非常長(zhǎng)的序列的能力。除非另有說(shuō)明,否則默認(rèn)設(shè)置為圖3所示的2級(jí)HCRN,d=512,t=1。本文最初以的學(xué)習(xí)率訓(xùn)練模型,每10個(gè)階段衰減一半。所有實(shí)驗(yàn)在25個(gè)階段后終止,報(bào)告的結(jié)果在給出最佳驗(yàn)證精度的階段。該模型的Pytorch實(shí)現(xiàn)可以在線獲得。
4.3. Results
TGIF-QA的結(jié)果匯總在表2中,MSVD-QA和MSRVTT-QA的結(jié)果匯總在圖4中。報(bào)告的競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)量取自原始文件和[6]。很明顯,本文的模型在所有數(shù)據(jù)集的所有任務(wù)上都始終優(yōu)于或優(yōu)于SoTA模型。當(dāng)需要強(qiáng)大的時(shí)間推理時(shí),即TGIF-QA中涉及動(dòng)作和轉(zhuǎn)換的問(wèn)題時(shí),這些改進(jìn)尤其明顯。這些結(jié)果證實(shí)了同時(shí)考慮短期和長(zhǎng)期時(shí)間關(guān)系對(duì)找到正確答案的重要性。
為了更深入地了解本文的模型,本文對(duì)TGIF-QA進(jìn)行了廣泛的消融研究,并進(jìn)行了廣泛的配置。結(jié)果見表4。全2級(jí)HCRN表示圖3的全模型,kmax=n?1,t=2。總的來(lái)說(shuō),本文發(fā)現(xiàn)燒蝕任何設(shè)計(jì)組件或CRN單元都會(huì)降低時(shí)間推理任務(wù)(動(dòng)作、轉(zhuǎn)換和動(dòng)作計(jì)數(shù))的性能。具體效果如下。
本文在MSRVTT-QA數(shù)據(jù)集中的長(zhǎng)視頻上測(cè)試HCRN的可伸縮性,該數(shù)據(jù)集被組織成24個(gè)片段(比其他兩個(gè)數(shù)據(jù)集長(zhǎng)3倍)。本文考慮兩種設(shè)置:I 2級(jí)層次,24個(gè)剪輯→1vid:模型如圖3所示,其中24個(gè)剪輯級(jí)CRN后面跟著一個(gè)視頻級(jí)CRN。I三級(jí)分層,24個(gè)剪輯→4個(gè)子視頻→1個(gè)子視頻:從24個(gè)剪輯開始,如在二級(jí)分層中,本文將24個(gè)剪輯分成4個(gè)子視頻,每個(gè)子視頻由6個(gè)連續(xù)的剪輯組成,形成3級(jí)分層。這兩個(gè)模型的設(shè)計(jì)參數(shù)數(shù)量相似,約為50米。結(jié)果見表5。與現(xiàn)有的處理長(zhǎng)視頻的方法不同,本文的方法通過(guò)提供更深層的層次結(jié)構(gòu)來(lái)擴(kuò)展,如第3.4節(jié)中理論分析的那樣。使用更深層的層次結(jié)構(gòu)有望顯著減少HCRN的訓(xùn)練時(shí)間和推理時(shí)間,特別是在視頻較長(zhǎng)的情況下。在本文的實(shí)驗(yàn)中,本文通過(guò)從2級(jí)HCRN到3級(jí)HCRN的訓(xùn)練和推理時(shí)間減少了4倍,同時(shí)保持了相同的性能。
Conclusions
介紹了一種通用的神經(jīng)網(wǎng)絡(luò)單元條件關(guān)系網(wǎng)絡(luò)(CRNs)和一種以CRNs為構(gòu)建塊的視頻質(zhì)量保證分層網(wǎng)絡(luò)的構(gòu)造方法。CRN是一個(gè)關(guān)系變換器,它根據(jù)上下文特征將一個(gè)張量對(duì)象數(shù)組封裝并映射成一個(gè)同類的新數(shù)組。在此過(guò)程中,輸入對(duì)象之間的高階關(guān)系被條件特征編碼和調(diào)制。該設(shè)計(jì)允許靈活構(gòu)建復(fù)雜的結(jié)構(gòu),如堆棧和層次結(jié)構(gòu),并支持迭代推理,使其適用于視頻等多模態(tài)和結(jié)構(gòu)化領(lǐng)域的質(zhì)量保證。在多個(gè)視頻質(zhì)量保證數(shù)據(jù)集(TGIF-QA、MSVD-QA、MSRVTT-QA)上對(duì)HCRN進(jìn)行評(píng)估,證明其具有競(jìng)爭(zhēng)性推理能力。與基于時(shí)間注意的視頻對(duì)象選擇方法不同,HCRN側(cè)重于視頻中關(guān)系和層次的建模。這種方法和設(shè)計(jì)選擇上的差異帶來(lái)了顯著的好處。CRN單元可以通過(guò)注意機(jī)制進(jìn)一步增強(qiáng),以覆蓋更好的對(duì)象選擇能力,從而可以進(jìn)一步改進(jìn)諸如幀QA之類的相關(guān)任務(wù)。在VideoQA中對(duì)CRN的檢查突出了構(gòu)建支持本機(jī)多模態(tài)交互的通用神經(jīng)推理單元在提高視覺推理穩(wěn)健性方面的重要性。本文要強(qiáng)調(diào)的是,該單元是通用的,因此適用于其他推理任務(wù),本文將對(duì)此進(jìn)行探討。這包括考慮對(duì)TVQA[17]和MovieQA[33]任務(wù)至關(guān)重要的附帶語(yǔ)言頻道的擴(kuò)展。
總結(jié)
以上是生活随笔為你收集整理的分层条件关系网络在视频问答VideoQA中的应用:CVPR2020论文解析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 实时实例分割的Deep Snake:CV
- 下一篇: 视频教学动作修饰语:CVPR2020论文