當(dāng)前位置：首頁(yè) > 人文社科 > 生活经验 >内容正文

生活经验

分层条件关系网络在视频问答VideoQA中的应用：CVPR2020论文解析

發(fā)布時(shí)間：2023/11/28 生活经验 16 豆豆

生活随笔收集整理的這篇文章主要介紹了分层条件关系网络在视频问答VideoQA中的应用：CVPR2020论文解析小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

分層條件關(guān)系網(wǎng)絡(luò)在視頻問(wèn)答VideoQA中的應(yīng)用：CVPR2020論文解析

Hierarchical Conditional Relation Networks
for Video Question Answering

論文鏈接：https://arxiv.org/pdf/2002.10698.pdf

摘要

視頻問(wèn)答（VideoQA）具有挑戰(zhàn)性，因?yàn)樗枰Ｄ芰?lái)提取動(dòng)態(tài)視覺偽影和遠(yuǎn)距離關(guān)系，并將它們與語(yǔ)言概念相關(guān)聯(lián)。本文介紹了一種通用的可重復(fù)使用的神經(jīng)單元，稱為條件關(guān)系網(wǎng)絡(luò)（CRN），它作為構(gòu)建塊來(lái)構(gòu)建更復(fù)雜的視頻表示和推理結(jié)構(gòu)。CRN以一個(gè)張量對(duì)象數(shù)組和一個(gè)條件特征作為輸入，并計(jì)算一個(gè)編碼輸出對(duì)象數(shù)組。模型構(gòu)建成為這些可重用單元的復(fù)制、重新排列和堆疊的簡(jiǎn)單練習(xí)，用于不同的模式和上下文信息。因此，該設(shè)計(jì)支持高階關(guān)系和多步推理。VideoQA的最終架構(gòu)是一個(gè)CRN層次結(jié)構(gòu)，其分支表示子視頻或剪輯，所有分支都與上下文條件共享相同的問(wèn)題。本文對(duì)知名數(shù)據(jù)集的評(píng)估取得了新的SoTA結(jié)果，展示了在復(fù)雜領(lǐng)域（如VideoQA）上構(gòu)建通用推理單元的影響。

Introduction

回答關(guān)于視頻的自然問(wèn)題是認(rèn)知能力的有力證明。該任務(wù)涉及在語(yǔ)言線索的合成語(yǔ)義指導(dǎo)下獲取和操作時(shí)空視覺表征[7，17，20，30，33，36]。由于問(wèn)題可能不受約束，VideoQA需要深入的建模能力，以分層方式編碼和表示關(guān)鍵的視頻屬性，如對(duì)象持久性、運(yùn)動(dòng)pro-files、長(zhǎng)時(shí)間動(dòng)作和可變長(zhǎng)度時(shí)間關(guān)系。對(duì)于VideoQA來(lái)說(shuō)，理想情況下，可視化表示應(yīng)該是特定的問(wèn)題并準(zhǔn)備好答案。

目前用于QA視頻建模的方法是構(gòu)建神經(jīng)架構(gòu)，其中每個(gè)子系統(tǒng)要么是為特定的定制目的設(shè)計(jì)的，要么是為特定的數(shù)據(jù)模式設(shè)計(jì)的。由于這種特殊性，這種手工構(gòu)建的體系結(jié)構(gòu)對(duì)于數(shù)據(jù)形態(tài)的變化[17]、不同的視頻長(zhǎng)度[24]或問(wèn)題類型（如幀QA[20]與動(dòng)作計(jì)數(shù)[6]）往往是最佳的。這導(dǎo)致了異構(gòu)網(wǎng)絡(luò)的激增。

在這項(xiàng)工作中，本文提出了一個(gè)通用的可重復(fù)使用的神經(jīng)單元，稱為條件關(guān)系網(wǎng)絡(luò)（CRN），它將對(duì)象數(shù)組封裝并轉(zhuǎn)換成一個(gè)新的基于上下文特征的數(shù)組。該單元計(jì)算輸入對(duì)象之間的稀疏高階關(guān)系，然后通過(guò)特定上下文調(diào)制編碼（參見圖2）。CRN的靈活性及其封裝設(shè)計(jì)使得它可以被復(fù)制和分層，以直接的方式形成深層的條件關(guān)系網(wǎng)絡(luò)（HCRN）。

因此，疊層單元提供了視頻對(duì)象關(guān)系知識(shí)的語(yǔ)境化重新定義——以階段性的方式，它將外觀特征與剪輯活動(dòng)流和語(yǔ)言語(yǔ)境相結(jié)合，并通過(guò)整合整個(gè)視頻運(yùn)動(dòng)和語(yǔ)言特征的語(yǔ)境進(jìn)行跟蹤。由此產(chǎn)生的HCRN是同質(zhì)的，符合網(wǎng)絡(luò)的設(shè)計(jì)理念，如InceptionNet[31]、ResNet[9]和FiLM[27]。

crn的層次結(jié)構(gòu)如下：在最低層次上，crn對(duì)剪輯中的幀外觀之間的關(guān)系進(jìn)行編碼，并將剪輯運(yùn)動(dòng)作為上下文進(jìn)行集成；該輸出在下一階段由crn進(jìn)行處理，crn現(xiàn)在集成在語(yǔ)言上下文中；在下一階段，CRN捕獲剪輯編碼之間的關(guān)系，并作為上下文集成在視頻運(yùn)動(dòng)中；在最后階段，CRN將視頻編碼與語(yǔ)言特征作為上下文集成（參見圖3）。該模型通過(guò)允許crn分層堆疊，自然地支持視頻和關(guān)系推理中的分層結(jié)構(gòu)建模；通過(guò)允許分階段引入適當(dāng)?shù)纳舷挛?#xff0c;該模型處理多模式融合和多步驟推理。

對(duì)于長(zhǎng)視頻，可以添加進(jìn)一步的層次結(jié)構(gòu)級(jí)別，以實(shí)現(xiàn)遠(yuǎn)距離幀之間關(guān)系的編碼。本文展示了HCRN在回答主要視頻qa數(shù)據(jù)集中的問(wèn)題的能力。四層CRN單元的層次結(jié)構(gòu)在所有的VideoQA任務(wù)中都能獲得良好的答案準(zhǔn)確性。值得注意的是，它在涉及外貌、動(dòng)作、狀態(tài)轉(zhuǎn)換、時(shí)間關(guān)系或動(dòng)作重復(fù)的問(wèn)題上一直表現(xiàn)良好，證明了模型可以分析和把所有這些渠道的信息結(jié)合起來(lái)。此外，HCRN可以很好地?cái)U(kuò)展到較長(zhǎng)的視頻，只需添加一個(gè)額外的層。

圖1展示了幾個(gè)典型的例子，這些例子對(duì)于視覺問(wèn)題交互的基線是困難的，但是可以通過(guò)本文的模型來(lái)處理。本文的模型和結(jié)果證明了建立支持本機(jī)多模態(tài)交互的通用神經(jīng)推理單元對(duì)提高VideoQA模型的魯棒性和泛化能力的影響。

Related Work

本文提出的HCRN模型通過(guò)解決兩個(gè)關(guān)鍵挑戰(zhàn)來(lái)推進(jìn)VideoQA的發(fā)展：
（1）有效地將視頻表示為各種互補(bǔ)因素的混合體，包括外觀、運(yùn)動(dòng)和關(guān)系，以及
（2）有效地允許這些視覺特征與語(yǔ)言查詢的交互。

Spatio-temporal video representation

本文的HCRN模型是在這些趨勢(shì)的基礎(chǔ)上發(fā)展起來(lái)的，它允許視頻信息的所有三個(gè)通道，即外觀、運(yùn)動(dòng)和關(guān)系，在分層多尺度框架的每一步中迭代地相互作用和補(bǔ)充。 HCRN將調(diào)節(jié)因子從已確定的信息中分離出來(lái)，因此它更有效，也更靈活地使操作者適應(yīng)調(diào)節(jié)類型。時(shí)間層次已經(jīng)被用于視頻分析[22]，最近用遞歸網(wǎng)絡(luò)[25,1]和圖網(wǎng)絡(luò)[23]。然而，本文相信本文是第一個(gè)考慮多模式的層次交互，包括視頻問(wèn)答的語(yǔ)言提示。

Linguistic query–visual feature interaction in VideoQA

HCRN模型支持將語(yǔ)言線索作為語(yǔ)境因素對(duì)視頻特征進(jìn)行條件化處理。這使得語(yǔ)言線索比任何可用的方法都能更早、更深入地參與視頻呈現(xiàn)結(jié)構(gòu)。

Neural building blocks

在VideoQA領(lǐng)域之外，CRN單元與其他通用的神經(jīng)構(gòu)建塊共享神經(jīng)架構(gòu)一致性的理想，例如InceptionNet中的塊[31]、ResNet中的剩余塊[9]、RNN中的遞歸塊、影像中的條件線性層[27]和神經(jīng)矩陣網(wǎng)中的矩陣矩陣塊[5]。本文的CRN通過(guò)假設(shè)一個(gè)支持條件關(guān)系推理的數(shù)組到數(shù)組塊，并且可以重用來(lái)構(gòu)建視覺和語(yǔ)言處理中的其他用途的網(wǎng)絡(luò)，從而顯著地背離了這些設(shè)計(jì)。

Method

VideoQA的目標(biāo)是根據(jù)一個(gè)自然問(wèn)題q，從videoV中推斷出答案a。答案a可以在一個(gè)答案空間a中找到，該回答空間a是為開放式問(wèn)題預(yù)先定義的一組可能的答案，或者在多選題的情況下，可以在一個(gè)候選答案列表中找到。形式上，VideoQA可以表述如下：

Visual representation

Linguistic representation

通過(guò)這些表示，本文現(xiàn)在描述本文的新的VideoQA層次結(jié)構(gòu)（見圖3）。在第3.1節(jié)中，本文首先介紹了作為架構(gòu)構(gòu)建塊的核心組成計(jì)算單元。在下面的小節(jié)中，本文建議將F設(shè)計(jì)為一個(gè)逐層網(wǎng)絡(luò)架構(gòu)，可以通過(guò)簡(jiǎn)單地以特定方式堆疊核心單元來(lái)構(gòu)建。

3.1. Conditional Relation Network Unit

本文引入了一個(gè)可重用的計(jì)算單元，稱為條件關(guān)系網(wǎng)絡(luò)（CRN），它將n個(gè)對(duì)象的數(shù)組和一個(gè)條件特征c-都放在同一向量空間Rd或張量空間中作為輸入。CRN生成一個(gè)相同維度的對(duì)象的輸出數(shù)組，其中包含給定全局上下文的輸入特征的高階對(duì)象關(guān)系。在Alg算法中給出了CRN單元的運(yùn)算1和圖2中的視覺效果。表1總結(jié)了這些演示文稿中使用的符號(hào)。

3.2. Hierarchical Conditional Relation Networks

本文使用CRN塊構(gòu)建一個(gè)深度網(wǎng)絡(luò)架構(gòu)，利用視頻序列的內(nèi)在特征，即時(shí)間關(guān)系、運(yùn)動(dòng)和視頻結(jié)構(gòu)層次，并支持由語(yǔ)言問(wèn)題引導(dǎo)的推理。本文將提出的網(wǎng)絡(luò)架構(gòu)稱為層次條件關(guān)系網(wǎng)絡(luò)（HCRN）（見圖3）。通過(guò)堆疊可重復(fù)使用的核心單元來(lái)設(shè)計(jì)HCRN的部分靈感來(lái)自于現(xiàn)代CNN網(wǎng)絡(luò)架構(gòu)，其中InceptionNet[31]和ResNet[9]是最著名的例子。

3.3. Answer Decoders and Loss Functions

在[10,30,6]之后，本文根據(jù)任務(wù)采用不同的應(yīng)答解碼器。開放式問(wèn)題被視為多標(biāo)簽分類問(wèn)題。為此，本文采用一個(gè)分類法，將檢索到的信息組合作為輸入。對(duì)于多選題類型（如TGIF-QA中的重復(fù)動(dòng)作和狀態(tài)轉(zhuǎn)換），每個(gè)候選答案的處理方式與問(wèn)題相同。具體來(lái)說(shuō)，本文使用共享參數(shù)HCRNs作為語(yǔ)言提示，無(wú)論是問(wèn)題還是每個(gè)候選答案。

3.4. Complexity Analysis

本文在這里提供一個(gè)簡(jiǎn)要的分析，留下詳細(xì)的衍生補(bǔ)充。對(duì)于固定采樣分辨率t，CRN的一次前向通過(guò)將花費(fèi)kmax中的二次時(shí)間。對(duì)于長(zhǎng)度n、特征尺寸F的輸入陣列，該單元產(chǎn)生具有相同特征尺寸的大小kmax-1的輸出陣列。HCRN的總體復(fù)雜性取決于每個(gè)CRN單元的設(shè)計(jì)選擇和CRN單元的具體布置。為了清楚起見，讓t=2和kmax=n-1，這在以后的實(shí)驗(yàn)中被發(fā)現(xiàn)是有效的。假設(shè)有N個(gè)長(zhǎng)度為T的剪輯，制作長(zhǎng)度為L(zhǎng)=NT的視頻。圖3的2級(jí)架構(gòu)需要2t LF時(shí)間計(jì)算最低層的crn，2NLF時(shí)間計(jì)算第二層，共2（T+N）LF時(shí)間。

Experiments Results

4.1. Datasets

TGIF-QA datasets，MSVD-QA datasets，MSRVTT-QA datasets。

本文使用準(zhǔn)確度作為所有實(shí)驗(yàn)的評(píng)估指標(biāo)，除了TGIF-QA數(shù)據(jù)集上應(yīng)用均方誤差（MSE）的重復(fù)計(jì)數(shù)。

4.2. Implementation Details

視頻被分割成8個(gè)片段，每個(gè)片段默認(rèn)包含16個(gè)幀。MSRVTT-QA中的長(zhǎng)視頻還被分割成24個(gè)片段，以評(píng)估處理非常長(zhǎng)的序列的能力。除非另有說(shuō)明，否則默認(rèn)設(shè)置為圖3所示的2級(jí)HCRN，d＝512，t＝1。本文最初以的學(xué)習(xí)率訓(xùn)練模型，每10個(gè)階段衰減一半。所有實(shí)驗(yàn)在25個(gè)階段后終止，報(bào)告的結(jié)果在給出最佳驗(yàn)證精度的階段。該模型的Pytorch實(shí)現(xiàn)可以在線獲得。

4.3. Results

TGIF-QA的結(jié)果匯總在表2中，MSVD-QA和MSRVTT-QA的結(jié)果匯總在圖4中。報(bào)告的競(jìng)爭(zhēng)對(duì)手?jǐn)?shù)量取自原始文件和[6]。很明顯，本文的模型在所有數(shù)據(jù)集的所有任務(wù)上都始終優(yōu)于或優(yōu)于SoTA模型。當(dāng)需要強(qiáng)大的時(shí)間推理時(shí)，即TGIF-QA中涉及動(dòng)作和轉(zhuǎn)換的問(wèn)題時(shí)，這些改進(jìn)尤其明顯。這些結(jié)果證實(shí)了同時(shí)考慮短期和長(zhǎng)期時(shí)間關(guān)系對(duì)找到正確答案的重要性。

為了更深入地了解本文的模型，本文對(duì)TGIF-QA進(jìn)行了廣泛的消融研究，并進(jìn)行了廣泛的配置。結(jié)果見表4。全2級(jí)HCRN表示圖3的全模型，kmax=n?1，t=2。總的來(lái)說(shuō)，本文發(fā)現(xiàn)燒蝕任何設(shè)計(jì)組件或CRN單元都會(huì)降低時(shí)間推理任務(wù)（動(dòng)作、轉(zhuǎn)換和動(dòng)作計(jì)數(shù)）的性能。具體效果如下。

本文在MSRVTT-QA數(shù)據(jù)集中的長(zhǎng)視頻上測(cè)試HCRN的可伸縮性，該數(shù)據(jù)集被組織成24個(gè)片段（比其他兩個(gè)數(shù)據(jù)集長(zhǎng)3倍）。本文考慮兩種設(shè)置：I 2級(jí)層次，24個(gè)剪輯→1vid：模型如圖3所示，其中24個(gè)剪輯級(jí)CRN后面跟著一個(gè)視頻級(jí)CRN。I三級(jí)分層，24個(gè)剪輯→4個(gè)子視頻→1個(gè)子視頻：從24個(gè)剪輯開始，如在二級(jí)分層中，本文將24個(gè)剪輯分成4個(gè)子視頻，每個(gè)子視頻由6個(gè)連續(xù)的剪輯組成，形成3級(jí)分層。這兩個(gè)模型的設(shè)計(jì)參數(shù)數(shù)量相似，約為50米。結(jié)果見表5。與現(xiàn)有的處理長(zhǎng)視頻的方法不同，本文的方法通過(guò)提供更深層的層次結(jié)構(gòu)來(lái)擴(kuò)展，如第3.4節(jié)中理論分析的那樣。使用更深層的層次結(jié)構(gòu)有望顯著減少HCRN的訓(xùn)練時(shí)間和推理時(shí)間，特別是在視頻較長(zhǎng)的情況下。在本文的實(shí)驗(yàn)中，本文通過(guò)從2級(jí)HCRN到3級(jí)HCRN的訓(xùn)練和推理時(shí)間減少了4倍，同時(shí)保持了相同的性能。

Conclusions

介紹了一種通用的神經(jīng)網(wǎng)絡(luò)單元條件關(guān)系網(wǎng)絡(luò)（CRNs）和一種以CRNs為構(gòu)建塊的視頻質(zhì)量保證分層網(wǎng)絡(luò)的構(gòu)造方法。CRN是一個(gè)關(guān)系變換器，它根據(jù)上下文特征將一個(gè)張量對(duì)象數(shù)組封裝并映射成一個(gè)同類的新數(shù)組。在此過(guò)程中，輸入對(duì)象之間的高階關(guān)系被條件特征編碼和調(diào)制。該設(shè)計(jì)允許靈活構(gòu)建復(fù)雜的結(jié)構(gòu)，如堆棧和層次結(jié)構(gòu)，并支持迭代推理，使其適用于視頻等多模態(tài)和結(jié)構(gòu)化領(lǐng)域的質(zhì)量保證。在多個(gè)視頻質(zhì)量保證數(shù)據(jù)集（TGIF-QA、MSVD-QA、MSRVTT-QA）上對(duì)HCRN進(jìn)行評(píng)估，證明其具有競(jìng)爭(zhēng)性推理能力。與基于時(shí)間注意的視頻對(duì)象選擇方法不同，HCRN側(cè)重于視頻中關(guān)系和層次的建模。這種方法和設(shè)計(jì)選擇上的差異帶來(lái)了顯著的好處。CRN單元可以通過(guò)注意機(jī)制進(jìn)一步增強(qiáng)，以覆蓋更好的對(duì)象選擇能力，從而可以進(jìn)一步改進(jìn)諸如幀QA之類的相關(guān)任務(wù)。在VideoQA中對(duì)CRN的檢查突出了構(gòu)建支持本機(jī)多模態(tài)交互的通用神經(jīng)推理單元在提高視覺推理穩(wěn)健性方面的重要性。本文要強(qiáng)調(diào)的是，該單元是通用的，因此適用于其他推理任務(wù)，本文將對(duì)此進(jìn)行探討。這包括考慮對(duì)TVQA[17]和MovieQA[33]任務(wù)至關(guān)重要的附帶語(yǔ)言頻道的擴(kuò)展。

總結(jié)

以上是生活随笔為你收集整理的分层条件关系网络在视频问答VideoQA中的应用：CVPR2020论文解析的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：实时实例分割的Deep Snake：CV
下一篇：视频教学动作修饰语：CVPR2020论文