视频教学动作修饰语:CVPR2020论文解析
視頻教學動作修飾語:CVPR2020論文解析
Action Modi?ers: Learning from Adverbs in Instructional
Videos
論文鏈接:https://arxiv.org/pdf/1912.06617.pdf
摘要
我們提出了一種從結構視頻中學習副詞表達的方法,該方法使用對伴隨敘述的弱監督。我們的方法的關鍵是,副詞的視覺表現高度依賴于它所適用的動作,盡管同一個副詞會以類似的方式修改多個動作。例如,雖然“快速傳播”和“快速混合”看起來不一樣,但我們可以學習一種通用表示法,它允許我們在其他動作中同時識別這兩種動作。我們將其描述為一個嵌入問題,并利用標度點積注意從弱監督視頻敘述中學習。我們共同學習副詞作為在嵌入空間上操作的可逆變換,以增加或消除副詞的效果。由于目前還沒有關于弱監督副詞學習的研究,我們從How-To-100M數據集中收集了6個副詞的成對動作副詞注釋:快/慢、粗/粗、部分/完全。該方法在視頻副詞檢索中的性能優于所有基線,達到了0.719map。我們還演示了我們的模型處理相關視頻部分的能力,以便確定給定動作的副詞。
- Introduction
教學視頻是一種受歡迎的媒體類型,全世界數百萬人觀看它來學習新技能。之前的幾部作品旨在從這些視頻中學習完成任務所需的關鍵步驟[1,30,45,62]。然而,確定這些步驟或它們的順序并不是一個人完成任務所需要的全部;有些步驟需要以某種方式執行才能達到預期的結果。例如,做一個蛋白酥餅的任務。專家會向你保證逐漸加入糖是非常重要的,并通過輕輕折疊混合物來避免打過頭。這與最近評估日常任務執行情況的工作有關[10,11,26],然而,這些工作并沒有評估個人行為,也沒有確定是否按照食譜的建議執行過。與前面的例子一樣,帶有此類警告的步驟通常由描述應該如何執行操作的副詞表示。這些副詞(如快速、溫和等)概括成不同的動作,并改變動作的方式。因此,我們將其作為動作修改器來學習(圖1)。
為了學習各種任務和動作的動作修改器,我們利用在線教學視頻資源和附帶的敘述。然而,這種形式的監督是軟弱和喧囂的。不僅敘述與視頻中的動作大致一致,而且通常敘述的動作可能無法在視頻中全部捕獲。例如,YouTube的教學視頻可能會被描述為“快速倒入奶油”,但視覺效果只顯示已經添加的奶油。在這種情況下,視頻對學習副詞“快”沒有幫助。
作為本文的主要貢獻,我們建議第一種弱監督學習副詞的方法,將相關的視頻片段嵌入到一個潛在的空間中,在這個空間中學習副詞作為轉換。我們從HowTo10000M數據集中任務子集的敘述中收集動作副詞標簽[33]。該方法對視頻副詞檢索和視頻副詞檢索進行了評估,并顯示出比基線顯著的改進。此外,我們提出了一項全面的消融研究,證明共同學習良好的動作嵌入是學習動作修改者的關鍵。
- Related Work
Instructional Videos
在這項工作中,我們提供了一個新穎的見解,如何使用這些教學視頻超越步驟識別。我們的工作利用了最近發布的HowTo1億數據集[33]中的視頻,學習副詞及其與這些任務中關鍵步驟的相關性。
Learning from Parts-of-Speech in Video
這項工作使用包括動作邊界框在內的全面監督。相反,在這項工作中,我們的目標副詞代表的方式,一個行動是執行,只使用微弱的監督從敘述。
Object Attributes in Images
雖然有些作品學習動作的屬性[28、43、58],但這些作品檢測特定屬性的組合(例如“戶外”、“使用牙刷”)以執行零鏡頭識別,而不將副詞視為屬性。
Weakly Supervised Embedding
在我們的工作中,我們同時嵌入視頻的相關部分,同時學習副詞如何修飾動作。
- Learning Action Modi?er
輸入到我們的modela反應副詞敘述和附帶的教學視頻。圖2(a)顯示了一個結構視頻示例,用“…從快速滾動檸檬開始…”進行敘述,從中我們可以快速識別動作滾動和副詞(見Sec. 3.4了解NLP詳細信息)。經過訓練,我們的模型能夠評估在測試集中,相同或不同動作的視頻,在學習副詞的過程中,是否得到了快速的實現。我們在圖2中概述了我們的方法。我們學習如圖2(b)所示的聯合視頻文本嵌入,其中相關視頻部分嵌入(藍點)接近副詞修飾動作“快速滾動”(黃點)的文本表示。我們回顧了聯合視頻文本嵌入通常是如何在
Sec. 3.1中訓練。本節還介紹了本文其余部分的注釋。學習問題的嵌入存在兩個主要挑戰,即從教學視頻中的副詞學習。首先是將動作的表示與副詞分開,讓我們了解同一個副詞如何應用于不同的動作。我們建議學習副詞作為動作修飾語,每個副詞一個,如圖2(c)所示。Sec. 3.2我們介紹了這些動作修改器,我們將其表示為嵌入空間中的變換。第二個挑戰是以弱監督的方式從視頻的相關部分學習視覺表示,即沒有時間界限的注釋。Sec. 3.3提出了一種利用多頭標度點積注意的弱監督嵌入函數。這使用動作的文本嵌入作為查詢來關注相關的視頻部分,如圖2(d)所示。
3.1. Learning an Action Embedding
我們的基本模型是一個聯合視頻文本嵌入,如[32,52,54]。具體地說,給定一組具有對應動作標簽a∈a的視頻片段x∈x,我們的目標是獲得兩個嵌入函數,一個視覺的,一個文本的,f:x→E和g:a→E,使得f(x)和g(a)在嵌入空間E中很接近,f(x)與其他動作嵌入g(a)很遙遠。
3.2. Modeling Adverbs as Action Modifiers
雖然動作沒有副詞,但副詞是通過與動作相關聯的定義而存在的,只有與動作相關聯時才能獲得視覺表現。雖然副詞對不同的動作有著相似的作用,但視覺表征對動作的依賴性很強。因此,我們遵循文獻[36]關于視頻文本嵌入空間E(Sec3.1)中對象-屬性對和模型副詞作為學習轉換的先前工作。當這些轉換修改動作的嵌入時,我們稱之為動作修改器。
3.3. Weakly Supervised Embedding
從圖像中學習對象屬性的所有先前工作[7、20、34、36、37]都利用完全注釋的數據集,其中屬性所涉及的對象是圖像中唯一感興趣的對象。相比之下,我們的目標是以弱監督的方式從視頻中學習動作修改器。我們的輸入是包含多個連續動作的未剪輯視頻。為了學習副詞,我們只需要從與動作相關的視頻部分(如圖2示例中的“roll”)進行視覺表示。我們建議使用縮放點積注意[49],其中嵌入的感興趣的動作充當查詢來識別相關視頻部分。
3.4. Weakly Supervised Inference
經過訓練,我們的模型可以用來評估視頻和副詞的跨模態檢索。對于從視頻到副詞的檢索,我們考慮視頻查詢x和敘述動作a,我們希望估計副詞m。例如,我們有一個視頻,希望確定動作“切片”的執行方式。對于這兩種情況,我們都可以使用a查詢弱監督嵌入,以便處理相關的視頻部分。
- Dataset
圖4顯示了從流水線獲得的(動作、副詞)對與相應視頻片段的示例。此外,我們還手動過濾不可見的動作和副詞,例如“推薦”和“正常”。我們探索了諸如單詞具體程度評分等自動方法[5],但發現這些方法是不可靠的。我們還將動詞分組,以避免出現[8]中的同義詞,也就是說,我們認為“put”和“place”是同一個動作。通過這個過程,我們得到了15266個動作副詞對的實例。然而,這些副詞有一個長長的尾巴,只有少數幾次被提及。我們把學習限制在6個常用副詞上,這6個副詞有3對反義詞:“部分地”、“完全地”、“快速地”、“緩慢地”和“完全地”、“粗略地”。這些副詞出現在263個獨特的動作副詞對中,有72個不同的動作。我們給出了分布函數。當我們的訓練有噪音時,也就是說,動作不能出現在視頻中(參見圖4底部),我們會清理測試集,以便對方法進行準確評估。我們只考慮動作副詞出現在視頻中并且出現在敘述時間戳周圍20秒內的測試集視頻。這相當于原始測試集的44%,與作者在[33]中報告的50%噪聲水平相當。結果訓練中有5475個動作副詞對,測試中有349個動作副詞對。我們認為動詞和副詞之間的平均時間戳是對動作位置的弱監控。這些動作副詞弱時間戳注釋和伴隨代碼是公開可用的2。
- Experiments Results
比較結果見表1。在視頻副詞檢索中,無論是與所有副詞進行比較還是將評價限制在反義詞對上,我們的方法都優于所有的基線。我們看到AttributeOp是最好的基線方法,通常比RedWine和LabelEmbed都表現得更好。后兩種方法在固定的視覺特征空間中工作,因此當特征在該空間中不可分離時容易出錯。我們還可以看到,LabelEmbed在所有指標上的表現都優于RedWine,這表明GloVe特征比支持向量機分類權重的表現更好。雖然AttributeOp在視頻“All”副詞上的表現略好于我們的方法,但它在所有其他指標上的表現都不如我們,包括我們的主要目標,即在視頻查詢的反義詞上估計正確的副詞。
圖5示出了視頻示例。對于每一個,我們展示了幾個動作查詢的注意權重。我們的方法能夠成功地處理與各種查詢操作相關的段。圖中還顯示了預測動作和預測副詞,當使用基本事實動作作為查詢時。我們的方法能夠預測正確的副詞。在最后一個例子中,預測的動作是不正確的,但是該方法正確地識別了相關的片段,并且動作是“緩慢”完成的。我們提供了進一步的見解,學習嵌入空間的補充。
在表2中,我們研究了不同的動作修改器表示(式2)。我們比較了從副詞(m)的GloVe式表示(未習得)到三種習得式表示的固定翻譯。首先,使用從GloVe嵌入初始化的學習翻譯向量bm。第二,我們選擇的表示形式是矩陣Wm的二維線性變換,如式2所示。第三,我們學習了一個非線性轉換實現為兩個完全連接的層,第一個與ReLU激活。結果表明,線性變換明顯優于矢量變換和非線性變換。翻譯向量沒有足夠的能力來表示副詞的復雜性,而非線性轉換則容易出現過切現象。
在表3中,我們比較了我們提出的多頭標度點積注意(Sec. 3.3)采用時間聚集和注意力的替代方法。在這個比較中,我們還報告了動作檢索結果,用視頻到動作的映射。
在圖6中,我們評估在弱時間戳周圍提取的視頻的長度(T)如何影響模型(Sec. 3.3)。對于較大的T,視頻更可能包含相關動作,但也包含其他動作。我們的嵌入函數f0(x,a)能夠忽略視頻中的其他動作,直到某一點,并成功地學會關注給定查詢動作的相關部分,從而在T∈{20。。30}。
- Conclusions
本文提出了一種弱監督的教學視頻副詞學習方法。我們的方法學習使用敘述動作作為查詢,獲取并嵌入具有縮放點積注意的視頻相關部分。然后,該方法將動作修改器學習為嵌入動作的線性變換;在動作之間共享。我們對83個任務的YouTube視頻中的動作副詞對進行了分析,并對分析后的方法進行了訓練和評估。結果表明,在考慮副詞與反義詞的對比時,該方法優于所有基線,達到了視頻副詞檢索的0.808映射。今后的工作將包括從少數鏡頭示例中學習,以便表示更多種類的副詞,并探索應用程序,以便在教學視頻或書面說明的指導下向人們提供反饋。
總結
以上是生活随笔為你收集整理的视频教学动作修饰语:CVPR2020论文解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 分层条件关系网络在视频问答VideoQA
- 下一篇: 深度人脸识别:CVPR2020论文要点