TPAMI 2021 | 时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度
?作者?|?張宋揚、彭厚文等
來源?|?機器之心
當時間的維度從一維走向二維,時序上的建模方式也需要相應的改變。本文提出了多尺度二維時間圖的概念和多尺度二維時域鄰近網絡(MS-2D-TAN)用于解決視頻時間定位的問題。本文拓展自 AAAI 2020 [1],并將單尺度的二維時間建模拓展成了一個多尺度的版本。新模型考慮了多種不同時間尺度下視頻片段之間的關系,速度更快的同時精度也更高。本文在基于文本的視頻時間定位任務中驗證了其有效性。相關內容將發表在 TPAMI上。
時間可以是二維的嗎?這是一個好問題!
我們常常將物理世界定義為三維空間,將時間定義為一維空間。但是,這不是唯一的定義方式。最近,羅切斯特大學和微軟亞洲研究院的學者們大開腦洞,提出了一種新的時間表示方式,將時間定義成了二維的!
在二維空間里,時間是如何表達的呢?童鞋們給出的答案是這樣的:在二維空間中,我們定義其中一個維度表示時間的開始時刻,另外一個維度表示持續的時間;從而,二維空間中的每一個坐標點就可以表達一個時間片段(例如,從 A 時刻開始持續 B 秒的時間片)。
在這種二維空間定義下,如果我們把單位時間刻度設置的越小,那么可以觀測到時域上更加局部和微觀的關系。而如果把單位時間刻度設置的較大,那么觀測到的關系將更加全局和宏觀。如果能有效地結合兩者,將會對片段間的關系有更豐富的描述。
(參考自 https://www.msra.cn/zh-cn/news/features/aaai-2020-2d-tan)
基于文本的視頻時間定位的目標是,給一段文字,在視頻中找到文本所對應視頻片段,并給出片段的開始時間和結束時間。如圖 1 Query A 所示,給一段文字 「一個人吹起了薩克斯」和一段視頻,這個任務希望找到與文字描述最匹配的那個片段。許多前人的工作都是獨立考慮片段和文本之間的相似程度,而忽略了片段與片段之間的上下文信息。如圖 1 Query C 所示,為了定位「這個人再一次吹起了薩克斯」, 如果只看后半段的視頻是很難定位「再」 這個詞的。此外,如圖 1 Query B 所示, 很多高度重合的片段有相似的內容,如果不對這些片段進行對比的話,很難區分哪個片段與文字描述最匹配。
為了解決這一問題,該研究在 AAAI 2020 的論文中提出了一個二維時域鄰近網絡(2D-TAN)。該網絡的核心思想是在一個二維時間圖上做視頻的時間定位。如圖 1(a)所示,圖中(i,j) 表示的是一個從 i 開始持續 j+1 的時間片段。對于不同長度的片段,我們可以通過坐標上的遠近來定義他們之間的鄰近關系。有了這些關系,我們就可以用 2D-TAN 對這種依賴關系進行建模。此外,因為 2D-TAN 是將這些片段當成一個整體來考慮,學出來的片段特征也更具有區分性。
論文地址:https://arxiv.org/abs/2012.02646
代碼地址:https://github.com/microsoft/2D-TAN/tree/ms-2d-tan
這里二維時間圖的單位時間長度τ決定了定位精細程度。為了讓定位更精細,該研究設計了一個多尺度的二維時間圖,如圖1(b) 。該研究選取不同的單位時間長度來構造不同精細度的二維時間圖。這種方式可以讓模型在更大的時間范圍上學習片段間的依賴關系,同時也讓每個片段獲得更豐富的上下文信息。另一個好處是,這種多尺度建模也可以看作是一種稀疏采樣的方式,從而降低片段特征抽取和片段間建模所帶來的計算開銷,將計算復雜度從二次方降到了線性 。
圖 1 二維時間圖的示意圖。(a) 表示的是稠密單尺度二維時間圖。黑色坐標軸分別表示的是開始和時長的標號,而灰色坐標軸表示的是與之對應的開始時刻和持續時間。二維圖中紅色的程度表示目標片段和候選片段的匹配程度。這里是一個預先定義好的單位時長。白色格子表示無效的視頻片段。(b)表示的是稀疏多尺度二維時間圖。稀疏多尺度二維時間圖由多個二維時間圖構成,各個二維時間圖的單位時長不相同()?;疑褡颖硎居行У呛蜻x的視頻片段。其他顏色定義同上。通過在多個小尺寸圖上建模,可以減少計算開銷。
下面我們將具體介紹該方法。
多尺度二維時域鄰近網絡(MS-2D-TAN)
本文提出的模型如圖 2 所示。該模型由三個模塊構成:文本編碼模塊,視頻的二維時間特征圖模塊和多尺度二維時間鄰近網絡。下文將逐一介紹各個模塊。
圖 2 MS-2D-TAN 的框架示意圖。
語句的文本特征
該研究首先將各個單詞用 GloVe 進行編碼,再輸入到 LSTM 中。該研究將 LSTM 的輸出取平均作為語句的特征向量。
視頻的二維時域特征圖
該研究首先將視頻分割成N個小的單元片段(clip),再通過預訓練好的模型將這些片段抽取特征,大小是N×d^V。候選片段由多個連續的單元片段所構成,且長度并不相同。為獲取統一的片段特征的表示,該研究將抽取好的單元片段特征通過疊加卷積的方式獲得所有候選片段特征。再根據每個候選片段的開始時刻和持續時間,將所有的候選片段排列成一個二維特征圖。
當研究人員使用N - 1 個卷積層可獲得所有有效片段的特征。但當N較大時,這樣的計算開銷也往往較大。因此,該研究采用了一個稀疏采樣的方式。如圖 2 所示,該研究對較短的片段進行密集的采樣,而對較長的片段進行稀疏采樣。先用 A 層步長為 1,核尺寸為 2 的卷積獲得短片段的特征,之后每隔 A/2 個卷積層,步長增加一倍,逐步獲得較長片段的特征。通過這種方式可以不用枚舉出所有的片段,從而降低計算開銷。前者獲得的二維特征圖我們稱之為稠密二維特征圖,而后者則稱之為稀疏二維特征圖。
通過多尺度二維時間鄰近網絡定位
有了視頻的稀疏二維特征圖(圖 2 中藍色立方體)和文本特征(圖 2 中黃色立方體),該研究將其進行融合,獲得融合的稀疏二維特征圖(圖 2 中綠色立方體)。該研究再根據不同的時間尺度,將單一尺度的稀疏二維特征圖,轉化成一組稀疏的多尺度二維特征圖。對于每個尺度的二維特征圖,該研究使用一系列的 gated convolution 對每個片段和其鄰近片段的關系進行建模,并通過一個全聯接層獲得各尺度中各片段最終的得分。
訓練和測試
在訓練過程中,每一個尺度都會有一個對應的損失函數,該研究將二元交互熵 (Binary Cross Entropy) 作為模型的損失函數,同時使用一個經過線性變換的 IoU (intersection over union)的值作為損失函數中的標簽。該研究將所有的損失函數加在一起作為整個模型的損失函數。
在測試時,該研究根據特征的位置,得到每個片段的得分,并根據 NMS 對其進行篩選。如果一個片段存在于多個得分圖中,那么選取最高的得分作為其得分。
實驗結果
該研究在 Charades-STA [2], ActivityNet Captions [3] 和 TACoS [4] 三個數據集上評測。實驗結果如表 1-3 所示。為了公平對比,該研究使用了和前人方法相同的視頻和文本特征,且所有模型的超參保持一致。從實驗結果中,無論使用哪種特征,該研究提出的 MS-2D-TAN 方法均能獲得前兩位的成績。而在某些數據集上,進一步調整超參可以獲得更好的性能,如表 3 的 MS-2D-TAN*。
表 1 Charades-STA 的實驗結果
表 2 ActivityNet Captions 的實驗結果
表 3 TACoS 的實驗結果
時間和內存的開銷
該研究還對比了時間和內存的開銷。圖 3 中對比了稠密單尺度二維特征圖,稀疏單尺度二維特征圖 [1] 以及本文提出的稀疏多尺度二維特征圖??梢园l現在當視頻長度較長時,使用稀疏多尺度二維特征圖可以大幅減少時間和內存的開銷。在圖 4 中該研究也與其他方法在 TACoS 上進行了對比。當研究人員使用一個隱層參數量較小的模型 MS-2D-TAN (Small) 時, 該研究的方法可以在保證速度和內存開銷稍小的前提下,比其他方法獲得更高的精度。而使用較大參數量的 MS-2D-TAN 可以進一步提高精度。
圖 3 三種不同二維特征圖時間開銷的對比。N 表示多少個單元片段(clip)
圖 4 與其他方法的時間和內存開銷對比
結語
本文針對基于文本的視頻時間定位提出了一種全新的多尺度二維時間表示方式并提出了一種新的多尺度時域鄰近網絡(MS-2D-TAN)。該模型可以很好的利用鄰近時域的上下文信息,并學出有區分性的視頻片段特征。該研究的模型設計簡單,也同時在三個數據集上取得了有競爭力的結果。
參考文獻:
[1] Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language”, AAAI 2020
[2] Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2017
[3] Ranjay Krishna, Kenji Hata,? Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2017
[4] Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2013
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的TPAMI 2021 | 时间走向二维,基于文本的视频时间定位新方法兼顾速度与精度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么在优盘里下载视频格式 优盘怎样下载视
- 下一篇: U盘显示用了很多但实际文件很小怎么回事