ECCV 2018 | 腾讯AI Lab提出视频再定位任务,准确定位相关视频内容
騰訊 AI Lab 主導提出一種新的視頻再定位方法,能在多個備選視頻中快速找到希望搜索的片段。該研究論文被頂級會議 ECCV 2018 收錄,以下是技術詳細解讀。?
ECCV(European Conference on Computer Vision,計算機視覺歐洲大會)將于 9 月 8 日-14 日在德國慕尼黑舉辦,該會議與 CVPR、ICCV 共稱為計算機視覺領域三大頂級學術會議,每年錄用論文約 300 篇。AI Lab 是第二次參與該會議,錄取文章數高達 19 篇,位居國內前列。在剛結束的計算機視覺領域另外兩大會議 CVPR,ICCV 中也收獲頗豐,分別錄取 21 篇和 7 篇論文。
■?論文 | Video Re-localization
■ 鏈接 | https://www.paperweekly.site/papers/2272
■ 作者 |?Yang Feng / Lin Ma / Wei Liu / Tong Zhang / Jiebo Luo
該研究由騰訊 AI Lab 主導,與美國羅切斯特大學(University of Rochester)合作完成,研究目的是在給定一個欲搜索的視頻后,在某個備選視頻中,快速找到與搜索視頻語義相關的片段,這在視頻處理研究領域仍屬空白。
因此本文定義了一個新任務——視頻再定位(Video Re-localization),重組 ActivityNet 數據集視頻,生成了一個符合研究需求的新數據集,并提出一種交叉過濾的雙線性匹配模型,實驗已證明了其有效性。?
目前應用最廣泛的視頻檢索方法是基于關鍵字的視頻檢索,這種檢索方法依賴人工標記,而人工標記不能涵蓋視頻的所有內容。基于內容的視頻檢索(CBVR)可以克服上述不足,但是 CBVR 方法一般返回完整的視頻,并不會返回具體的相關內容的位置。行為定位(Action Localization)方法可以定位到具體行為在視頻當中發生的位置,但是這類方法一般只能定位某些具體的行為類別。
▲?圖1:一段查詢視頻(上)和兩段備選視頻(中、下)。與查詢視頻相關的片段已經用綠色方框標出。
圖 1 當中有三段視頻,當給定圖 1 中的查詢視頻之后,如何在兩個備選視頻當中找到與查詢視頻語義相關的片段?
已有的視頻處理方法并不能很好的解決這個問題。比如,視頻拷貝檢測(Video Copy Detection)方法只能檢測同一段視頻出現的不同位置,拷貝檢測不能處理圖 1 當中的場景變化和動作角色變化的情況。另外,也很難用行為定位方法來解決這個問題,因為訓練行為定位的模型需要大量的行為樣本數據,在圖 1 的例子當中,我們只有一個數據樣本。
思路
為了解決這類問題,我們定義了一項新的任務,任務的名字是視頻再定位。在給定一段查詢視頻和一段備選視頻之后,視頻再定位的目標是快速的在備選視頻當中定位到與查詢視頻語義相關的視頻片段。
要解決視頻再定位問題,面臨的第一個困難是缺少訓練數據。雖然目前有很多視頻數據集,但是它們都不適合視頻再定位研究。訓練視頻再定位模型,需要成對的查詢視頻和備選視頻,并且備選視頻當中需要有和查詢視頻語義相關的片段,相關片段的起始點和終止點也需要標注出來。
收集這樣的訓練數據費時費力。為了得到訓練數據,我們決定重新組織現有的數據集,來生成一個適合視頻再定位研究的新數據集。經過調研,我們決定使用 ActivityNet 數據集當中的視頻,來構建新數據集。
ActivityNet 數據集當中包含 200 類行為,我們認為同一個類別下的兩個行為片段是互相語義相關的。在 ActivityNet 數據集當中,每類行為的樣本被劃分到訓練集,驗證集和測試集。因為視頻再定位并不局限在一些特定的類別,這種劃分并不適合視頻再定位任務。
因此,我們決定根據行為的類別,來劃分訓練集,驗證集和測試集。我隨機選取了 160 類行為作為訓練用,其余的 20 類行為做驗證用,再剩余的 20 類行為做測試用。經過一系列的視頻預處理和篩選,我們得到了近 10000 個可用的視頻。在訓練的過程當中,我們隨機的選擇同一行為類別的兩個視頻,分別作為查詢視頻和備選視頻。測試的時候,我們固定了查詢視頻和備選視頻的組合。圖 2 展示了本文構建的數據集中每部分視頻樣本的數量。
▲?圖2:本文構建的數據集當中,每類行為當中的視頻樣本個數。綠色,藍色和紅色分別表示訓練,驗證和測試用的視頻。
模型
為了解決視頻再定位問題,我們提出了一種交叉過濾的雙線性匹配模型。對于給定一段查詢視頻以及一段備選視頻,我們首先分別對查詢視頻和備選視頻進行特征提取,然后將查詢視頻使用注意力機制合并成一個特征向量用于與備選視頻匹配。匹配的時候,我們過濾掉不相關的信息,提取相關的信息,然后用雙向 LSTM 來生成匹配結果。最后,我們把匹配結果整合,輸出預測的起始點和終止點的概率。
接下來,我們著重介紹模型中具有創新性的交叉過濾機制,雙向性匹配機制,以及定位層。
▲?圖3:模型的框架圖
交叉過濾 (Cross Gating)
因為在備選視頻當中有很多我們不關心的內容,所以在匹配的過程當中,我們需要一種過濾機制來去除不相關的內容。我們根據當前的查詢視頻的特征,來生成一個過濾門,用來過濾備選視頻。相應的,我們根據備選視頻的特征,來生成另外一個過濾門,來過濾查詢視頻。
這里的 σ?表示 sigmoid 函數,⊙ 表示對對應位相乘,、、、是模型的參數。和分別是備選視頻和查詢視頻的特征表示。
雙線性匹配 (Bilinear Matching)
在得到查詢視頻和備選視頻的特征表示之后,傳統的方法將他們拼接到一起,然后輸入到神經網絡來計算匹配結果。直接的拼接的方法,并不能很好的得到視頻中相關的內容,所以我們采用雙線性匹配的方法來代替拼接,來更加全面的獲取視頻的相關內容。
上式中,、是模型的參數。
定位層(Localization)
根據視頻匹配結果,我們來預測備選視頻當中每個時間點是開始點和結束點的概率。除此之外,我們還預測了一個時間點是在相關視頻片段之內或者不在相關視頻片段之內的概率。
其中,是 LSTM 的隱含狀態,、是模型的參數,是上一層匹配得到的結果。在預測的時候,我們選擇聯合概率最大的視頻片段。
其中,是第 s 個時間點是視頻片段的起始點的概率,是第 e 個時間點是視頻片段的終止點的概率,是第 i 個時間點是視頻片段中的一個時間點的概率。
實驗
在實驗當中,我們設計了三種基線方法。第一個基線方法根據視頻幀之間的相似度,計算兩個視頻片段的相關程度。第二個基線方法把每個視頻編碼成一個特征向量,然后用特征向量的距離表示兩段視頻的相關程度。第三個基線方法沒有使用查詢視頻,僅根據備選視頻選擇最有可能包含行為的視頻片段。
在新構建的數據集上定位的定量結果如表 1 所示。另外,一些定性的結果如圖 4 所示。可以看到我們提出的方法取得的較優的定位結果。
▲?表1.?不同方法的定位結果
▲?圖4. 定性結果
點擊以下標題查看更多論文解讀:?
網絡表示學習綜述:一文理解Network Embedding
神經網絡架構搜索(NAS)綜述
從傅里葉分析角度解讀深度學習的泛化能力
哈佛NLP組論文解讀:基于隱變量的注意力模型
ACL2018高分論文:混合高斯隱向量文法
COLING 2018最佳論文:序列標注經典模型復現
一文解析OpenAI最新流生成模型「Glow」
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
總結
以上是生活随笔為你收集整理的ECCV 2018 | 腾讯AI Lab提出视频再定位任务,准确定位相关视频内容的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玩转Keras之Seq2Seq自动生成标
- 下一篇: 岗位推荐 | 实在智能招聘深度学习算法研