ECCV 2018论文解读 | DeepVS:基于深度学习的视频显著性方法
作者丨蔣錸
學校丨北京航空航天大學在校博士,大不列顛哥倫比亞大學聯合培養博士
研究方向丨計算機視覺
本文概述了來自北京航空航天大學徐邁老師組 ECCV 2018 的工作 DeepVS: A Deep Learning Based Video Saliency Prediction Approach。全文主要貢獻點有三:
建立了大規模普適視頻的眼動數據庫,包含了 158 子類的 538 個視頻,以及詳盡的數據分析;
構造了基于運動物體的靜態結構 OM-CNN 用于檢測幀內顯著性;
構造了動態結構 SS-ConvLSTM 用于預測視頻顯著性的幀間轉移,同時考慮到了顯著性的稀疏先驗和中心先驗。
■?論文 | DeepVS: A Deep Learning Based Video Saliency Prediction Approach
■ 鏈接 |?https://www.paperweekly.site/papers/2329
■ 源碼 |?https://github.com/remega/OMCNN_2CLSTM
▲?圖1. 本文海報
背景
和圖片顯著性檢測不同,現在很少有基于深度學習的視頻顯著性檢測方法。這其中有很大一部分原因是由于缺乏眼動數據,而采集人眼在視頻中的視覺關注點是一件開銷很大的事情。
如圖 2 所示,已有的數據普遍規模較小,且存在一些如分辨率不高,關注點采樣率低的問題。而大規模眼動數據庫如 Hollywood(Mathe and Sminchisescu, 2015)中的視頻是任務驅使的(task-driven),均是用于動作識別任務的電影片段,而不是普適性視頻(general videos)。相比于任務驅使的顯著性檢測,普適性視頻的顯著性檢測有更多應用場景,然而此類顯著性檢測方法和數據庫都十分匱乏。
▲?圖2. 已有眼動數據庫總結
數據庫與分析
為了保證視頻內容的豐富性,我們粗糙構造了基于視頻內容關鍵字的動態樹,并基于此在 Youtube 上下載視頻,并基于實際情況修改動態樹。最終動態樹結構見圖 3,共計 158 個視頻子類,538 個視頻片段(部分實例見圖 4)。
▲?圖3.?動態樹
▲?圖4.?LEDOV視頻庫樣例
之后,使用 Tobii TX300 眼動儀采集 32 個被試者在這些視頻上的人眼視覺關注點,共計采集 5,058,178 個關注點。
基于采集到的眼動數據,我們進行了數據分析,得到了 3 個非常直觀的發現:1)顯著性與物體相關性較高;2)顯著性與運動的物體以及物體中的運動部位相關性高;3)顯著性在幀間會存在平滑的轉移。數據分析見圖 5。
▲?圖5.?數據庫分析
方法
為此,我們根據第一二點發現提出了 CNN 結構,OM-CNN(結構見圖 6)。
▲?圖6.?OM-CNN結構
此網絡由 Objectness subnet 與 Motion subnet 構成,其中 Objectness subnet 使用了 YOLO 的結構和預訓練參數,用于提取帶有物體信息的空間特征。Motion subnet 使用 FlowNet 的結構和預訓練參數,用于提取帶有運動信息的空間特征。
為了讓網絡在提取運動特征的時候更加關注在物體區域上(發現 2),我們利用 Objectness subnet 的輸出特征作為輸入,生成了一個 cross-net mask 作用在 Motion subnet 的卷積層上。我們認為,在訓練過程中 cross-net mask 可以很好的表示物體區域。
▲?圖7.?Cross-net mask可視化
圖 7 是對 cross-net mask 的一些可視化結果,第一行是輸入幀,第二行是真實人眼關注點(Ground truth),第三行使我們算法的最終輸出,最后四行是在訓練過程中 cross-net mask 的變化。我們可以看到,cross-net mask 能逐漸定位到物體區域,且在之后訓練的過程中變化不大,與預期結果相似。
最終我們提取了兩個子網絡的多尺度特征,拼接在一起,來預測幀內的顯著性。值得注意的是,OM-CNN 與之后的動態結構是分開訓練的,此時的顯著圖僅用于訓練 OM-CNN,而 OM-CNN 的輸出特征將被用于動態結構的輸入。
根據第三點發現,我們設計的動態結構 SS-ConvLSTM(見圖 8)。
▲?圖8.?SS-ConvLSTM結構
其主體結構是一個雙層的卷積 LSTM,用于產生像素級的輸出。和傳統卷積 LSTM 不同的是,SS-ConvLSTM 考慮到了基于顯著性的先驗知識:中心先驗和稀疏先驗。中心先驗指的是人們在看視頻或者圖片的時候往往容易關注到中心的位置。
為此,我們提出了 Center-bias Dropout(圖 9,詳細見原文)。
▲?圖9.?Center-bias Dropout
和普通 Dropout 不同,Center-bias Dropout 中所有像素的 dropout rate 并不是相同的,而是基于一個 Center-bias map。簡單來說,中心區域像素的 dropout rate 可以比邊界區域的 dropout rate 低很多。
稀疏先驗指的是人眼關注點會存在一定的稀疏性(見圖 11 第二行),而大部分已有算法忽視了這個稀疏性(見圖 11 的 4-13 行),產生過于稠密的顯著圖。為此,我們設計了基于稀疏性的損失函數(圖 10,詳細見原文)。
▲?圖10.?基于稀疏性的損失函數
在這個損失函數中,不僅計算了顯著圖和人眼關注點圖的差異,同時計算了這兩張圖的灰度直方圖分布的差異,使得訓練過程中,輸出顯著圖的稀疏度趨于真實情況。
結果
圖 11 與圖 12 分別展示 DeepVS 和 10 種對比算法在 LEDOV 上的主觀和客觀實驗結果。可以看到,DeepVS 生成的顯著圖更加接近人眼關注點。同時,在 AUC, NSS, CC, KL 這四種評價指標上,DeepVS 也優于對比算法。
▲?圖11.?主觀實驗結果
▲?圖12.?客觀實驗結果
原文也羅列了 DeepVS 和對比算法在另外兩個常用眼動數據庫 DIEM 和 SFU 上的實驗結果。DeepVS 仍超過所有對比算法,有不錯的泛化能力。圖 13 展示了 DeepVS 的溶解實驗,可以看出,DeepVS 中提出的網絡結構或者組件均對最終的結果有所增益。
▲?圖13. 溶解實驗
點擊以下標題查看更多論文解讀:?
網絡表示學習綜述:一文理解Network Embedding
神經網絡架構搜索(NAS)綜述
從傅里葉分析角度解讀深度學習的泛化能力
ECCV 2018 | 從單幀RGB圖像生成三維網格模型
ACL2018高分論文:混合高斯隱向量文法
ECCV 2018 | 騰訊AI Lab提出視頻再定位任務
KDD 18 | 斯坦福大學提出全新網絡嵌入方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的ECCV 2018论文解读 | DeepVS:基于深度学习的视频显著性方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你说我导!微软玩转标题描述生成视频
- 下一篇: 经典论文复现 | 基于深度学习的图像超分