图像算法处理视频不稳定?港科大团队提出一种通用算法解决视频处理时域不稳定问题
arxiv鏈接:https://arxiv.org/abs/2010.11838
project主頁:https://chenyanglei.github.io/DVP/index.html
video:https://youtu.be/07A3aRF4s0g
許多圖像處理算法已在單個圖像處理任務中表現(xiàn)了出色的性能,但是將它們直接應用于視頻上通常會有時域不一致問題(例如閃爍問題),如圖1所示。 為了提高時域一致性,大多數(shù)研究人員針對不同的視頻處理任務設計了專用算法,例如視頻上色,視頻去噪和視頻超分辨率。 盡管特定任務的視頻處理算法可以改善時域一致性,但是能否將類似的策略應用于其他任務尚不清楚或具有挑戰(zhàn)性。 不同于前者,作者提出了一種新穎且通用的框架,該框架可以將圖像處理算法轉換為對應的具有高度時域一致性的視頻處理算法。
| 輸入視頻幀 | 應用圖像上色算法的預處理視頻 |
圖1. 將圖像算法應用上視頻上
作者觀察到一種稱作深度視頻先驗(Deep Video Prior, DVP)的現(xiàn)象:利用視頻幀來訓練卷積網(wǎng)絡的過程中,視頻不同幀之間的對應圖像塊的網(wǎng)絡預測輸出傾向于一致。 此外,作者認為,視頻中的閃爍現(xiàn)象類似于時域中的”噪聲“,可以通過該深度視頻先驗來進行校正。具體而言,在嘗試擬合帶有閃爍問題的預處理視頻時,網(wǎng)絡會首先擬合視頻中的共同特征,最后才會擬合到不穩(wěn)定的閃爍噪聲。
| 預處理視頻 | 算法輸出 |
圖2. 利用作者算法處理一個不穩(wěn)定的預處理視頻
圖3. 算法框架對比
將輸入視頻幀I_t通過應用圖像處理算法f可獲得相應的預處理幀P_t = f(I_t)。 例如,圖像處理算法f可以是圖像著色,圖像去霧或任何其他算法。該框架通過輸入視頻和預處理視頻來獲得具有時域一致性的輸出視頻,如圖2所示。 該算法整體框架如圖3所示,作者使用一個全卷積網(wǎng)絡g模仿原始圖像算法f,同時保持時域一致性。 與前人工作(Lai et al.) 不同,訓練僅需單個視頻,并且僅使用單個幀進行每次訓練迭代。 作者對網(wǎng)絡進行進行隨機初始化,然后可以在每次網(wǎng)絡優(yōu)化迭代中使用單個數(shù)據(jù)項對其進行優(yōu)化,而無需進行任何顯式正則化(如光流等)。如圖2所示,視頻的時域穩(wěn)定性得到了較大提升。
圖4. 兩種時域不穩(wěn)定現(xiàn)象
作者發(fā)現(xiàn)許多時域不一致問題屬于單模態(tài)不一致:所有預處理幀接近于同一模式但是相互之間略有不一致。然而,對于某些任務,存在單一輸入具有多種可能預測結果(例如,在上色算法中,汽車可能會被著色為紅色或藍色)。在這種情況下,如圖4右圖所示,預處理視頻中的時間不一致在視覺上更加明顯。由于多個模態(tài)之間的差異可能很大,因此對不同模式進行平均會導致較差的性能,這與任何一種可能的輸出都相去甚遠。以前的方法無法生成一致的結果[19]或傾向于大大降低原始性能[3]。
作者提出了一種迭代加權訓練(IRT)策略來處理多模態(tài)時域不一致的問題,因為它無法被基本的深度視頻先驗(DVP)來解決。在IRT中,置信度旨在為每個像素從多種模式中選擇一種主模式,而忽略離群值(一種次要模式或多種模式)。作者通過增加網(wǎng)絡輸出中的通道數(shù)量(例如,兩個RGB圖像為六個通道)以獲得兩個輸出:一個主幀; 和一個離群幀。最終我們通過置信圖來選擇不同的像素用以訓練兩個不同的幀。
θi+1=arg?min?θL_data(C_t,i⊙O_t,imain?,C_t,i⊙P_t)+L_data((1?C_t,i)⊙O_t,iminor?,(1?C_t,i)⊙P_t)\begin{aligned} \theta^{i+1}=\underset{\theta}{\arg \min } & L\_{\text {data}}\left(C\_{t, i} \odot O\_{t, i}^{\operatorname{main}}, C\_{t, i} \odot P\_{t}\right)+\\ & L\_{\text {data}}\left(\left(1-C\_{t, i}\right) \odot O\_{t, i}^{\operatorname{minor}},\left(1-C\_{t, i}\right) \odot P\_{t}\right) \end{aligned}θi+1=θargmin??L_data(C_t,i⊙O_t,imain,C_t,i⊙P_t)+L_data((1?C_t,i)⊙O_t,iminor,(1?C_t,i)⊙P_t)?
作者首先通過實驗中的7個任務評估框架,包括視頻上色、視頻去霧、視頻增強、視頻白平衡等等。作者利用兩個指標分別評估視頻穩(wěn)定性和效果退化問題并且在兩個指標上都超過了盲視頻時域一致性領域內最好的算法。作者也進行了一個user study,在大多數(shù)任務上作者的結果最受喜愛。
圖5. 算法效果對比示例
如圖5所示,在上色和白平衡的任務中,作者的算法得到了時域一致性的結果,同時最大程度上保留圖像算法的效果。
圖6. IRT的影響
如圖6所示,通過使用IRT策略,在面臨多模態(tài)不一致問題時,作者算法依舊可以得到時域穩(wěn)定的效果。
圖7. 不同網(wǎng)絡結構的影響
如圖7所示,作者驗證了深度視頻先驗(DVP)在多種網(wǎng)絡結構上都是有效的。
總結
作者提出了一種簡單而通用的方法來提高經(jīng)圖像算法處理的預處理視頻時的時域一致性?;谧髡哂^察到的深度視頻先驗(DVP),作者通過利用單個視頻從頭訓練CNN來實現(xiàn)時域一致性。與以前的工作相比,作者的方法要簡單得多,并且可以產生令人滿意的結果(更好的時域一致性以及更大程度保留原始算法效果)。作者的迭代加權訓練(IRT)策略還很好地解決了具有挑戰(zhàn)性的多模態(tài)不一致問題。作者認為,所提出的方法的簡單性和有效性可以將圖像處理算法轉化成其對應的視頻處理算法。因此,利用該框架,人們可以將最新的圖像處理算法直接應用于視頻。
作者方法的局限性之一是相對較長的測試時間。盡管作者的方法不需要訓練大型數(shù)據(jù)集,但需要為每個視頻訓練一個單獨的模型,與Lai等人相比,比直接推理要花費更多的時間。但是,與以前采用顯式采用光流來增強時域一致性的方法不同,作者證明了這一點,通過神經(jīng)網(wǎng)絡訓練可以隱式地實現(xiàn)視頻先驗(即時域一致性)。
作者表示,他們將專注于提高效率以縮短實際應用中的處理時間。此外,作者相信DVP的概念可以進一步擴展到其他類型的數(shù)據(jù),例如3D數(shù)據(jù)和多視圖圖像。 DVP不依賴于視頻幀的順序,并且自然應適用于維護多個圖像之間的多視圖一致性。對于3D volume數(shù)據(jù),3D CNN也可能表現(xiàn)出DVP的相似屬性。
作者介紹
雷晨陽,香港科技大學三年級博士生,博士導師陳啟峰,本科畢業(yè)于浙江大學,主要研究領域:計算攝影學,圖像處理和視頻處理,low-level computer vision,3D vision。
邢亞洲,香港科技大學三年級博士生,博士導師陳啟峰,本科畢業(yè)于武漢大學,主要研究領域:計算攝影學,圖像增強,low-level computer vision。
總結
以上是生活随笔為你收集整理的图像算法处理视频不稳定?港科大团队提出一种通用算法解决视频处理时域不稳定问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机视觉 模型、学习和推理 Compu
- 下一篇: Graph Normalization