【论文笔记】RRU-Net: The Ringed Residual U-Net for Image Splicing Forgery Detection
發布于CVPRW2019
原文鏈接:https://ieeexplore.ieee.org/document/9054068/
源碼:https://github.com/yelusaleng/RRU-Net
摘要
傳統的特征提取方法和基于卷積神經網絡(CNN)的檢測方法都是通過利用篡改和非篡改區域間的差異來完成拼接篡改檢測。
本文提出了一種用于圖像拼接偽造檢測的環狀殘差U-Net(RRU-Net)。是一個端到端的圖像本質屬性分割網絡,它獨立于人類的視覺系統,無需任何預處理和后處理就可以完成偽造檢測。RRU-Net的核心思想是強化CNN的學習方式,其靈感來自于人腦的回憶和鞏固機制,通過CNN中的殘差傳播和反饋過程來實現。殘差傳播對輸入特征信息進行回憶,以解決深層網絡中的梯度退化問題;殘差反饋對輸入特征信息進行整合,使未被篡改和被篡改區域的圖像屬性差異更加明顯。實驗結果表明,該方法的性能達到了當時的SOTA。
方法的提出
拼接圖像中,未被篡改和被篡改的區域之間存在著圖像屬性的差異(如光照、陰影、傳感器噪聲、相機反射等)可以用來識別被篡改的圖像,并定位被篡改的區域。現有的拼接篡改檢測方法都試圖利用一些特征提取方法來探索圖像屬性的差異。
傳統的基于特征提取的檢測方法分為四類,但都具有一定的局限性(只關注一個指定的圖像屬性):
- 基于圖像本質屬性的檢測方法(如果對篡改后進行一些隱藏處理(如整體模糊),可能會失敗)
- 基于成像設備屬性的檢測方法(如果圖像的設備噪聲強度很弱,可能會失敗)
- 基于圖像壓縮屬性的檢測方法(只能檢測JPEG格式保存的圖像)
- 基于哈希技術的檢測方法(依賴于未被篡改的原始圖像的哈希值)
基于CNN的檢測方法:
- 最初只能判斷圖像是否被篡改,但它不能定位被篡改的區域。
- 使用非重疊的圖像補丁作為CNN的輸入。然而,當一個圖像補丁完全來自于被篡改的區域時,這個圖像補丁將被判斷為未被篡改的標簽。
- 利用較大的圖像補丁來揭示被篡改區域的圖像屬性。然而,如果偽造的圖像很小,檢測方法可能會失敗。
- 對于現有的基于CNN的檢測方法,由于他們使用圖像補丁作為網絡的輸入,上下文的空間信息被丟失,這很容易導致錯誤的預測。此外,當網絡結構較深時,會出現梯度退化問題,對特征的辨別力變弱,這將導致拼接造假檢測更加困難甚至失敗。
提出了RRU-Net,它可以有效地減少錯誤的預測,因為它更好地利用了圖像中的背景空間信息。
相關工作
U-Net
通過收縮路徑(連續層)捕獲上下文信息,對輸出特征進行上采樣,然后與通過對稱擴展路徑傳播的高分辨率特征相結合,這減少了細節信息的損失并實現了精確定位。然而U-Net可以在網絡的各層之間提取一些相對較淺的區別特征,但是只有U-Net結構的兩邊是相互作用的,這不足以確定被篡改的區域。此外,當網絡架構更深時,梯度退化問題會出現。
ResNet
對于拼接偽造檢測,梯度退化問題將導致另一個額外的嚴重問題。通過直接多層結構,圖像本質屬性特征的區分度會變弱,使得圖像本質屬性的差異變得難以發現。為了解決梯度退化問題并同時加強CNN的學習方式,應該更有效地利用殘差映射。
RRU-Net
殘差傳播(Residual Propagation)
為解決梯度退化問題,在每個堆疊層添加殘差傳播。下圖2顯示了一個構建模塊,它由兩個卷積(擴展卷積,dconv)層和殘差傳播組成。
構造塊的輸出定義為:
殘差塊中有兩層,故F的表達式如下:
殘差傳播看起來像人腦的回憶機制。我們在多學幾個新知識的時候可能會忘記之前的知識,所以需要回憶機制來幫助我們喚起那些之前的模糊記憶。
殘差反饋(Residual Feedback)
在拼接篡改檢測中,如果能夠進一步加強未篡改區域和篡改區域之間圖像本質屬性的差異,檢測的性能就可以進一步提高。
RGB-N中通過使偽造圖像穿過SRM過濾層來疊加噪聲屬性的附加差異,以增強檢測結果。但是,它是一種手動選擇的方法,只能用于RGB圖像的偽造檢測。此外,當未篡改區域和被篡改區域來自相同品牌和型號的攝像機時,SRM濾波層會急劇降低有效性,因為它們具有相同的噪聲屬性。
為了進一步加強圖像本質屬性的差異性,提出了殘差反饋,這是一種自動學習的方法,而不僅僅是針對一個或幾個特定的圖像屬性。又將attention機制添加到殘差反饋中,更加關注輸入信息的鑒別特征。使用一種簡單的具有sigmoid激活函數的門控機制來學習區別特征通道之間的非線性相互作用,并避免特征信息的擴散,然后我們將sigmoid激活獲得的響應值疊加在輸入信息上以放大未篡改和篡改區域之間的圖像本質屬性的差異。構建模塊中的殘差反饋如下圖3所示,
構造塊的輸出定義為:
殘差反饋看起來像人腦的鞏固機制。我們需要鞏固我們已經學過的知識,獲得新的特征理解。殘差反饋可以放大輸入中未篡改和篡改區域之間的圖像本質屬性的差異,如下圖1所示。?通過殘差反饋,篡改區域“鷹”被放大到全局最大響應值。
殘差反饋的作用
RRU-Net的網絡結構
下圖4結合了殘差傳播和殘差反饋的所提出的環形殘差結構。
殘差傳播就像人腦的回憶機制,回憶輸入的特征信息來解決更深層網絡中的退化問題;殘差反饋整合了輸入的特征信息,使得未篡改區域和篡改區域的圖像本質屬性差異被放大。
RRU-Net保證了在網絡各層之間提取特征時,對圖像本質屬性特征的區分更加明顯,比傳統的基于特征提取的檢測方法和現有的基于CNN的檢測方法具有更好和穩定的檢測性能。
RRU網的網絡架構如下圖5所示,它是一個端到端的圖像本質屬性分割網絡,不需要任何預處理和后處理就可以直接檢測出拼接偽造。
實驗部分
數據集
CASIA:拼接篡改區域是體積小做工精細對象
COLUMB:拼接篡改區域是簡單的、大的、無意義的區域
訓練集和驗證集的圖像大小調整為384x256,然后通過隨機高斯噪聲、JPEG壓縮和隨機翻轉等方法進行數據增強,使兩個數據集的容量提高了四倍。
評價指標
- 像素水平上:F1分數
- 圖像水平上:準確率
比較檢測方法
- 三種傳統的基于特征提取的檢測方法:DCT,CFA,NOI
- 兩種基于CNN的檢測方法:DFNet,C2R-Net
- 兩種語義分割方法:FCN,DeepLab v3
- U-Net、RU-Net(去掉殘差反饋)
像素級檢測
在簡單剪接偽造下的檢測結果
下圖6是在簡單剪接偽造的情況下RRU-Net和其他比較的檢測方法。從主觀角度來看,很明顯,RRU-Net的性能優于其他八種檢測方法。
為了更加客觀和公平地進行比較,我們計算了兩個數據集上檢測結果的精確度、召回率和F-measure的平均值,如表2所示。可以看出,RRU-Net在精度、召回率和F-measure上都優于其他9種檢測方法。雖然RRU-Net的召回率比DCT和DeepLab v3稍差,但從主觀角度來看,我們可以發現DCT幾乎失去了有效性,DeepLab v3的檢測效果也遠不如RRU-Net。
各種攻擊下的檢測結果
JPEG壓縮
下圖7表示JPEG壓縮攻擊下的比較結果。這三列分別代表精度、召回率和F1值。(a1) -(a3)表示在CASIA上的實驗結果;(b1) - (b3)表示在COLUMB上的實驗結果。
RRU-Net的召回率比CFA和DCT差,原因是兩者幾乎都將整幅圖像檢測為篡改區域。沒有殘差傳播和殘差反饋的U-Net的性能和魯棒性遠低于RU-Net和RRU-Net。
通過實驗可以發現,在兩個數據集上,RRU-Net的檢測結果優于其他檢測方法,并且在JPEG壓縮攻擊下具有較高的魯棒性。
噪聲破壞
下圖8中示出了在噪聲(高斯分布加性噪聲)破壞攻擊下的比較實驗結果。
在CASIA上,RRU-Net的精度和F1值都優于其他八種檢測方法。在COLUMB上,RRU-Net的精度優于其他九種檢測方法,RRU-Net的F-measure略低于DeepLab v3。在噪聲惡化攻擊下,沒有剩余反饋的RU-Net的魯棒性在兩個數據集上都表現較弱。
從上面的分析可以看出,RRU-Net在兩個數據集上的噪聲破壞攻擊下表現出了更好和穩定的性能。
圖像級檢測
下表3是RRU-Net和其他九種檢測方法在圖像級的檢測結果。
明顯,RRU-Net的檢測精度優于其他九種檢測方法,證明了RRU-Net不僅可以定位拼接偽造圖像中的篡改區域,而且可以判斷圖像是否被篡改。
總結
本文提出了一種用于圖像拼接偽造檢測的環狀殘差U-Net(RRU-Net)。是一個端到端的圖像本質屬性分割網絡,它獨立于人類的視覺系統,無需任何預處理和后處理就可以完成偽造檢測。RRU-Net的核心思想是強化CNN的學習方式,其靈感來自于人腦的回憶和鞏固機制,通過CNN中的殘差傳播和反饋過程來實現。同時,我們也從理論分析和實驗比較的角度證明了RRU-Net中環狀殘差結構的有效性。
在未來的工作中,我們將進一步探索和可視化篡改區域和未篡改區域之間的潛在區別特征,以解釋圖像拼接偽造檢測的關鍵問題。
總結
以上是生活随笔為你收集整理的【论文笔记】RRU-Net: The Ringed Residual U-Net for Image Splicing Forgery Detection的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 陶哲轩实分析 4.3 节习题试解
- 下一篇: 水王编程