當前位置：首頁 > 人工智能 > 循环神经网络 >内容正文

循环神经网络

图像内复制粘贴篡改取证matlab_[论文笔记] 篡改检测：RGB-N

發布時間：2024/1/23 循环神经网络 34 豆豆

生活随笔收集整理的這篇文章主要介紹了图像内复制粘贴篡改取证matlab_[论文笔记] 篡改检测：RGB-N 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

[論文筆記] Learning Rich Features for Image Manipulation Detection

說在前面

個人心得：

第一次關注篡改檢測，最常見的篡改方式是拼接、復制移動和刪除。

本文提出一個雙流Faster R-CNN，用于篡改區域的檢測和類型識別。

RGB和噪聲雙輸入流，更好地利用一些潛在的特征。

利用雙線性池化進行特征融合，效果不錯

CVPR 2018，原文鏈接：http://arxiv.org/abs/1805.04953

一作開源源碼：https://github.com/pengzhou1108/RGB-N

本文作于2020年10月14日。

摘要

Image manipulation detection is different from traditional semantic object detection because it pays more attention to tampering artifacts than to image content, which suggests that richer features need to be learned. We propose a two-stream Faster R-CNN network and train it end-to-end to detect the tampered regions given a manipulated image.

圖像篡改檢測不同于傳統的語義對象檢測，因為它更加關注篡改偽影而不是圖像內容，這表明需要學習更豐富的特征。我們提出了雙個輸入流的Faster R-CNN網絡，并對其進行端到端訓練，以在給定圖像的情況下檢測被篡改的區域。One ofthe two streams is an RGB stream whose purpose is to extract features from the RGB image input to find tampering artifacts like strong contrast difference, unnatural tampered boundaries, and so on. The other is a noise stream that leverages the noise features extracted from a steganalysis rich model filter layer to discover the noise inconsistency between authentic and tampered regions. We then fuse features from the two streams through a bilinear pooling layer to further incorporate spatial co-occurrence of these two modalities.

這兩個輸入流之一是RGB流，其目的是從RGB圖像輸入中提取特征，以發現篡改偽像，例如強烈的對比度差異、不自然的篡改邊界等。另一個是噪聲流，它利用從富含隱寫分析的模型濾波器層中提取的噪聲特征來發現真實區域和篡改區域之間的噪聲不一致。然后，我們通過雙線性池化層融合來自兩個流的特征，以進一步合并這兩種模式的空間共現。Experiments on four standard image manipulation datasets demonstrate that our two-stream framework outperforms each individual stream, and also achieves state-of-the-art performance compared to alternative methods with robustness to resizing and compression.

在四個標準圖像處理數據集上進行的實驗表明，與對大小調整和壓縮具有魯棒性的替代方法相比，我們的兩流框架勝過每個單獨的流，并且還實現了最新的性能。

1. 引言

隨著圖像編輯技術和用戶友好編輯軟件的進步，低成本的篡改或操縱圖像生成過程已變得廣泛可用。在篡改技術中，剪接、復制移動和刪除是最常見的篡改。圖像剪接可從真實圖像中復制區域并將其粘貼到其他圖像，復制移動復制并粘貼同一圖像中的區域，然后移除會從真實圖像中消除區域，然后進行修補。有時，在這些篡改技術之后，將進行高斯平滑等后處理。這些篡改的示例如下圖所示。即使進行了仔細的檢查，人類仍然很難識別被篡改的區域。

結果，區分真實圖像與篡改圖像變得越來越具有挑戰性。針對該主題（圖像取證）的新興研究非常重要，因為它旨在防止攻擊者將篡改的圖像用于不道德的商業或政治目的。與旨在檢測圖像中不同類別的所有對象的當前對象檢測網絡相反，用于圖像操縱檢測的網絡將旨在僅檢測被篡改的區域（通常是對象）。我們研究如何通過探索RGB圖像內容和圖像噪聲特征來采用對象檢測網絡來執行圖像篡改檢測。

圖像取證的最新工作利用諸如局部噪聲特征和“相機濾鏡陣列”（CFA）模式之類的線索將圖像中的特定面片或像素分類為是否受到篡改，并定位受篡改的區域。這些方法大多數都集中在一種篡改技術上。最近提出的基于LSTM的體系結構對篡改的補丁進行了分割，通過學習檢測篡改邊緣來顯示對多種篡改技術的魯棒性。在這里，我們提出了一種新穎的兩流篡改檢測框架，該框架不僅可以對視覺篡改偽像（例如，操縱邊緣附近的篡改偽像）進行建模，還可以捕獲局部噪聲特征中的不一致之處。

更具體地說，我們在兩流網絡中采用Faster R-CNN，并進行端到端訓練。下圖總結了我們的方法。諸如Faster R-CNN之類的深度學習檢測模型在檢測各種規模的語義對象方面表現出良好的性能。區域候選網絡（RPN）是Faster R-CNN中的組件，負責選擇可能包含感興趣對象的圖像區域，并且可以適用于圖像篡改檢測。為了將篡改區域與真實區域區分開，我們利用RGB通道的特征來捕獲線索，例如篡改邊界上的視覺不一致以及篡改區域與真實區域之間的對比效果。第二個流分析圖像中的局部噪聲特征。

第二流的直覺是，當從一個圖像（源）中刪除一個對象并將其粘貼到另一個圖像（目標）中時，源和目標圖像之間的噪聲特征不太可能匹配。如果用戶隨后壓縮篡改的圖像，則可以部分掩蓋這些差異。為了利用這些特征，我們將RGB圖像轉換為噪聲域，并使用局部噪聲功能作為第二個流的輸入。有很多方法可以從圖像產生噪波特征。基于最近對用于篡改分類的隱寫分析豐富模型（steganalysis rich model，SRM）的工作，我們選擇SRM濾波器內核以產生噪聲特征，并將其用作第二個Faster R-CNN網絡的輸入通道。

然后，針對每個感興趣區域（RoI）將這兩個流中的特征進行雙線性池化，以基于兩個流中的特征來檢測篡改偽像，請參見上圖。

先前的圖像處理數據集僅包含數百個圖像，不足以訓練深度網絡。為了克服這個問題，我們創建了一個基于COCO的綜合篡改數據集以進行模型預訓練，然后在不同的數據集上對該模型進行微調以進行測試。我們的方法在四個標準數據集上的實驗結果證明了有希望的性能。

我們的貢獻是兩方面的。首先，我們展示如何以兩流方式將Faster R-CNN框架應用于圖像篡改檢測。我們探索了兩種模式，即RGB篡改偽影和局部噪聲特征不一致，并對其進行雙線性合并以識別篡改區域。其次，我們表明這兩個流是互補的，可用于檢測不同的篡改技術，與最新技術方法相比，可提高四個圖像處理數據集的性能。

2. 相關工作

圖像取證研究包括多種方法來檢測篡改圖像中的低級篡改偽影，包括雙重JPEG壓縮、CFA顏色陣列分析和局部噪聲分析。具體而言，Bianchi等人提出了一種概率模型來估計不同區域的DCT系數和量化因子。基于CFA的方法在假設篡改區域會干擾這些模式的情況下，分析由相機內部濾鏡模式引入的低級統計信息。Goljan等人提出了一種高斯混合模型（GMM）來對CFA當前區域（真實區域）和CFA不存在區域（篡改區域）進行分類。

最近，基于局部噪聲特征的方法，例如隱寫分析豐富模型（SRM），在圖像取證任務中表現出了令人矚目的性能。這些方法從相鄰像素提取局部噪聲特征，捕獲篡改區域和真實區域之間的不一致。 Cozzolino等人探索并證明了SRM功能在區分篡改和真實區域方面的性能。它們還通過將量化和截斷操作與卷積神經網絡（CNN）結合在一起來組合SRM功能，以執行篡改定位。Rao等人使用SRM過濾器內核作為CNN的初始化，以提高檢測精度。這些方法大多數都集中在特定的篡改偽影上，并且僅限于特定的篡改技術。我們還使用這些SRM過濾器內核提取低級噪聲，將其用作Faster R-CNN網絡的輸入，并學習捕獲噪聲特征中的篡改痕跡。此外，并行訓練RGB并行流以對中高級視覺篡改偽像建模。

隨著深度學習技術在各種計算機視覺和圖像處理任務中的成功應用，許多最新技術還采用了深度學習來解決圖像篡改檢測問題。Chen等人在CNN之前添加了一個低通濾波器層，以檢測中值濾波篡改技術。Bayar等人將低通濾波器層更改為自適應內核層，以了解在篡改區域中使用的濾波內核。除了濾波學習之外，Zhang等人還提出了一種堆疊式自動編碼器，以學習用于圖像篡改檢測的上下文特征。Cozzolino等人將此問題視為異常檢測任務，并使用基于提取特征的自動編碼器來區分難以重構為篡改區域的那些區域。Salloum等人使用全卷積網絡（FCN）框架直接預測給定圖像的篡改蒙版。他們還學習了邊界蒙版，以指導FCN查看被篡改的邊緣，這有助于他們在各種圖像處理數據集中實現更好的性能。Bappy等人提出了一種基于LSTM的網絡，該網絡被應用于小圖像補丁，以在篡改補丁和圖像補丁之間的邊界上找到篡改偽像。他們聯合使用像素級別分割來訓練該網絡，以提高性能并在不同的篡改技術下顯示結果。但是，僅關注附近的邊界在不同情況下只能提供有限的成功，例如，移除整個對象可能不會留下邊界證據以進行檢測。取而代之的是，我們使用全局視覺篡改技術以及局部噪聲特征來建模更豐富的篡改工藝。我們使用基于Faster R-CNN的兩流網絡來學習豐富的圖像處理檢測功能。該網絡顯示了對拼接、復制和刪除的魯棒性。此外，該網絡使我們能夠對可疑的篡改技術進行分類。

3. 所提出的方法

我們采用了一個多任務框架，該框架同時執行篡改分類和邊界框回歸。在RGB流（上圖的頂部流）中提供RGB圖像，在噪聲流（上圖的底部流）中提供SRM圖像。我們在全連接的層之前通過雙線性池化融合兩個流，以進行篡改分類。RPN使用RGB流來定位篡改區域。

3.1 RGB輸入流

RGB流是單個Faster R-CNN網絡，用于邊界框回歸和篡改分類。我們使用ResNet 101網絡從輸入的RGB圖像中學習特征。ResNet的最后一個卷積層的輸出功能用于篡改分類。RGB流中的RPN網絡利用這些特征為邊界框回歸提出RoI。形式上，RPN網絡的損失函數定義為

這個和Faster R-CNN的RPN是一樣的。請注意，與傳統的對象檢測（RPN網絡搜索可能是對象的區域）不同，我們的RPN網絡搜索可能被篡改的區域。候選區域可能不一定是對象，例如，在移除篡改過程中的情況。

3.2 噪聲輸入流

RGB通道不足以解決所有不同的篡改情況。尤其是，經過精心后期處理以隱藏拼接邊界并減少對比度差異的篡改圖像對于RGB流而言是具有挑戰性的。

因此，我們利用圖像的局部噪聲分布來提供其他證據。與RGB流相反，噪聲流旨在更加關注噪聲，而不是語義圖像內容。這是新穎的，盡管當前的深度學習模型可以很好地表示RGB圖像內容的層次結構特征，但深度學習的先前工作尚未研究過從檢測中的噪聲分布中學習。受圖像取證在SRM特征方面的最新進展啟發，我們使用SRM過濾器從RGB圖像中提取局部噪聲特征（上圖中的示例）作為噪聲流的輸入。

在我們的設置中，噪聲是通過像素值與僅通過內插相鄰像素的值而產生的該像素值的估計之間的殘差來建模的。從30個基本濾波器開始，再加上非線性運算（例如，濾波后附近輸出的最大值和最小值），SRM功能將收集基本噪聲特征。SRM量化并截斷這些濾波器的輸出，并提取附近的共現信息作為最終特征。從該過程獲得的特征可以被視為局部噪聲描述符。我們發現，僅使用3個內核即可獲得不錯的性能，而應用所有30個內核并不會顯著提高性能。因此，我們選擇3個內核，其權重如下所示，并將其直接輸入經過3通道輸入訓練的預訓練網絡中。我們將噪聲流中SRM濾波器層的內核大小定義為5×5×3。SRM層的輸出通道大小為3。

上上的第三列顯示了SRM層之后得到的噪聲特征圖。很明顯，它們強調了局部噪聲而不是圖像內容，并明確揭示了可能在RGB通道中不可見的篡改偽像。我們直接將噪聲特征用作噪聲流網絡的輸入。噪聲流的主干卷積網絡架構與RGB流相同。噪聲流與RGB流共享相同的RoI池層。對于邊界框回歸，我們僅使用RGB通道，因為根據我們的實驗，RGB特征比RPN網絡的噪聲特征表現更好。

3.3 雙線性池化

最后，我們將RGB流與噪聲流結合在一起進行篡改檢測。在各種融合方法中，我們對兩個流的特征都應用了雙線性池化。首先針對細粒度分類提出的雙線性池化將雙流合并在兩流CNN網絡中，同時保留空間信息以提高檢測置信度。我們的雙線性池化層的輸出為，其中是RGB流的RoI特征，是噪聲流的RoI特征。在池化之前，求和池化會壓縮空間特征。然后，在轉發到全連接的層之前，應用帶符號的平方根和L2規范化。

為了節省內存并在不降低性能的情況下加快訓練速度，我們使用緊湊的雙線性池化（一種實現方式）。

經過全連接和softmax層后，我們獲得了RoI區域的預測類別。我們將交叉熵損失用于篡改分類，將smooth L1損失用于邊界框回歸。總損失函數為：

其中表示總損失。表示RPN網絡中的RPN loss。表示最終的交叉熵分類損失，它基于RGB和噪聲流中的雙線性池特征。表示最終的邊界框回歸損失。和是RGB和噪聲流的RoI特征。所有項的總和為總損失函數。

3.4 實施細節

所提出的網絡是端到端的訓練。調整輸入圖像以及提取的噪聲特征的大小，使較短的長度等于600像素。使用四個錨定標尺，大小分別為、、到，長寬比為1：2、1：1和2：1。RoI池化后，RGB和噪聲流的特征尺寸均為7×7×1024。緊湊型雙線性池化的輸出特征大小設置為16384。RPN候選的批處理大小，用于培訓時為64，用于測試為300。

圖像翻轉用于數據增強。RPN正樣本（潛在篡改區域）的IoU閾值為0.7，而負樣本（真實區域）的IoU閾值為0.3。學習率最初設置為0.001，然后在40K后降低為0.0001。我們將模型訓練110k次。在測試時，應用標準NMS來減少候選的重疊區域的冗余。NMS閾值設置為0.2。

4. 實驗

我們在四個標準圖像處理數據集上展示了我們的兩流網絡，并將結果與最新方法進行了比較。我們還比較了不同的數據擴充，并測量了我們的方法對大小調整和JPEG壓縮的魯棒性。

4.1 預訓練模型

當前的標準數據集沒有足夠的數據來進行深度神經網絡訓練。為了在這些數據集上測試我們的網絡，我們在合成數據集上對模型進行了預訓練。我們使用來自COCO的圖像和注釋自動創建合成數據集。我們使用分割注釋從COCO中隨機選擇對象，然后將其復制并粘貼到其他圖像。將訓練（90％）和測試集（10％）分開，以確保在訓練和測試集中都不會出現相同的背景和被篡改的對象。最后，我們創建42K篡改和真實的圖像對。我們將發布此數據集以供研究使用。我們模型的輸出是帶有置信度得分的邊界框，該置信度得分指示檢測到的區域是否已被篡改。

為了在RoI中包括一些真實區域以便更好地進行比較，我們在訓練過程中將默認邊界框稍微擴大了20個像素，以便RGB流和噪聲流都了解到篡改區域與真實區域之間的不一致。

我們在此綜合數據集上端對端訓練模型。Faster R-CNN中使用的ResNet 101在ImageNet上進行了預訓訓。我們使用AP進行評估，其度量標準與COCO檢測評估相同。我們將兩流網絡的結果與下標中的每個流進行比較。該表顯示，我們的兩個流網絡的性能要優于每個單個流。同樣，使用噪聲特征作為RPN和RPN使用這兩種特征的RGB-N、RGB-N之間的比較表明，RGB特征比噪聲特征更適合于生成區域候選。

4.2 標準數據集上的測試

NIST16是一個具有挑戰性的數據集，其中包含所有三種篡改技術。此數據集中的操作經過后處理以隱藏可見痕跡。他們還提供了真實的防篡改蒙版以供評估。
CASIA提供各種對象的拼接和復制移動圖像。仔細選擇被篡改的區域，并應用一些后期處理，例如濾波和模糊處理。通過對篡改圖像和原始圖像之間的差異進行閾值處理來獲得真實的蒙版。我們使用CASIA 2.0進行訓練，并使用CASIA 1.0進行測試。
COVER是一個相對較小的數據集，專注于復制移動。它覆蓋了與粘貼區域相似的對象，以隱藏篡改偽影，并提供了GT mask。
哥倫比亞數據集專注于基于未壓縮圖像的拼接，并提供了GT mask。

以下是標準數據集的數量和劃分。

評估指標：我們使用像素水平F1得分和接收器工作特性曲線下面積（AUC）作為我們的性能比較評估指標。F1分數是用于圖像篡改檢測的像素級別評估指標。我們改變不同的閾值，并使用最高的F1分數作為每個圖像的最終分數，遵循相同的方法。我們將置信度得分分配給檢測到的邊界框中的每個像素，以進行像素級AUC評估。

基線模型：

ELA：一種錯誤級別分析方法，旨在通過不同的JPEG壓縮質量來查找篡改區域和真實區域之間的壓縮錯誤差異。

NOI1：一種基于噪聲不一致的方法，使用高通小波系數來建模局部噪聲。

CFA1：一種CFA模式估計方法，該方法使用附近的像素近似相機濾鏡陣列模式，然后為每個像素產生篡改概率。

MFCN：一個基于多任務邊緣增強FCN的網絡，使用邊緣二進制掩碼和使用篡改區域掩碼的篡改區域共同檢測篡改邊緣。

J-LSTM：一個基于LSTM的網絡聯合訓練補丁級別篡改邊緣分類和像素級別篡改區域分割。

RGB Net：一個以RGB圖像作為輸入的Faster R-CNN網絡。即我們的RGB Faster R-CNN流。

Noise Net：單個Faster R-CNN網絡，其噪聲特征圖作為輸入從SRM濾波器層獲得。RPN網絡在這種情況下使用噪聲特征。

Late Fusion：直接融合結合了所有檢測到的RGB Net和噪聲Net的邊界框。來自兩流的重疊檢測區域的置信度得分設置為最大。 9. RGB-N：RGB流和噪聲流的雙線性池，用于篡改分類，RGB流用于邊界框回歸。即我們的完整模型。

數據增強：我們在下表中比較了不同的數據增強方法。與沒有增強相比，圖像翻轉可提高性能，而其他增強方法（如JPEG壓縮和噪聲）則幾乎沒有改善。

JPEG的魯棒性和調整大小的攻擊：我們測試了我們方法的魯棒性，并與下表中的3種方法（可使用其代碼）進行了比較。我們的方法對這些攻擊更魯棒，并且勝過其他方法。

4.3 篡改技術檢測

我們網絡的豐富功能表示使其能夠區分不同的篡改技術。我們探索篡改技術檢測并分析所有三種篡改技術的檢測性能。NIST16包含用于所有三種篡改技術的標簽，從而可以進行多類圖像處理檢測。我們將操縱分類的類別更改為拼接、移除和復制移動，以便為每個類別學習不同的視覺篡改偽影和噪聲特征。下表顯示了每種篡改類別的性能。

結果表明，拼接是使用我們的方法檢測到的最簡單的篡改技術。這是因為拼接很可能同時產生RGB偽影，例如不自然的邊緣、對比度差異以及噪聲偽影。去除檢測性能也優于復制移動，因為去除過程后的修補對噪聲特征有很大影響。復制移動是我們提出的方法中最困難的篡改技術。解釋是，一方面，復制的區域來自同一張圖像，這產生了相似的噪聲分布，使我們的噪聲流變得混亂。另一方面，兩個區域通常具有相同的對比度。而且，理想地，該技術將需要將兩個對象彼此比較（即，它將需要同時查找和比較兩個RoI），而當前方法則不行。因此，我們的RGB流缺少區分這兩個區域的證據。

4.4 定性結果

我們在下圖中顯示了一些定性結果，用于比較兩類圖像處理檢測中的RGB、噪聲和RGB-N網絡。圖像選自COVER、Columbia和CASIA 1.0。下圖提供了一個示例，即使單個數據流之一發生故障，我們的兩個數據流網絡也能產生良好的性能（第一行和第二行）。

下圖顯示了RGB-N網絡對使用NIST16的篡改技術檢測任務的結果。如圖所示，我們的網絡針對不同的篡改技術會產生準確的結果。

5. 總結

我們提出了一種同時使用RGB流和噪聲流的新型網絡，以學習用于圖像操縱檢測的豐富特征。我們通過根據隱寫分析文獻改編的SRM濾波器層提取噪聲特征，這使我們的模型能夠捕獲篡改區域與真實區域之間的噪聲不一致。我們探索了從RGB查找篡改區域和圖像的噪聲特征的補充作用。毫不奇怪，兩個流的融合導致性能提高。在標準數據集上進行的實驗表明，我們的方法不僅可以檢測篡改偽像，而且可以區分各種篡改技術。將來將探索更多特征，包括JPEG壓縮。

總結

以上是生活随笔為你收集整理的图像内复制粘贴篡改取证matlab_[论文笔记] 篡改检测：RGB-N的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python编写加密程序_python编
下一篇： python数字类型及运算_Python