VOIP流中使用CNN-LSTM下对QIM的隐写分析方法
一、介紹
CNN能夠從時間或空間數據中學習局部響應,但缺乏學習序列相關性的能力,而RNN能夠處理任意長度的序列并捕獲長期上下文依賴性[5,15],本文指出了利用這兩種結構的一種適當方法,并提出了一種新的CNN-LSTM VoIP流的QIM隱寫檢測模型。在該模型中,采用雙向長短期記憶遞歸神經網絡從語音中提取長期上下文信息,采用不同核尺寸的CNN層提取每個語音幀的局部特征。最后,利用全連通層和軟最大層作為分類器來計算類概率。此外,我們的模型以聲碼器后的量化指標序列作為輸入。
二、架構
2.1 量化指標序列矩陣QIM
量化指標序列(QIS)矩陣是我們網絡的輸入。模擬語音信號經滑動窗口采樣后,用語音壓縮編碼器進行壓縮。在壓縮過程中,在預處理階段對輸入信號進行高通濾波。一個n階線性預測分析得到一組LP濾波器系數,這些系數被轉換成線譜對(LSP)并使用VQ量化。在矢量量化過程中,通過綜合搜索法分析選擇激勵信號,根據感知加權失真最小化原始語音和重構語音之間的誤差。開環基音搜索和閉環基音搜索構成了重疊候選向量的自適應碼本搜索步驟。
經過代數碼本搜索,生成量化索引序列。QIM隱寫技術根據嵌入的數據將VQ量化碼本分成若干部分,這將改變QIS的特性。在大多數情況下,QIS矩陣可以表示為。其中T是語音樣本窗口中的總幀數。si1、si2和si3分別是第i幀語音的碼字索引。以G.729A編碼器為例,si1、si2和si3分別為7bit、5bit和5bit。由于基于qim的隱寫術只改變了每幀中si1,si2和si3的范圍,因此QIS矩陣包含了完整的信息.
2.2 雙向LSTM層 bidi LSTM layer
我們的網絡的第一層是雙向LSTM層,并將QIS矩陣輸入其中。給定輸入序列x=(x1,···,x t),標準RNN通過從t=1到t的迭代,計算隱藏向量序列h=(h1,···,hT)和輸出向量序列y=(y1,··,yT):。其中W項表示權重矩陣,b項表示偏差向量。H是隱層函數,通常是一個sigmoid函數的元素級應用。
RNN的一個吸引人之處在于,它們可能能夠將以前的信息連接到當前任務,例如使用以前的幀可以提高對當前幀的理解。在語音處理中,所有的話語都是同時被轉錄的,沒有理由不好好利用未來的語境。因此,在[29]中提出的雙向RNNs(BiRNNs)通過兩個獨立的隱藏層處理雙向數據,然后將其轉發到同一輸出層來實現。BiRNNs通過迭代后向層從t=t到1,前向層從t=1到t,然后更新輸出層來計算前向隱藏序列→h,后向隱藏序列←h和輸出序列y。
應用RNNs解決各種問題取得了令人難以置信的成功。然而,RNN很難處理長期依賴性[2]。值得慶幸的是,在[7]中使用專門構建的存儲單元來存儲信息的長-短期內存(LSTM)體系結構在解決這個問題方面更為出色。對于[6]中使用的LSTM版本,H由以下復合函數實現。其中σ是logistic-sigmoid函數。LSTM有三個門,包括輸入門it、遺忘門ft和輸出門ot。另一個標記是ct作為細胞激活載體。所有的門和激活向量的大小都與隱藏向量h相同。從單元到門向量的權重矩陣是對角的,因此每個門向量中的m元素只接收來自單元向量m元素的輸入。
BiRNNs與LSTM相結合,給出了雙向LSTM[29],它不僅可以發現和利用遠程上下文,而且可以充分利用語音載體的雙向信息。在該模型中,雙向LSTM層也可以作為一個轉換層,逐步建立更高層次的聲學數據表示。在該層之后,為下一步生成新的代表幀序列向量。
2.3卷積層
卷積層是我們模型的第二部分。由于CNNs能夠捕獲空間或時間結構的局部相關性。在語音建模方面,CNNs不僅可以模擬時域和頻譜的局部相關性,而且可以獲得平移不變性,在許多語音任務中也得到了應用,并在文獻[27,31,41]中進行了成功的嘗試。在該模型中,我們選擇使用不同窗口大小的一維卷積來捕獲不同尺度的特征。
一維卷積包括在序列上滑動的濾波器向量和在不同位置檢測特征。設h∈R^d為雙向LSTM層生成的第i幀的d維幀向量。設h∈R^(L×d)表示輸入片段,其中L是語音幀的個數。設k為濾波器的長度,向量m∈r^(k×d)為卷積運算的濾波器。對于語音幀中的每個位置j,我們有一個具有k個連續幀向量的窗口向量wj,表示為這里,逗號表示幀向量連接。濾波器m以有效的方式與窗口向量在每個位置卷積以生成特征映射g∈ R^(L?k+1)×d,其中窗口向量gj的每個元素gj的特征映射如下:。式中,?是按元素進行的乘法運算,b∈R是偏項,f是一個非線性變換函數,可以是sigmoid,雙曲正切,ReLU等。本研究選擇ReLU作為非線性函數。
在我們的模型中,我們使用多個過濾器來生成多個特征映射。對于長度相同的n個過濾器,生成的n個特征映射可以重新排列為每個窗口wj的特征表示這里,分號表示列向量連接,gi是使用第i個過濾器生成的特征映射。W∈R^(L-k+1)×n的每一行Wj是由n個濾波器為位置j處的窗口向量生成的新特征表示。
為了降低卷積后的維數或選擇最重要的特征,通常對卷積后的特征映射采用一個池層,卷積后主要采用平均池和最大池。在我們的模型中,我們采用全局平均池來減少特征維數。
模型的最后一部分是全連通層,利用軟最大激活函數作為分類器來判斷樣本是否屬于“覆蓋層”。此外,為了加速收斂和克服過擬合問題,我們的模型使用了, Batch Normalization?[14]和?Dropout?[30]。
三、實驗
數據集使用:RNN-SM的公開數據集,該數據集包含41小時的中文語音和72小時的英文語音,采用PCM格式,每個樣本16位來自互聯網。不同的樣本包含不同類型的母語人士。這些語音樣本構成了封面語音數據集。
對于覆蓋語音數據集中的每個樣本,應用G.729A得到QIS矩陣。使用CNV-QIM隱寫方法嵌入秘密數據[36]。嵌入的樣本構成了隱寫語音數據集。嵌入率定義為嵌入比特數與整個嵌入容量的比率。當在隱寫術中進行a%嵌入率時,我們以a%的概率嵌入每個幀。在我們的實驗中,我們將a設為20,40,60,80來產生不同嵌入率的樣本。概率表示幀選擇的隨機性。有嵌入秘密數據的樣本由類別標簽“stego”分配,沒有嵌入秘密數據的樣本由類別標簽“cover”分配。
此外,修剪長度是影響檢測精度的另一個因素。實驗中,將覆蓋語音數據集和stego語音數據集中的樣本分為0.1s、0.3s、0.5s、2s和6s,測試不同持續時間下的模型性能。相同長度的節段是連續不重疊的。對于0.1s剪輯的訓練集,有2486708個1:1比例的封cover剪輯和stego剪輯的樣本。310810個修剪用于測試和驗證。
模型使用:我們的模型中的超參數是通過對試驗集的交叉驗證來選擇的。更具體地說,BiLSTM隱藏態的維數為64,CNN濾波器的窗口大小分別為3、4、5。每個CNN過濾器的數量是128個。全連通層的維數為64,全連通層的漏失率為0.6。批量大小為256,最大訓練時間設置為100。我們使用Adam[16]作為網絡訓練的優化器。我們的模型是由Kera實現的。模型性能由分類精度來評估,分類精度定義為正確分類的樣本數與樣本總數的比率
模型對比:與IDC[21]、QCCN[20]、RNN-SM[23]等隱寫分析方法作對比。
通過對不同模型的比較,可以得出IDC和QCCN將手工特征與傳統的機器學習算法性能相結合的結論。同時,深度學習方法RNN-SM和我們的模型在檢測精度上有了顯著的提高。我們還注意到,在大多數情況下,當嵌入率和嵌入時間相等時,所有模型在英語語音樣本中的性能都優于漢語語音樣本。這一現象可以用兩種語言的字母表、語法、語音等不同特征來解釋。尤其是音系學可能是解釋這一結果的最重要因素。因為漢語有412種音節,而英語有20個元音和28個輔音。這種多樣性使得漢語的關聯關系更加復雜。
樣本長度的影響:在VoIP流中檢測基于QIM的隱寫術時,語音的持續時間是一個重要因素,因此,我們將嵌入率固定在20%,并研究了片段長度的影響。精度隨著樣本長度的增加而增加。這種現象很容易解釋,較長的序列提供了更多的碼字相關性的觀察,從而可以更準確地建模。因此,stego語音的碼字相關模式和覆蓋語音的碼字相關模式之間的差異更加明顯,從而使分類更加容易。此外,當樣本長度較小時,增加樣本長度可顯著提高精確度。隨著樣本長度的增加,增加樣本長度的好處減小。最重要的是,我們可以得出結論,我們的模型比以前的所有方法都好。
嵌入率的影響:嵌入率是影響檢測精度的重要因素。當嵌入率較低時,隨著嵌入率的增加,精度顯著提高。當嵌入率大于40%時,檢測準確率達到95%以上。同時,該模型在嵌入率較低的情況下,顯著提高了檢測精度。一般情況下,為了避免被檢測到,隱寫算法通常采用低嵌入率策略,這給隱寫分析帶來了挑戰。我們的模型在低嵌入率下的優異性能使得它在現實場景中更加實用。
四、總結
本文提出了一種將CNN和LSTM相結合進行隱寫分析的方法,特別是CNN-LSTM網絡用于VoIP流上基于QIM的隱寫檢測。該模型充分利用了LSTM和CNN兩種主流結構,利用雙向LSTM捕獲語音的長時間上下文信息,在語音載體中生成更好的幀向量表示。而CNN隨后被用來捕捉局部特征以及全局和時間語音特征。實驗證明,與以往在voip流上檢測基于QIM的隱寫術的方法相比,該模型能夠達到目前的效果。此外,我們的模型是一個實用的有效模型,可以進一步推廣。
五、參考文獻
[36] Bo Xiao, Yongfeng Huang, and Shanyu Tang. 2008. An Approach to InformationHiding in Low Bit-Rate Speech Stream. In Global Telecommunications Conference,2008. IEEE GLOBECOM. 1
[20] Songbin Li, Yizhen Jia, and C. C. Jay Kuo. 2017. Steganalysis of QIM Steganography in Low-Bit-Rate Speech Signals. IEEE/ACM Transactions on Audio Speech &Language Processing 25, 99 (2017), 1–1.
[21] Song Bin Li, Huai Zhou Tao, and Yong Feng Huang. 2012. Detection of quantization index modulation steganography in G.723.1 bit stream based on quantizationindex sequence analysis. Journal of Zhejiang University-Science C(Computers &Electronics) 13, 8 (2012), 624–6.
[23] Zinan Lin, Yongfeng Huang, and Jilong Wang. 2018. RNN-SM: Fast Steganalysis of VoIP Streams Using Recurrent Neural Network. IEEE Transactions on InformationForensics & Security PP, 99 (2018), 1–1.
總結
以上是生活随笔為你收集整理的VOIP流中使用CNN-LSTM下对QIM的隐写分析方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 马云有自己的银行,为什么还要贷款?
- 下一篇: TT 的旅行日记(Dijkstra)