當前位置：首頁 > 人工智能 > ChatGpt >内容正文

ChatGpt

AI以假乱真怎么办？TequilaGAN教你轻松辨真伪

發布時間：2024/10/8 ChatGpt 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 AI以假乱真怎么办？TequilaGAN教你轻松辨真伪小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背后的探索和思考。

在這個欄目里，你會快速 get 每篇精選論文的亮點和痛點，時刻緊跟 AI 前沿成果。

點擊本文底部的「閱讀原文」即刻加入社區，查看更多最新論文推薦。

這是 PaperDaily 的第?94?篇文章

本期推薦的論文筆記來自 PaperWeekly 社區用戶 @TwistedW。本文來自 UC Berkeley，GAN 生成的樣本在視覺方面已經達到與真實樣本很相近的程度了，有的生成樣本甚至可以在視覺上欺騙人類的眼睛。區分生成樣本和真實樣本當然不能簡單的從視覺上去分析，TequilaGAN 從圖像的像素值和圖像規范上區分真假樣本，證明了真假樣本具有在視覺上幾乎不會被注意到的屬性差異從而可以將它們區分開。

如果你對本文工作感興趣，點擊底部閱讀原文即可查看原論文。

關于作者：武廣，合肥工業大學碩士生，研究方向為圖像生成。

■?論文 | TequilaGAN: How to easily identify GAN samples

■ 鏈接 | https://www.paperweekly.site/papers/2116

■ 作者 | Rafael Valle / Wilson Cai / Anish Doshi

GAN 和 GAN 的變種已經將圖像生成質量達到了以假亂真的效果，雖然生成的一部分圖像可以用肉眼去分辨，但是仍然有一部分由 GAN 生成的圖像在視覺上很難和真實圖像區分開。區分真假圖像對于分析 GAN 的生成上具有一定的意義，同時也說明了 GAN 在生成上與真實圖像的不同所在。TequilaGAN: How to easily identify GAN samples 一文將從視覺以外的方面去區分生成樣本和真實贗本之間的差距。

論文引入

使用 GAN 框架生成的假樣本在一定程度上騙過了人類和機器，使他們相信生成樣本與實際樣本無法區分。雖然這可能適用于肉眼和被發生器愚弄的判別器，但生成樣本不可能在數值上與實際樣本無法區分。TequilaGAN 一文正是通過真實樣本和生成樣本在數值上的分析可以判斷出真假。

GAN 的生成數據的評判標準一直沒有很好的統一，大部分的評估是在定性的方面作分析，定量上 Inception Score [1] 一直被廣泛使用，但是 A Note on the Inception Score?[2] 一文也指出了 Inception Score 未能為 GAN 模型的評估提供系統指導。?

在已驗證的人工智能的背景下，很難系統地驗證模型的輸出是否滿足其訓練的數據的規范，特別是當驗證取決于感知有意義的特征的存在時。例如，考慮一個生成人類圖像的模型，盡管可以比較真實樣本和假樣本的顏色直方圖，但還沒有強大的算法來驗證圖像是否遵循從解剖結構得出的規范。?

TequilaGAN 涉及假樣本的系統驗證，重點是比較假樣本和真實樣本的數值特性。除了比較統計匯總之外，還研究了 Generator 如何逼近實際分布中的統計模式，并驗證生成的樣本是否違反了從實際分布中得出的規范。總結一下 TequilaGAN 的主要貢獻：?

證明了假樣本在視覺上和真實樣本具有幾乎不會被注意到的屬性?
這些屬性可用于識別數據來源（真實或生成）?
證明了假樣本違反了從真實數據中學習的正式規范

研究方法

實驗主要集中在三點：第一點表明，假樣本具有視覺檢查難以察覺的特性，此特性與可微分的要求密切相關；第二個表明，從可用于識別數據的真實和假樣本中提取的特征計算的統計矩之間存在數值差異；第三個表明假樣本違反了從真實數據中學到的正式規范。?

數據集?

實驗使用 MNIST，CIFAR10 以及從網上下載的 389 個 Bach Chorales 的 MIDI 數據集和 NIST 2004 電話會話語音數據集的子樣本。?

特征?

特征光譜質心[3] 是音頻領域常用的特征，它代表光譜的重心。MNIST 和 Mel-Spectrograms 的特征光譜質心如下圖所示示例。對于圖像中的每一列，通過對列總和進行歸一化，將像素值轉換為行概率，然后獲取預期的行值，從而獲得光譜質心。

試驗中同時表示了譜斜率圖：

GAN框架選取?

GAN 框架使用最小二乘 GAN（LSGAN）和改進的 Wasserstein GAN（IWGAN / WGAN-GP）網絡搭建使用 DCGAN 架構。還比較了使用快速梯度符號法（FGSM）生成的對抗性 MNIST 樣本。在生成器的輸出和其他變換（例如縮放的 tanh 和身份）上評估常用的非線性，sigmoid 和 tanh。

MNIST實驗

這部分著重于顯示由 GAN 偽造的 MNIST 樣品的數值特性以及肉眼未知的特征。首先將通過 MNIST 訓練集計算的特征分布與其他數據集進行比較，包括 MNIST 測試集，使用 GAN 生成的樣本和使用 FGSM 計算的對抗樣本。將訓練數據縮放到 [0,1]，并且從伯努利分布采樣隨機基線，概率等于 MNIST 訓練數據中像素強度的平均值 0.13。

從上圖生成的樣本表明，IWGAN 似乎比 LSGAN 產生更好的樣本。在 Kolgomorov-Smirnov（KS）雙樣本檢驗和 Jensen-Shannon Divergence（JSD）上，LSGAN 和 IWGAN 生成的樣本如表一所示與標準數據集還是有一定的不同。

下圖中的經驗 CDF 可以理解這些數值現象，使用 GAN 框架生成的樣本的像素值分布主要是雙模態的，并且漸近地接近實數據中的分布模式值 0 和 1。

此外，光譜質心的統計矩的分布圖表明假圖像比真實圖像更嘈雜。

最后，下圖顯示 GAN 生成的樣本平滑地接近分布模式，這種平滑近似與訓練和測試集有很大不同。雖然在感知上沒有意義，但這些屬性可用于識別數據源。?

對分布模式的平滑逼近的解釋上，第一個假設是網絡搭建采用隨機梯度下降和漸近收斂激活函數（例如 sigmoid 或 tanh），為了驗證這一假設，保持判別器固定，在發生器的輸出端采用不同的激活函數，包括線性和縮放的 tanh。如下圖所示，使用線性或縮放 tanh 激活訓練的模型能夠部分地生成類似于 MNIST 訓練數據和像素強度分布的圖像，仍然具有平滑的曲線。

另一個假設是平滑行為是由于訓練數據本身的像素強度的平滑性，為了驗證這一點，首先通過在 [0,1] 之間對其進行縮放，然后將其設置為 0.5 來對實際數據進行二值化。通過這種改變，實數據的像素強度的分布變為完全雙模態，模式為 0 和 1，從下圖結果顯示假設是合理的。

根據上述實驗可知，隨機梯度下降和方向傳播的應用使得生成的圖像分布上是平滑的，這是區分真假樣本的一個重要依據。

CIFAR-10實驗

CIFAR-10 的實驗主要是在 MNIST數據集的基礎上將像素擴展到 3 通道的彩色圖像上，實驗結果如下：

可以看出生成樣本仍然是平滑分布。

Bach Chorales和Speech實驗

這兩種數據集都是在語音數據下比較的，Bach Chorales（巴赫合唱）音樂是復調的音樂作品，通常為 4 或 5 種聲音編寫，遵循一系列規范或規則。例如，全局規范可以聲明只有一組持續時間有效；本地規范可以聲明只有狀態（音符）之間的某些轉換才有效，具體取決于當前的和聲。

實驗中，將 Bach Chorales 數據集轉換為鋼琴卷，鋼琴卷是一種表示，其中行表示音符編號，列表示時間步長，單元格值表示音符強度。實驗的目的是為了證明生成的樣本是否違反了 Bach 合唱的規范。下圖為真實和生成的樣本數據，表 2 為打破規則的次數：

雖然圖 11 顯示的生成樣本看起來與實際數據類似，但 IWGAN 樣本有超過 5000 次違規，比測試集多 10 倍！違反規范是一個有力的證據，表明假樣本不是來自與真實數據相同的分布。?

在語音（speech）域中，實驗研究了 Mel-Spectrogram 特性。將 NIST 2004 數據集劃分為訓練和測試集，將語音轉換為 Mel-Spectrogram 圖，得到的生成樣本如下：

經驗 CDF 的對比結果如下：

總結

TequilaGAN 研究了用對抗方法生成的樣本的數值特性，特別是生成對抗網絡。實驗發現假樣本在視覺具有與真實樣本幾乎無法注意到的特性，即由于隨機梯度下降和可微分性的要求，假樣本平滑地接近分布的主導模式。

實驗還對真實數據與其他數據之間差異的統計度量，結果表明，即使在簡單的情況下，例如像素強度的分布，訓練數據和偽數據之間的差異對于測試數據而言是大的，并且假數據嚴重違反了實際數據的規范。

參考文獻

[1]. Tim Salimans, Ian J. Goodfellow, Wojciech Zaremba,?Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans. CoRR, abs/1606.03498, 2016.

[2]. Shane Barratt and Rishi Sharma. A note on the inception score. arXiv preprint arXiv: 1801.01973, 2018.

[3]. Geoffroy Peeters. A large set of audio features for sound description (similarity and classifica- tion) in the cuidado project. Technical report, IRCAM, 2004.

本文由 AI 學術社區 PaperWeekly 精選推薦，社區目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學習、數據挖掘和信息檢索等研究方向，點擊「閱讀原文」即刻加入社區！

點擊標題查看更多論文解讀：?

??ACL2018高分論文：混合高斯隱向量文法
??基于詞向量的簡單模型 | ACL 2018論文解讀
??COLING 2018最佳論文：序列標注經典模型復現
??一文解析OpenAI最新流生成模型「Glow」
??CVPR 2018 最佳論文解讀：探秘任務遷移學習
??哈佛NLP組論文解讀：基于隱變量的注意力模型

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 下載論文

總結

以上是生活随笔為你收集整理的AI以假乱真怎么办？TequilaGAN教你轻松辨真伪的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习模型，能分清川菜和湘菜吗？
下一篇： Nature论文解读：用于改善加权生物网