當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【译】Attacks against machine learning — an overview

發布時間：2025/3/15 编程问答 15 豆豆

生活随笔收集整理的這篇文章主要介紹了【译】Attacks against machine learning — an overview 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這篇博客文章調查了針對AI（人工智能）系統的攻擊技術以及如何防范它們。

在較高級別，對分類器的攻擊可以分為三種類型：

對抗性輸入 ，這是特制的輸入，其目的是可靠地錯誤分類以逃避檢測。對抗性輸入包括旨在逃避防病毒的惡意文檔，以及試圖逃避垃圾郵件過濾器的電子郵件。
數據中毒攻擊 ，涉及將訓練對抗數據提供給分類器。我們觀察到的最常見的攻擊類型是模型傾斜，攻擊者試圖以這樣的方式污染訓練數據，即分類器歸類為良好數據的分界與分類器歸類為壞分類之間的界限對他有利。我們在野外觀察到的第二種類型的攻擊是反饋武器化，其試圖濫用反饋機制以努力操縱系統以將好的內容錯誤分類為濫用（例如，競爭者內容或作為報復攻擊的一部分）。
模型竊取技術 ，用于“竊取”（即復制）模型或通過黑盒探測恢復訓練數據成員資格。例如，這可用于竊取股票市場預測模型和垃圾郵件過濾模型，以便使用它們或能夠更有效地針對這些模型進行優化。

這篇文章依次探討了這些攻擊類別，提供了具體的例子并討論了潛在的緩解技術。

這篇文章是四個系列中的第四篇，也是最后一篇，旨在簡要介紹如何使用AI構建強大的反濫用保護。第一篇文章解釋了為什么AI是構建強大保護以滿足用戶期望和日益復雜的攻擊的關鍵。在建立和啟動基于AI的防御系統的自然發展之后，第二篇文章涵蓋了與訓練分類器相關的挑戰。第三部分研究了在生產中使用分類器來阻止攻擊時面臨的主要困難。

這一系列的帖子是在我在RSA 2018發表的演講之后建模的。以下是對此演講的重新錄音：

你也可以在這里獲得幻燈片。

免責聲明：本文旨在概述每個對利用AI進行反濫用防御的主題感興趣的人，這對于那些正在進行跳躍的人來說是一個潛在的藍圖。因此，這篇文章的重點是提供一份清晰的高級摘要，故意不深入研究技術細節。也就是說，如果您是專家，我相信您會找到以前沒有聽說過的想法，技巧和參考資料，希望您能夠受到啟發，進一步探索它們。

對抗性投入

攻擊者不斷地使用新的輸入/有效載荷探測分類器以試圖逃避檢測。此類有效負載稱為對抗性輸入，因為它們明確設計為繞過分類器。

以下是對抗性輸入的具體示例：幾年前，一位聰明的垃圾郵件發送者意識到如果在電子郵件中多次出現相同的多部分附件，Gmail將僅顯示上面屏幕截圖中顯示的最后一個附件。他通過添加一個包含許多聲譽良好的域名的無形第一個多部分來試圖逃避檢測，從而武裝了這些知識。此攻擊是被稱為關鍵字填充的攻擊類別的變體。

更常見的是，分類器遲早會面臨兩種類型的對抗性輸入：突變輸入，即為避免分類器而專門設計的已知攻擊的變體，以及零有效輸入，這是有效載荷之前從未見過的。讓我們依次探討這些問題。

突變輸入

在過去的幾年中，我們看到地下服務的爆炸性增長，旨在幫助網絡犯罪分子制作無法察覺的有效載荷，這些有效載荷在黑社會中被稱為“FUD”（完全無法察覺）。這些服務包括允許針對所有防病毒軟件測試有效負載的測試服務，以及旨在以無法檢測到的方式混淆惡意文檔的自動打包程序（具有保修！）。上面的屏幕截圖展示了兩個這樣的服務。

這種專門用于有效載荷制作的地下服務的復興強調了以下事實：

攻擊者會主動優化攻擊，以確保最小化分類器檢測率。

因此，必須以這樣的方式開發檢測系統，使得攻擊者難以執行有效載荷優化。以下是三個有助于此的關鍵設計策略。

1.限制信息泄露

這里的目標是確保攻擊者在探測您的系統時獲得盡可能少的洞察力。保持反饋最小化并盡可能延遲它是很重要的，例如避免返回詳細的錯誤代碼或置信度值。

2.限制探測

此策略的目標是通過限制他們可以針對您的系統測試多少有效負載來減慢攻擊者的速度。通過限制攻擊者可以對您的系統執行多少測試，您將有效地降低他們設計有害負載的速度。

這一戰略主要是通過對知識產權和賬戶等稀缺資源實施速率限制來實現的。這種速率限制的典型示例是如果用戶過于頻繁地發布如上所述，則要求用戶解決CAPTCHA。

這種主動速率限制的負面影響是，它會激勵不良行為者創建虛假賬戶并使用受到破壞的用戶計算機來使其IP池多樣化。通過行業廣泛使用速率限制是非常活躍的黑市論壇崛起的主要驅動因素，其中帳戶和IP地址經常被出售，如上面的屏幕截圖所示。

3.合奏學習

最后，但并非最不重要的是，將各種檢測機制結合起來使攻擊者更難繞過整個系統是很重要的。使用集成學習來組合不同類型的檢測方法，例如基于信譽的檢測方法，AI分類器，檢測規則和異常檢測，可以提高系統的穩健性，因為不良參與者必須制作有效載荷，同時避免所有這些機制。

例如，如上面的屏幕截圖所示，為了確保Gmail分類器對垃圾郵件發送者的穩健性，我們將多個分類器和輔助系統組合在一起。這樣的系統包括聲譽系統，大型線性分類器，深度學習分類器和一些其他秘密技術;）

針對深度神經網絡的對抗性攻擊的示例

一個非常活躍的相關研究領域是如何制作愚弄深度神經網絡（DNN）的對抗性例子。如上面的截圖所示，從本文中可以看出，制造難以察覺的干擾現在是一種瑣事。

最近的工作表明，CNN容易受到對抗性輸入攻擊，因為他們傾向于學習表面數據集的規律性，而不是很好地概括并學習不易受噪聲影響的高級表示。

這種類型的攻擊會影響所有DNN，包括基于強化的攻擊，如上面的視頻中所強調的那樣。要了解有關此類攻擊的更多信息，您應該閱讀Ian 關于該主題的簡介或開始嘗試使用Clever Hans 。

從后衛的角度來看，這種類型的攻擊已經證明（到目前為止）是非常有問題的，因為我們還沒有一種有效的方法來抵御這種攻擊。從根本上說，我們沒有一種有效的方法來讓DNN為所有輸入生成良好的輸出。讓他們這么做是非常困難的，因為DNN在非常大的空間內執行非線性/非凸優化，我們還沒有教他們學習很好地概括的高級表示。你可以閱讀Ian和Nicolas的深入帖子，了解更多相關信息。

零日投入

可以完全拋棄分類器的另一種明顯類型的對抗性輸入是新的攻擊。新的攻擊不會經常發生，但它仍然很重要，知道如何處理它們，因為它們可能非常具有破壞性。

雖然出現新攻擊的原因有許多不可預測的潛在原因，但根據我們的經驗，以下兩類事件可能會引發它們的出現：

新產品或功能發布 ：從本質上講，添加功能會打開新的攻擊面，攻擊者可以非常快速地進行探測。這就是為什么在新產品推出時提供零日防御是必不可少的（而且很難）。

增加的激勵 ：雖然很少討論，但許多新的攻擊激增是由攻擊媒介變得非常有利可圖。最近這種行為的一個例子是濫用云服務（如Google Cloud）以應對2017年末比特幣價格激增的加密貨幣。

隨著比特幣價格飆升至10,000美元以上，我們看到大量新攻擊試圖竊取谷歌云計算資源。我將在本文稍后介紹我們如何檢測到這些新攻擊。

總而言之， Nassim Taleb正式確定的黑天鵝理論適用于基于AI的防御，就像任何類型的防御一樣：

遲早會發生不可預測的攻擊會使你的分類器失效，這會產生重大影響。

然而，這并不是因為你無法預測哪些攻擊會摧毀你的分類器，或者當這樣的攻擊會打擊你無能為力時。您可以計劃發生此類攻擊并制定應急計劃以緩解此類攻擊。在準備黑天鵝活動時，這里有幾個方向可供探索。

1.制定事件響應流程

首先要做的是開發和測試事件恢復過程，以確保在您措手不及時做出適當的反應。這包括但不限于，在調試分類器時，必須有適當的控制來延遲或停止處理，并知道應該打電話給誰。

（免費）Google SRE（站點可靠性工程）手冊中有一章介紹了管理事件，另一章介紹了應急響應。有關更多以網絡安??全為中心的文檔，您應該查看NIST（美國國家標準與技術研究院）網絡安全事件恢復指南。最后，如果您更愿意觀看演講，請查看有關Google如何運行其災難恢復培訓（DiRT）計劃的視頻，以及有關Facebook如何執行事件響應的視頻（錄制內容未顯示幻燈片）

2.使用轉移學習來保護新產品

顯而易見的關鍵難點在于，您沒有過去的數據來訓練您的分類器。緩解此問題的一種方法是使用傳輸學習，它允許您重用來自一個域的現有數據，并將其應用于另一個域。

例如，如果您正在處理圖像，則可以利用現有的預訓練模型，而如果您正在處理文本，則可以使用公共數據集，例如有毒評論的Jigsaw數據集。

3.利用異常檢測

異常檢測算法可以用作第一道防線，因為從本質上講，新的攻擊將創建一個前所未有的異常集，這些異常與它們如何利用您的系統有關。

觸發大量新異常的新型攻擊的歷史案例是針對馬薩諸塞州WinFall彩票游戲的“麻省理工學院賭博集團”攻擊。

早在2005年，多組賭博集團在WinFall彩票系統中發現了一個缺陷：當所有參與者分享累積獎金時，您購買的每張2美元的彩票平均可賺取2.3美元。這種分裂被稱為“滾動”，每當資金池超過200萬美元時就會發生。

為了避免與其他團體分享收益，麻省理工學院幫派決定通過在預計下滑前三周大量買票來提前推出。顯然，這一大量的門票 - 來自極少數零售商 - 造成了一系列由彩票組織發現的異常現象。

最近，正如本文早些時候所提到的那樣，當比特幣價格在2017年瘋狂上漲時，我們開始看到一群不良行為者試圖通過免費使用谷歌云實例進行挖掘而從中受益。為了獲得“免費”的實例，他們試圖利用許多攻擊媒介，包括試圖濫用我們的免費套餐，使用被盜信用卡，破壞合法云用戶的計算機，以及通過網絡釣魚劫持云用戶的帳戶。

很快，這種類型的攻擊變得如此受歡迎，導致成千上萬的人觀看關于如何在Google云上開采的YouTube教程（在正常情況下這是無利可圖的）。顯然，我們無法預料濫用采礦會成為一個如此巨大的問題。

幸運的是，當發生這種情況時，我們確實為Google Cloud實例設置了異常檢測系統。正如預期的那樣，并且在上面的圖表中顯示的是直接從我們的異常檢測系統儀表板中獲得的，事實證明當實例開始挖掘它們的時間行為時會發生巨大變化，因為相關的資源使用與根本不同于未受損云的傳統資源使用情況有所不同實例。我們能夠使用這種移位檢測來遏制這種新的攻擊向量，確保我們的云平臺保持穩定并且溫暖GCE客戶端他們受到了攻擊。

數據中毒

分類器面臨的第二類攻擊涉及試圖毒害您的數據以使您的系統行為異常的對手。

模型偏斜

第一種類型的中毒攻擊被稱為模型傾斜，攻擊者試圖污染訓練數據以在分類器歸類為良好輸入之間以及分類器歸類為壞輸入之間轉移學習邊界。例如，模型偏斜可用于嘗試污染訓練數據以欺騙分類器將特定惡意二進制文件標記為良性。

具體例子

在實踐中，我們經常會看到一些最先進的垃圾郵件發送者群體試圖通過將大量垃圾郵件報告為非垃圾郵件來將Gmail過濾器置于偏離軌道。如圖所示，在2017年11月底至2018年初之間，至少有四次惡意大規模試圖扭曲我們的分類器。

因此，在設計AI基礎防御時，您需要考慮以下事實：

攻擊者積極地試圖將濫用和合法使用之間的學習界限轉移到他們的利益之中。

緩解策略

為了防止攻擊者扭曲模型，您可以利用以下三種策略：

使用合理的數據采樣 ：您需要確保一小組實體（包括IP或用戶）不能占用模型訓練數據的很大一部分。特別是，要小心不要過度加重用戶報告的誤報和漏報。這可以通過限制每個用戶可以貢獻的示例的數量，或者基于所報告的示例的數量使用衰減權重來實現。
將您新訓練的分類器與前一個分類器進行比較，以估計變化的程度。例如，您可以執行暗啟動并比較相同流量的兩個輸出。備選方案包括對流量的一小部分進行A / B測試，以及回測。
構建一個黃金數據集 ，分類器必須準確預測才能投入生產。理想情況下，此數據集包含一組策展攻擊和代表您系統的正常內容。此過程將確保您可以檢測武器化攻擊何時能夠在模型中對用戶產生負面影響之前生成重大回歸。

反饋武器化

第二種類型的數據中毒攻擊是用戶反饋系統的武器化，以攻擊合法用戶和內容。一旦攻擊者意識到您正在以某種方式使用用戶反饋 - 出于懲罰目的 - 他們將盡力利用這一事實。

具體例子

我們在2017年目睹的用戶反饋武器化最令人震驚的嘗試之一是一群4chan用戶，他們決定通過留下數千個一星級評級，在Play商店和App Store中獲得CNN應用排名。

惡意行為者積極使用反饋武器化的原因有很多，其中包括：試圖擊敗競爭對手，嚴厲報復，以及掩蓋他們的蹤跡。上面的屏幕截圖展示了一個討論如何“使用谷歌”取消競爭對手的黑市帖子。

因此，在構建系統時，您需要在以下假設下工作：

任何反饋機制都將被武器化以攻擊合法用戶和內容。

緩解策略

以下是在減輕反饋武器化時要記住的兩個關鍵點：

不要在反饋和懲罰之間建立直接循環。 相反，在做出決定之前，請確保評估反饋真實性并與其他信號結合使用。
不要認為受益于濫用內容的所有者對此負責。 例如，這不是因為照片上有數百個假冒的主人可能已經買了它。我們已經看到無數案例，攻擊者榨取合法內容以試圖掩蓋他們的蹤跡或試圖讓我們懲罰無辜的用戶。

模型竊取攻擊

如果不提及旨在恢復訓練期間使用的數據的模型或信息的攻擊，這篇文章就不完整。此類攻擊是一個關鍵問題，因為模型代表了寶貴的知識產權資產，這些資產受到公司最有價值數據（如金融交易，醫療信息或用戶交易）的培訓。

確保對用戶敏感數據（例如癌癥相關數據）進行培訓的模型的安全性是至關重要的，因為這些模型可能被濫用以泄露敏感的用戶信息。

攻擊

兩種主要的模型竊取攻擊是：

模型重建 ：這里的關鍵思想是攻擊者能夠通過探測公共API來重建模型，并通過將其用作Oracle來逐步完善自己的模型。最近的一篇論文表明，這種攻擊似乎對大多數人工智能算法都有效，包括SVM，隨機森林和深度神經網絡。

成員資格泄漏 ：在這里，攻擊者構建影子模型，使他能夠確定是否使用給定記錄來訓練模型。雖然此類攻擊無法恢復模型，但它們可能會泄露敏感信息。

防御

最著名的防范模型竊取攻擊的防御被稱為PATE （最新論文） - 由Ian Goodfellow等人開發的隱私框架。如上圖所示，PATE背后的關鍵思想是對數據進行分區并訓練組合起來做出決策的多個模型。然后，這個決定就像其他差異隱私系統一樣被吵醒。

要了解有關差異隱私的更多信息，請閱讀Matt的介紹帖子。要了解有關PATE和模型竊取攻擊的更多信息，請閱讀Ian關于該主題的帖子。

結論

現在是時候結束關于如何使用AI來打擊欺詐和濫用的這個（相當長的！）系列帖子。本系列的關鍵點（如第一篇文章中詳述）是：

人工智能是建立保護措施的關鍵，可以滿足用戶的期望和日益復雜的攻擊。

正如本文和前兩篇文章所討論的那樣，要在實踐中完成這項工作需要克服一些挑戰。然而，既然AI框架已經成熟并且有很好的文檔記錄，那么在你的防御系統中開始使用AI是最好的時機，所以不要讓這些挑戰阻止你，因為它們的優勢非常強大。

https://elie.net/blog/ai/attacks-against-machine-learning-an-overview/

總結

以上是生活随笔為你收集整理的【译】Attacks against machine learning — an overview的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：最简单的SpringCloud教程 |
下一篇： Eclipse和IDEA 简单对比说明