读文献--《机器学习隐私保护研究综述》
這篇文章是譚作文教授2020年發表在軟件學報上的一篇文章。譚作文是江西財經大學計算機系教授,博士研究生導師。中國科學院數學與系統科學研究院訪問學者,瑞典Uppsala大學信息技術系訪問教授。研究興趣是密碼學、隱私保護、區塊鏈等。在權威學術期刊和信息安全國際會議上發表論文80多篇,第一作者SCI檢索論文22篇,主持國家自然基金項目3 項、省部級項目8項,參與國家自然基金項目3 項。
零、摘要
機器學習是如今的核心技術,在模型訓練時需要大量數據。如何低成本、高效保護這些數據是一個重要問題。本文介紹機器學習及其隱私定義、威脅,對隱私保護領域現狀進行概括,分析優缺點,并展望未來可能的研究方向。
一、背景知識
1.機器學習概述
機器學習(ML)利用計算機有效地模仿人類的學習活動,通過對現有數據進行學習,產生有用的模型進而對未來的行為做出決策判斷。機器學習解決問題的過程分為訓練階段和預測階段.在訓練結束后獲得目標模型,人們可以利用目標模型
進行預測。
按數據在模型訓練前是否被集中收集,ML模型訓練方式分為集中式學習、分布式學習、聯邦學習。
1.1集中式學習
介紹:各參與方訓練數據集中在中央服務器。
優點:模型訓練部署方便、準確性提高
缺點:中央服務器存儲、運算資源高負載,用戶數據存在安全隱患。
1.2分布式學習
介紹:訓練數據、計算負載分布在各工作結點上,中央服務器僅維護全局參數。
舉例:
1.各工作節點在獲得中心模型參數www后利用本地數據進行單獨訓練,將訓練后更新的梯度參數gig_igi?上傳至中央服務器
2.中央服務器按下式將所有上傳梯度參數整合至中心模型,再將模型參數分發出去
3.迭代此過程,至最后收斂
1.3聯邦學習
介紹:特殊的分布式機器學習
對比:相較分布式學習,FL計算節點可能分布在不同的地理位置,與中心服務器一般處于遠程連接的狀態,同時受不同設備網絡帶寬的影響
舉例:
1.服務器抽取一組滿足條件的客戶端;被選中的客戶端從服務器下載當前模型權重參數和一個訓練程序
2.客戶端在本地計算對模型參數的更新
3.服務器收集客戶端上傳的參數。為提高效率,一旦有足夠數量的設備報告了結果,掉隊的設備可能會在此
時被丟棄
4.服務器更新共享模型.如此迭代,直至收斂.
特點:
各參與方對自己的設備和數據擁有絕對的控制權,可以自主決定何時加入或退出聯邦學習.各參與方的負載不平衡,并且可能需要處理非獨立同分布數據。
2.機器學習隱私定義
根據機器學習隱私保護內容的不同,可將機器學習隱私分為訓練數據隱私、模型隱私與預測結果隱私。
- 訓練數據隱私:指機器學習中用戶數據的個人身份信息和敏感信息。
- 模型隱私:指機器學習中模型訓練算法、模型拓撲結構、模型權重參數、激活函數以及超參數等與機器學習模型有關的隱私信息。
- 預測結果隱私:機器學習中模型對用戶的預測輸入請求反饋回來的、用戶不愿意公開的敏感信息。
3.機器學習隱私攻擊敵手模型
- 敵手目標:破壞模型機密性
- 敵手知識:敵手所掌握的關于目標模型及其在目標環境中使用的信息量
- 敵手能力:敵手可用的攻擊內容和方式。
- 敵手策略:敵手為達到攻擊目標,所采取的具體攻擊方式。敵手目標、敵手知識、敵手能力三者共同決
定攻擊者采取的敵手策略。
4.機器學習隱私保護場景
不同隱私保護技術適用于不同場景,了解隱私保護場景是設計隱私保護方案的前提。
- 集中式學習
- 聯邦學習
二、ML典型隱私威脅與隱私保護方案
1.典型隱私威脅
- 模型逆向攻擊:攻擊者從模型預測結果中提取和訓練數據有關的信息
- 模型提取攻擊:攻擊者獲得對某個目標模型的黑盒訪問權后,取得模型內部的參數或結構,或是試圖構造出一個與目標模型近似甚至完全等價的機器學習模型
- 成員推斷攻擊:攻擊者通過訪問模型預測 API,從預測結果中獲知某個特征數據是否包含在模型的訓練集中
2.ML隱私保護方案分類
三、基于差分隱私的ML隱私保護機制
1.相關概念
1.1定義
差分隱私是防止差分攻擊的方法,通過添加噪聲,使得差別只有一條記錄的兩個數據集,通過模型推理獲得相同結果的概率非常接近。
差分攻擊是通過比較分析有特定區別的明文在通過加密后的變化傳播情況來攻擊密碼算法的。
1.2性質
2.補充–常見分類
2.1拉普拉斯機制
2.2高斯機制
找了一個應用高斯機制給梯度加噪的實例,大概過程是:
1.將每個樣本對應梯度裁剪到一個固定范圍,已控制個體數據的影響。
2.對裁剪后的梯度加高斯噪聲N(0,σ2)N(0,\sigma^2)N(0,σ2),已得到滿足差分隱私的梯度數據。
3.用這些梯度更新模型,計算模型的隱私損失。
鏈接:http://www.fenghz.xyz/Differential-Privacy-in-Deep-Learning/
2.3指數機制
上述兩種用于連續性數據,對于離散型數據常采用指數機制并引入打分函數,對每一種可能的輸出都得到一個分數,歸一化之后作為查詢返回的概率值。
隱私預算和可用性成正比,和隱私保護成反比。
3.ML差分隱私擾動方法
3.1基于輸入擾動的隱私保護方案
輸入擾動是在模型訓練前,先對訓練數據進行一定程度的隨機擾動。先有差分隱私數據合成、本地化差分隱私擾動兩種方法。
- 差分隱私數據合成:生成具有與原始輸入數據相似統計特性和相同格式的人工合成數據,達到保護原始數據隱私的目的
- 本地化差分隱私:每個用戶首先在本地對原始數據進行差分隱私擾動,再將處理后的數據發送給數據收集者
作者舉了一個應用解決生成對抗網絡(GAN)的例子,解決GANs可能泄露訓練數據隱私的問題。該方案使用兩個神經網絡:生成器的神經網絡G,判別器的神經網絡D。
G:訓練從一組隨機數z中生成與原始數據x足夠相似的新數據。
D:判斷一個樣本是真實的還是生成器生成的樣本。
在模型學習訓練過程中,通過向判別器梯度添加(?,δ)(\epsilon,\delta)(?,δ)差分隱私保護,根據DP后處理免疫性,生成器也獲得(?,δ)(\epsilon,\delta)(?,δ)差分隱私保護。
3.2基于中間參數擾動的隱私保護方案
本方案就是是在模型訓練過程中給梯度參數或特征參數添加拉普拉斯噪聲或高斯噪聲,以防止敵手獲取模
型或訓練數據隱私。這里作者舉了一些例子,簡單介紹一個。
Phan等人基于逐層相關傳播(LRP)算法提出的一種自適應拉普拉斯機制(AdLM)。思路如下:
1.根據LRP算法原理、仿射變換、反向傳播理論,評估每個輸入特征xijx_{ij}xij?與模型輸出Fxi(θ)F_{xi}(\theta)Fxi?(θ)之間的相關性。
2.基于預訓練好的神經網絡計算數據集D上每個特征的平均相關性Rj ̄\overline{R_j}Rj??,并添加laplace噪聲。
3.根據每個特征xijx_{ij}xij?對輸出貢獻不同自適應地向特征中注入噪聲,在與模型輸出關系不大地特征中注入更多地laplace噪聲
3.3基于目標擾動的隱私保護方案
目標擾動也稱為函數擾動,是指在機器學習模型的目標函數或目標函數展開式的系數中添加拉普拉斯噪聲,并最小化此目標函數的方法。與參數擾動方法不同,目標擾動方法的隱私損失是由目標函數本身決定的,與訓練迭代次數無關。
目標擾動要求目標函數連續可微且為凸函數,故直接擾動目標函數不適用于神經網絡等非凸模型。另一種方法是在目標函數展開式地系數中添加laplace噪聲。給出基于函數擾動機制地DP方案對比,如下圖。
3.4基于輸出擾動的隱私保護方案
輸出擾動是在模型訓練結束時擾動模型輸出參數以及在模型預測輸出后擾動集成輸出結果。
前一種方法是直接在訓練好的模型參數上添加噪聲的擾動方法,有效防止模型提取攻擊,但僅實現了模型發布階段地隱私保護,攻擊者可能在前期多次請求,攻擊訓練數據隱私。
后一種方法往往發生在師生框架的知識轉移階段,即在利用教師模型訓練學生模型時,在教師模型的預測輸出投票結果上加laplace噪聲.其目的是增強模型的泛化度,防止敵手對模型進行成員推斷攻擊和模型逆向攻擊。
4.綜合分析
DP相較加密技術,僅通過隨機化和隨機噪聲擾動數據便可實現,所以不會帶來過多額外計算開銷,但一定程度上會影響模型可用性。
最嚴格的DP機制保證模型不受推理攻擊或模型逆向攻擊。理論上可以實現攻擊者已知數據集中除一條記錄之外的全部數據時仍能提供隱私保護,但這種做法將導致模型不可用。
一種解決思路是適當降低可用性,但可能造成泄露隱私。
本地化差分隱私一定程度上保證用戶隱私數據在采集過程中被竊取的風險。
相較傳統ML模型,深度學習模型因其目標函數是非凸函數、參數多、結構復雜,需要更多次訪問敏感訓練數據集才能收斂至最優解。每次參數更新都滿足DP,需要很大開銷。故難以權衡隱私性與模型可用性。
基于DP的生成對抗網絡生成的人工數據,缺乏嚴格隱私保護,且接近真實樣本,新樣本保持了原樣本特征。故難以完全保護隱私,也無法抵抗對統計特性的推理攻擊。
四、基于同態加密的ML隱私保護機制
1.相關概念
- 定義
- 分類
- 部分同態加密PHE:只支持加法或乘法運算,且運算次數不受限制。
- 類同態加密SHE:只支持有限次加法和乘法運算。層次性全同態加密方案(leveled-FHE),又稱深度有界同態加密,也屬于SHE方案。
- 完全同態加密FHE:支持任意算法、運算次數不限。
2.典型方案分析
1.無需多項式近似的同態加密隱私保護方案
HE只支持加法和乘法等多項式運算,不支持ML過程中使用的非線性運算,如神經網絡中的sigmoid和ReLU等激活函數。
解決方法之一是數據持有者來完成非線性運算。模型以加密形式將輸入發送到數據所有者進行非線性轉換,數據所有者解密消息、應用轉換、加密結果并將其發送回來。但這種交互延遲很大,且增加了數據所有者的復雜性。
2.基于多項式近似的同態加密隱私保護方案
對于HE不支持ML中非線性運算問題,另一種解決方案是用多項式逼近技術。用多項式近似模擬神經網絡。
3.綜合分析
HE是端到端加密系統,使用戶能更好地控制其數據,同時受益于遠程服務器提供的計算服務。ML學習模型訓練過程中設計的數據和參數常是浮點數形式,而HE只支持整數運算,故FHE不支持ML中激活函數等非線性運算,必須用多項式來近似。近似會導致精讀和效率的下降。HE計算和通信開銷很大,對當前計算資源和通信設施是一大挑戰。
五、基于安全多方計算的ML隱私保護機制
相關概念
安全多方計算主要用于解決一組互不信任的參與方之間保持隱私的協同計算問題。
目前ML隱私保護主要有兩類方案與多方相關。
- 基于傳統分布式學習方案。各方參與ML模型訓練或測試,無需披露其數據或模型。
- 基于HE、OT、GC等技術的2PC架構方案。
包含兩個參與方:1.數據提供方 2.基于提供的數據實現ML的服務器。
典型方案分析
基于傳統分布式學習的SMC方案
目前的方案有很多,如Vaidya等人針對任意劃分的數據,提出的基于MPC的k-means聚類算法。Bansal等人針對任意分割訓練數據集,提出的基于HE的神經網絡學習算法。
目前ML中提高SMC計算效率是大家的主要關注點。Abbasi等人提出了一種安全聚類多方計算(SCMC),允許類中存在一定隱私泄露。
基于2PC架構的SMC方案
基于2PC架構的SMC方案是由若干個MPC基礎密碼協議組合構建,其中經典兩方計算方案有HE+GC、HE+GC+SS+OT、GC+OT、HE+GC+SS、GC+SS+OT等。
總結
以上是生活随笔為你收集整理的读文献--《机器学习隐私保护研究综述》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UG学习方法大总结
- 下一篇: Solidworks CAM入门教程,简