虚拟专题:联邦学习 | 联邦可视化:一种隐私保护的可视化新模型
來源:智能科學與技術學報
聯邦可視化:一種隱私保護的可視化新模型
魏雅婷,?王智勇,?周舒悅,?陳為
浙江大學計算機輔助設計與圖形學國家重點實驗室,浙江?杭州?310058
【摘? 要】概述了聯邦可視化的概念、框架、方法與應用。聯邦可視化框架能夠在不進行數據整合的情況下,針對具體任務和特定場景進行加密訓練,得出反映全體數據特征的可視化模型。聯邦可視化是聯邦學習框架在可視化領域的拓展應用,主要強調在保障數據隱私的前提下,互利共贏的聯邦協作方式在對多數據源數據進行可視分析方面的應用,以打破各領域、各行業的數據壁壘,實現數據與知識的共享。
【關鍵詞】?聯邦學習?;?數據隱私?;?視覺特征?;?數據可視化?;?人工智能
【引用格式】魏雅婷,?王智勇,?周舒悅,?陳為.聯邦可視化:一種隱私保護的可視化新模型
[J]. 智能科學與技術學報, 2019, 1(4): 415-420.
1.引言
近年來,在大多數行業中,行業之間的競爭、行政手續、數據隱私安全等問題,使得數據是以孤島的形式存在的,甚至有時同一個公司的不同部門之間也無法實現數據互通。這一困境嚴重阻礙了各類數據科學技術的落地。
數據的全面與否將直接影響數據可視化分析結果的準確性。使用片面的數據進行可視分析往往會使得結果和真實情況大相徑庭。尤其是當前數據可視化在安防、交通、金融等領域扮演著十分重要的角色,分析結果的偏差可能會帶來嚴重損失。
與此同時,通過數據整合的方式來解決數據孤島問題逐漸變得不可行。一方面,隨著大數據的進一步發展,人們越來越重視數據隱私和數據安全,保障用戶數據隱私是企業獲得用戶信任的前提。用戶數據的每一次泄露都會引起媒體和公眾的極大關注,如Facebook的數據泄露事件引發了大范圍的抗議行動。另一方面,各國也在通過法律手段加強對數據隱私和數據安全的保護。2018年5月25日歐盟開始實施《通用數據保護條例(general data protection regulation,GDPR)》,GDPR旨在保護用戶的個人隱私和數據安全,它要求經營者必須使用清晰、明確的語言來表述自己的用戶協議,同時用戶擁有抹除數據的權利,即用戶可以要求企業刪除其個人數據并停止利用其個人數據進行建模,違背該條例的企業將面臨巨額罰款。同樣,我國在2017年起實施的《中華人民共和國網絡安全法》和《中華人民共和國民法總則》也指出,網絡運營者不得泄露、篡改、毀壞其收集的個人信息,并且與第三方進行數據交易時需確保擬定的合同明確約定擬交易數據的范圍和數據保護義務。
在機器學習領域,學者面臨著相似的困境。表現良好的模型背后往往需要數量大、維度高的優質數據,而在實際產業界中,除了有限的幾個行業,很多領域存在著數據有限且質量較差的問題,其擁有的數據不足以支撐人工智能技術的實現。因此,聯邦學習應運而生,它能夠在保障數據安全的前提下,打破數據孤島。
受到聯邦學習的啟發,本文提出一個框架,能夠在保障數據隱私的前提下,對分布在不同機構的數據進行可視化,即聯邦可視化。在傳統的數據可視化流程中,視覺編碼決定需要的特征數據,并從數據庫中讀取這些數據。而在聯邦可視化中,可視化的特征數據將不再通過查詢數據庫直接獲取,而是通過由各方機構共同完善的模型計算得到。
2.相關工作
2.1 隱私保護
在隱私保護的數據挖掘領域,句法匿名模型和差異隱私模型是 2 種常用的隱私模型,它們從不同的角度解決隱私問題。k-匿名模型是語法匿名模型的代表之一,其目標是通過鏈接公共數據庫和私有數據庫中共存的準標識符防止重新標識,使 k 條記錄彼此相同,防止身份泄露(因為攻擊者無法識別特定的個人),但是,k-匿名模型在防止屬性泄露方面有其缺點:如果具有相同準標識符的個人也具有相似甚至相同的敏感屬性值,則某些敏感信息仍然可能泄露。隨后,研究人員提出了l-多樣性模型和t-緊密度模型來分析隱私保護泄露數據挖掘中的屬性公開風險。差異隱私模型主要用于匿名化查詢響應,是通過將從確定的分布中選擇的隨機噪聲添加到真實查詢結果中的方式實現的。
在隱私保護數據可視化領域,研究人員已經對數據挖掘社區的模型進行了修改和擴展,以在匿名可視化表示中的隱私與實用性之間取得平衡。參考文獻討論了當使用平行坐標表示多維數據時,應用語法匿名化方法(即 k-匿名性和 l多樣性)的策略。參考文獻將重點放在事件序列數據上,為數據所有者提供視覺界面,檢查潛在的隱私問題并根據算法建議和自己的判斷微調結果。參考文獻著眼于多屬性表格數據匿名化和圖數據隱私保護,設計一種可以輔助用戶定制既能保護隱私,又能降低實用性損失的隱私保護方案,但是需要用戶進行一些復雜的交互。參考文獻利用屏幕空間的不確定性來防御攻擊。參考文獻在系統后端已經拿到各方數據的基礎上,通過向可視化圖表中加入不確定性來保護隱私。
本文從數據層面出發,提出不同于傳統可視化的新框架,使攻擊者完全觸碰不到原始數據,而且數據持有者不需要進行復雜的交互即可定制隱私保護方案。
2.2 AI與可視化
將可視化與傳統機器學習技術結合以構建人在回路(human in the loop)分析流水線,一直是視覺分析的核心目標、循環神經網絡(RNN)、生成對抗網絡(GAN)、深度強化學習網絡(DQN)以及深度生成模型。這些工作本質上是利用可視化技術解釋、優化 AI模型,即用可視化技術解決AI中的問題(VIS for AI)。與之相反,本文提出的聯邦可視化框架是利用 AI 模型(聯邦學習模型)解決可視化中存在的隱私保護問題,即用 AI 技術解決可視化中的問題(AI for VIS)。
AI for VIS這個概念目前被很多領域專家認可,是可視化領域一個非常有發展前景的方向。近幾年,在可視探索、圖繪制、可視化圖表推薦與自動生成等領域出現許多優秀的研究工作,它們使用 AI 模型解決可視化中存在的各種問題。
2.3 聯邦學習
聯邦學習的概念最早于2016年由Google公司提出,當多個數據擁有方(如企業)
?想要聯合其他數據擁有方的數據Di訓練機器學習模型時,傳統做法是把數據整合到其中一方,利用數據進行訓練,并得到模型M_sum。但是,這種做法在沒有得到用戶同意的情況下是違反隱私和數據安全的相關法律的,通常難以實施。因此聯邦學習應運而生,在聯邦學習中,數據擁有方 Fi可以在不給出己方數據Di的情況下進行模型訓練,得到模型M_fed,并能夠保證模型M_fed的效果(V_fed)與模型 M_sum 的效果(V_sum)的差距足夠小,即|V_fed-V_sum| <δ,其中δ是任意小的一個正值。
楊強[37]教授根據參與訓練的數據分布情況將聯邦學習分為 3 類:橫向聯邦學習(horizontal federated learning)、縱向聯邦學習(vertical federated learning)和聯邦遷移學習(federated transfer learning,FTL),如圖1(a)所示。聯邦學習框架如圖1(b)所示,各客戶端在不上傳本地數據的前提下,訓練本地模型,并將梯度值上傳到服務端;服務端將所有梯度值平均分發給各客戶端;客戶端更新本地模型,這個迭代過程持續到模型收斂或人為結束訓練。
圖1???聯邦學習
3.聯邦可視化框架
本文借鑒聯邦學習框架提出適用于可視化領域的聯邦可視化框架,解決可視化分析中的數據孤島問題。聯邦可視化框架的核心思想是得到一個反映全體數據特征的可視化模型,在各個數據擁有方的數據不離開本地的情況下進行加密訓練。
3.1 可視化模型
可視化映射是信息可視化的核心步驟,指將數據信息映射成可視化元素,映射結果通常表達直觀,易于理解和記憶。可視化元素由3方面組成:可視化空間、標記和視覺通道。數據由屬性和值構成,屬性與標記對應,值與視覺通道對應。其中,標記是數據屬性到可視化元素的映射,用以直觀地表示數據的屬性歸類,如點、線、面、體等;視覺通道是數據屬性的值到標記的視覺呈現參數的映射,用于控制標記的視覺特征,通常可用的視覺通道包括標記的位置、大小、形狀、方向、色調等,標記和視覺通道的結合可以完整地將數據信息進行可視化表達。
假設V是一個可視化圖表,一般地,可以將其分解成多個視覺特征集,表示為V={VF1,VF2,…,VFn},其中,VFi={vfi1,vfi 2,…,vfin}是一個視覺特征集,由多個視覺特征組成。例如,直方圖只有一組視覺特征,每個視覺特征的作用是編碼柱子的高度(如圖2(a)所示);熱力圖也只有一組視覺特征,每個視覺特征的作用是編碼每個小方格的顏色(如圖2(b)所示)。
圖2???視覺特征集示例
3.2 框架架構
本文以包含3個數據擁有方(即企業A、B、C),且每個數據擁有方有相同的用戶特征和不同的用戶(即橫向聯邦學習)的場景為例,介紹聯邦可視化的框架(對該框架的細節設置進行調整,即可擴展至更加復雜的數據分布情況)。這些企業僅使用各自擁有的數據進行數據分析。假設這3家企業想聯合起來看整體數據的數據分布特點,出于數據隱私保護和安全考慮,3 家企業無法直接進行數據整合,但是可以使用聯邦可視化框架建立可視化模型,使各個企業看到近似的數據全貌。聯邦可視化的框架與運行機制如圖3所示。
圖3???聯邦可視化的框架與運行機制
為保證訓練過程中數據的保密性,需要借助第三方協作者服務器(Server)進行加密訓練。以熱力圖為例,訓練過程可分為以下4步。
? 數據預處理。各個企業將本地的地理數據根據經緯度統一用n × m的網格進行劃分,并對每個網格中的數據點進行計數。
? 初始模型分發。基于聯邦學習,Server端初始化一個模型M_fed,將參數發送至各個企業。如在熱力圖的實例中,模型M_fed的輸入為一組經緯度對應的網格索引,輸出為該網格中的數據點統計量。
? 加密模型訓練。各個企業獲取Server端發來的參數,根據本地數據計算梯度值,并加密發送給 Server 端。Server 端對各個企業發來的梯度值進行加權平均,更新參數后再次發送給各個企業。
? 可視圖表繪制。經過多次迭代,模型逐漸精確。在各個企業本地,對于n × m的地理網格,將每個網格的搜索索引k作為模型M_fed的輸入,可以得到對應網格的數據點統計量,即vfk,最終以熱力圖的形式將n × m的網格數據可視化地表示出來。
在訓練過程中,各個企業沒有進行本地數據傳輸,數據隱私得到了保障,同時也使得各個企業可以看到數據全貌,有利于企業間的合作,并且可以輔助企業做出更加有效的決策。
4.實驗
基于上述聯邦可視化框架架構,本文使用數百萬條海口出租車訂單數據(包括經緯度信息)做了一個簡單的實驗,來驗證框架的有效性。
4.1 數據預處理
為了模擬多家企業,本文將一份數據集隨機等分為3份非獨立同分布的數據集,對數據進行以下處理。
? 將海口劃分為 360×180 的網格,用(x,y){ x∈[1,360],y∈[1,180]}表示。
? 對每個網格里的數據進行計數,獲得數據(x,y,count){x∈[1,360],y∈[1,180]}。
4.2 技術實施
針對上述3份數據,借助聯邦平均算法對3個客戶端進行加密訓練,并擬合整合后的數據,以此保證各方的數據隱私。
在聯邦平均算法的配置方面,使用 Python 的SocketIO 開源數據庫進行服務器與客戶端之間的通信。所有客戶端均參與每輪訓練,每個客戶端訓練一輪。
在神經網絡設置方面,輸入為經緯度索引(x,y),輸出為對應網格的計數結果。使用5層寬度為 96 的全連接層,每層均使用線性整流函數(rectified linear unit,ReLU)作為激活函數,優化器采用Adadelta算法,批尺寸設為32。
4.3 實驗結果
隨著迭代次數的增加,模型輸出結果的相對誤差的變化情況如圖4所示,在訓練前期,相對誤差降低得較快,在達到一定訓練次數后,相對誤差的變化速度變慢,需要增加多次迭代才能獲得更準確的結果。經過20 000次迭代后,相對誤差降到了4.9%,所獲得的熱力圖已經接近將3份數據直接整合的效果。進一步優化訓練方法,結果會更加逼近數據直接整合的結果。
圖4???相對誤差隨迭代次數的變化曲線(平滑后)
與現有的可視化領域隱私保護方法相比,本文的方法不需要提前整合多個客戶端的原始數據,各個客戶端的數據不會離開本地,這從根本上保護了數據隱私,并且可以通過控制迭代的次數得到不同精確度的聚合結果。
5.結束語
數據的孤島分布以及相關部門對數據隱私監管力度的加強是研究領域面臨的主要問題。聯邦學習的出現為人工智能領域打破數據屏障及人工智能領域的進一步發展提供了新的思路。本文基于聯邦學習的思想,提出了聯邦可視化框架,用于解決可視化領域的數據孤島問題。聯邦可視化框架的核心思想是將可視化當作模型,在保證數據不離開數據擁有方本地的前提下,加密訓練出反映全體數據特征的可視化模型。本文使用簡單的實驗驗證了聯邦可視化框架的有效性,即能夠幫助多個數據擁有方打破數據壁壘,進行協作分析。
聯邦可視化的研究仍處于發展階段。在隱私性方面,本文提出的聯邦可視化方法能夠有效避免隱私數據的泄露;在準確性方面,當需要擬合的特征數據小于10 000時,準確率能在數千次迭代后過擬合,而更多的特征數據則需要更多的迭代次數;在通用性方面,本文的方法只考慮了表格型數據,可以繪制常見的可視化圖表,比如柱狀圖、餅圖、熱力圖等。聯邦可視化是聯邦學習在可視化領域的應用,具有重要的、前瞻性的實際意義,是打破數據壁壘的有效途徑,具有巨大的應用前景,同時,更加復雜的應用場景也值得學者們進一步研究。
聯系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055307
大數據期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,以及信息通信領域高質量科技期刊分級目錄、計算領域高質量科技期刊分級目錄,并多次被評為國家哲學社會科學文獻中心學術期刊數據庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的虚拟专题:联邦学习 | 联邦可视化:一种隐私保护的可视化新模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jsp的<a>标签中怎么传递参数
- 下一篇: b站电脑客户端_B站(哔哩哔哩) 视频批