互联网文本内容安全:腾讯云天御AI对抗实践
作為國內領先的云解決方案企業,騰訊云在革新云端技術的同時,也肩負著保證互聯網安全秩序、抵御黑產黑客的責任和使命。2018 QCon 北京“人工智能與深度學習實踐”專場,騰訊云專家級研究員王國印分享了騰訊云在互聯網安全防御上的系列解決方案和措施。本文整理了主要王國印老師的主要演講內容,感興趣的讀者可移步觀看王國印老師現場演講視頻。
\\一、引言
\\隨著互聯網、智能設備及各種新生業務的飛速發展,互聯網上的數據呈現爆炸式增長,圖片、視頻、發文、聊天等互動內容已經成為人們表達感情、記錄事件和日常工作不可或缺的部分。
\\這些日益增長的內容中也充斥著各種不可控的風險因素,比如不雅不良評論、垃圾廣告、違法違規交易/宣傳、低俗不文明等垃圾內容,需要各網站及平臺亟待認真對待和管理的工作。
\\二、內容安全現狀
\\不良不雅評論,違規違法交易嚴重影響主營業務的健康發展 。面對此類問題,企業主該如何解決呢?
\\一種方法是投入人力加大審核力度,此種方式的特點如下:
\\另外一種方式是招聘專業的AI工程師自建識別模型,此種方式特點如下:
\\最后一種途徑是購買保險:將內容安全問題交給專業的公司來解決,從而實現“四兩撥千斤”。
\\三、現有解決方案
\\當前識別此類垃圾內容的主流方法有:關鍵詞過濾模式、關鍵詞文法過濾模式、在打標數據上訓練垃圾識別模型的機器學習模式,或融合關鍵詞與機器學習的混合模式,其特點分析如下:
\\新變種不斷涌現,會快速繞過當前垃圾識別方法,使得當前的方法“失靈”,各公司不得不投入大量人力研究變種,歸納攔截策略或標注新樣本,于此同時每個業務平臺上的垃圾內容存在較大差異,同一垃圾類型,客戶的尺度也存在較大差別。在節約人力成本的條件下,如何解決此類對抗性的問題,并做到客戶級的個性化定制,成為困擾業界一大難題。騰訊云天御分別從:
\\等四大維度搭建內容安全完整解決方案。
\\四、騰訊云天御的方案
\\4.1 UGC分類
\\天御把UGC評論文本類型分為6大類:
\\4.2 UGC特點及天御應對策略
\\\\圖1. 天御應對策略
\\圖1可以看出互聯網UGC主要特點如下:
\\4.3 天御UGC過濾系統架構
\\\\圖2. 天御系統架構
\\從圖2看出騰訊云天御UGC過濾垃圾評論的系統架構主要分為四層:
\\其中核心能力層包括4大模塊:
\\1. 異常識別,目的是從各種異常類型中發掘最新變種,異常識別所做的工作見圖3:
\\\\圖3. 異常識別
\\圖3中異常類型主要分為內容異常和行為異常,常見的內容異常主要包括變種和行話/暗語,而行為異常表現為同一個人在不同地方發布相同內容,或同一內容被不同人轉發等。異常識別的手段主要是通過統計分析發現變種詞匯,變種表達等;有些變種是在內容里相間插入特殊符號,其語言構成和正常文本有區別,可通過機器學習的方式來發掘此類變種;對于可疑的內容一般通過人工輔助+策略注入來確定是否為變種。
\\2. 打標平臺,提供數據打標、算法效果每日抽檢等等。主要功能分為:
\\- a) 多人協同:目的是為了提升打標效率,會把一份數據分割成多分由多人完成打標\\t
- b) 抽樣策略,由于UGC評論規模巨大,不論是抽取樣本還是每日抽檢算法效果,需要不同的抽樣策略,最終實現少量樣本覆蓋全部case\\t
- c) 審核策略,分為單人初審、多人投票式的盲審,客戶攔截效果評估等等,此塊保證數據的打標質量\
3. 模型平臺,含模型訓練和模型上線,具體包括:
\\- a) partition策略,不同的客戶、不同的業務場景,其防控尺度均不相同,需要針對性訓練,模型平臺會一次性訓練多達上千個模型。partition策略起著分割數據,標識模型的作用\\t
- b) 特征工程:含有特征提取、特征選擇,特征變換等,特征變換如各類賬號,數字,表情符號歸一化操作等等\\t
- c) 模型訓練\\t
- d) KV分布式化,其作用是提升上線效率,支撐彈性部署,降低人工干預度\\t
- e) 評估策略,其作用是評估模型效果,判斷模型是否可以上線,主要的手段是封閉測試\\t
- f) 更新策略,模型支持T+N滾動式更新,具體流程詳見下圖\
圖4. 模型平臺及流程
\\圖4中“更新策略N”代表一個定時任務,N的值代表相隔多少天更新一次,T表示模型訓練語料集是T天的沉淀數據。在模型訓練時,一個Trainer表示一個Reducer任務,其結果是產出一個模型,Merger是將所有模型分布式KV存儲的操作,并在K中注入模型ID信息【partition+feature】,V是分類標簽和標簽權重信息的列表。
\\4. 垃圾識別,其工作如下圖所示:
\\\\圖5. 垃圾識別
\\從圖5可見,依據影響業務健康度的程度和客戶不同類型的拒絕策略,總體上將同一類垃圾類型劃分為2類或3類:
\\在垃圾內容識別上騰訊云天御采用關鍵詞文法過濾+模型動態更新的文本分類方法實現的垃圾識別系統,支持單條關鍵詞文法上的個性化配置。
\\垃圾廣告、違規違法交易中一般含有各類聯系方式,是否含有聯系方式成為垃圾識別最顯著的特征。聯系方式常見的有:
\\4.4 文本分類算法選型:FastText
\\FastText是Facebook開發的一款快速文本分類器,提供簡單而高效的文本分類和表征學習的方法。FastText 方法包含三部分:模型架構、層次 Softmax 和 N-gram 特征。
\\4.4.1 FastText模型架構
\\\\圖6. FastText模型架構
\\FastText 模型輸入一個詞的序列(一段文本或者一句話),輸出這個詞序列屬于不同類別的概率。
\\序列中的詞和詞組組成特征向量,特征向量通過線性變換映射到中間層,中間層再映射到標簽。
\\FastText 在預測標簽時使用了非線性激活函數,但在中間層不使用非線性激活函數。
\\FastText 模型架構和 Word2Vec 中的 CBOW 模型很類似。不同之處在于,fastText 預測標簽,而 CBOW 模型預測中間詞,見下圖所示:
\\\\圖7. FastText模型結構
\\4.4.2 FastText層次Softmax
\\\\圖8. FastText 層次softmax
\\對于有大量類別的數據集,fastText使用了一個分層分類器(而非扁平式架構)。不同的類別被整合進樹形結構中(想象下二叉樹而非 list)。在某些文本分類任務中類別很多,計算線性分類器的復雜度高。為了改善運行時間,FastText 模型使用了層次 Softmax 技巧。層次 Softmax 技巧建立在哈弗曼編碼的基礎上,對標簽進行編碼,能夠極大地縮小模型預測目標的數量。
\\考慮到線性以及多種類別的對數模型,這大大減少了訓練復雜性和測試文本分類器的時間。FastText 也利用了類別(class)不均衡這個事實(一些類別出現次數比其他的更多),通過使用 Huffman 算法建立用于表征類別的樹形結構。因此,頻繁出現類別的樹形結構的深度要比不頻繁出現類別的樹形結構的深度要小,這也使得進一步的計算效率更高。
\\4.4.3 FastText N-gram特征
\\常用的特征是詞袋模型。但詞袋模型不能考慮詞之間的順序,因此 FastText 還加入了 N-gram 特征。 “我愛 她” 這句話中的詞袋模型特征是 “我”,“愛”, “她”。這些特征和句子 “她 愛 我” 的特征是一樣的。如果加入 2-Ngram,第一句話的特征還有 “我-愛” 和 “愛-她”,這兩句話 “我 愛她” 和 “她 愛 我” 就能區別開來了。當然,為了提高效率,我們需要過濾掉低頻的 N-gram。
\\在 fastText 中一個低維度向量與每個單詞都相關。隱藏表征在不同類別所有分類器中進行共享,使得文本信息在不同類別中能夠共同使用。這類表征被稱為詞袋(bag of words)(此處忽視詞序)。在 fastText中也使用向量表征單詞 n-gram來將局部詞序考慮在內,這對很多文本分類問題來說十分重要。
\\舉例來說:fastText能夠學會“男孩”、“女孩”、“男人”、“女人”指代的是特定的性別,并且能夠將這些數值存在相關文檔中。然后,當某個程序在提出一個用戶請求(假設是“我女友現在在兒?”),它能夠馬上在fastText生成的文檔中進行查找并且理解用戶想要問的是有關女性的問題。
\\4.4.5 FastText詞向量優勢
\\1. 適合大型數據+高效的訓練速度:能夠訓練模型“在使用標準多核CPU的情況下10分鐘內處理超過10億個詞匯”,特別是與深度模型對比,fastText能將訓練時間由數天縮短到幾秒鐘。使用一個標準多核 CPU,得到了在10分鐘內訓練完超過10億詞匯量模型的結果。此外,FastText還能在五分鐘內將50萬個句子分成超過30萬個類別。
\\2. 支持多語言表達:利用其語言形態結構,fastText能夠被設計用來支持包括英語、德語、西班牙語、法語以及捷克語等多種語言。它還使用了一種簡單高效的納入子字信息的方式,在用于像捷克語這樣詞態豐富的語言時,這種方式表現得非常好,這也證明了精心設計的字符 n-gram 特征是豐富詞匯表征的重要來源。FastText的性能要比時下流行的word2vec工具明顯好上不少,也比其他目前最先進的詞態詞匯表征要好。
\\\\圖9. FastText與其他方法對比
\\3. FastText專注于文本分類,在許多標準問題上實現當下最好的表現(例如文本傾向性分析或標簽預測)。FastText與基于深度學習方法對比:
\\4. 比word2vec更考慮了相似性,比如 fastText 的詞嵌入學習能夠考慮 english-born 和 british-born 之間有相同的后綴,但 word2vec 卻不能
\\4.5 數據閉環
\\\\圖10. 天御數據閉環
\\騰訊云天御在垃圾識別、異常識別和人工審核構建一個數據閉環:
\\五、總結\u0026amp;思考
\\5.1 系統指標
\\\\圖11. 系統指標
\\5.2 天御的表現
\\\\圖12. 天御的表現
\\5.3 思考
\\文本內容對甲方來說:
\\綜上,未來內容安全一條便宜省心的趨勢,選擇行業成熟的解決方案,可以實現業務健康發展的同時,確保內容安全。
\\5月23日-24日,2018騰訊云+未來峰會將在廣州舉行。24日上午舉行的安全分論壇,將齊聚來自騰訊集團多個安全團隊的頂尖專家( TK(于旸)、 Killer(董志強) 等)以及業內重磅合作伙伴;將首次揭曉騰訊在企業安全領域的云管端全景布局;更有抗量子、加密算法與安全相結合的前沿技術分享。報名移步騰訊云官網~
總結
以上是生活随笔為你收集整理的互联网文本内容安全:腾讯云天御AI对抗实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从汇编层解读Golang的闭包实现:逃逸
- 下一篇: asp.net core配置项示例代码