论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)
生活随笔
收集整理的這篇文章主要介紹了
论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
文章目錄
- Introduction
- 2. 相關(guān)工作
- 3. 本文的model
- 3.1 Preliminaries
- 3.2建立問題
- 3.3閑魚圖上的異構(gòu)卷積網(wǎng)絡(luò)
- 3.3.1Aggregation Sub-layer
- 3.3.2 Time-related Sampling
- 3.3.4將圖形網(wǎng)絡(luò)與文本分類模型相結(jié)合。
- 3.4 GCN-based反垃圾郵件模式
- 4.實(shí)驗(yàn)
Introduction
ppt
- 任務(wù):垃圾郵件檢測
- 挑戰(zhàn)
- 大規(guī)模數(shù)據(jù)
- 1e9 items
- 1e7 users
- 敵對行為
- 偽裝
- 撥打此號碼進(jìn)行兼職工作
- 變形評論
- Add my vx
- Add my vx
xianyu==閑魚
- 閑魚的評論發(fā)生在購買之前(交流
- 反垃圾郵件系統(tǒng)的一大挑戰(zhàn):是識別垃圾郵件發(fā)送者設(shè)計(jì)的各種模式。
- 通過介紹評論的上下文可以減輕敵對行動(dòng)的影響。
- 上下文定義為兩類:局部上下文和全局上下文。
- 局部上下文是指來自發(fā)布者和相關(guān)項(xiàng)目的信息,而
- 全局上下文是指所有評論的特性分發(fā)所提供的信息。
- GAS:GCN-based Anti-Spam method在這項(xiàng)工作中,我們提出了一種基于圖卷積網(wǎng)絡(luò)(GCN)的高度可擴(kuò)展的反垃圾郵件方法,稱為基于GCN的反垃圾郵件方法
- 本文貢獻(xiàn):
- 提出了一種基于gcn的異構(gòu)圖垃圾郵件檢測算法,該算法適用于在閑魚上具有邊屬性的二部圖。一種基于元路徑[23]的異構(gòu)GCN算法,用于各種異構(gòu)圖和應(yīng)用。
- 除了利用局部評論上下文的異構(gòu)圖外,我們還利用全局上下文并提出了自己的解決方案–GAS
- 我們使用分布式部署所提出的反垃圾郵件模型Tensorflow框架每天處理成千上萬的評論。根據(jù)離線實(shí)驗(yàn)和在線評估,我們的系統(tǒng)在滿足效率要求的同時(shí),顯著地識別出更多的垃圾評論,減輕了對抗行為的影響
2. 相關(guān)工作
- 大多數(shù)現(xiàn)有的垃圾郵件檢測方法側(cè)重于從評論內(nèi)容或評論行為中提取健壯的工程特性。
- [7]研究了評論內(nèi)容的重復(fù)來檢測垃圾評論。他們收集了以評審為中心、以評審者為中心和以產(chǎn)品為中心的特性,并將它們輸入邏輯回歸模型。
- [17]僅僅關(guān)注于評論的內(nèi)容。作者使用三種策略作為樸素貝葉斯和支持向量機(jī)分類器。
- [13]總結(jié)了意見挖掘領(lǐng)域?qū)<业奶卣?#xff0c;并設(shè)計(jì)了一套詳細(xì)的特征對意見挖掘領(lǐng)域?qū)<疫M(jìn)行分類。
- 缺陷:這些以功能為中心的方法忽略了評論者、商品和評論之間的關(guān)系。然而,根據(jù)我們的觀察,關(guān)系在垃圾郵件檢測中也扮演著重要的角色。例如,垃圾郵件廣告通常由垃圾郵件發(fā)送者成組發(fā)布。
- —關(guān)系很重要
- 使用圖的
- 基于類似的觀察,一些學(xué)者開始利用圖信息。
- 第一個(gè)基于圖的垃圾郵件檢測方法以[26]。他們用三種類型的節(jié)點(diǎn)構(gòu)建了“審查圖”——審查者、存儲和審查。然后以一種類似于[10]的方式加強(qiáng)了審核的可信度、存儲的可靠性和審核的真實(shí)性。
- Liang等人使用了兩種圖:一種是上面提到的異質(zhì)圖,另一種是表示評論者之間的支持或沖突關(guān)系。
- Soliman[22]提出了一種新的基于圖的技術(shù),該技術(shù)在一個(gè)已構(gòu)建的用戶相似圖上使用圖聚類來檢測垃圾郵件,該相似圖在其拓?fù)浣Y(jié)構(gòu)中編碼用戶行為模式。
- GCN
- 近年來,開發(fā)基于圖的深度學(xué)習(xí)算法的興趣日益濃厚,包括無監(jiān)督方法[5,12,18]和監(jiān)督方法[6,9,11,25]。
- 其中最顯著的進(jìn)展之一是GCN[9],它將節(jié)點(diǎn)的特征從本地鄰居聚集起來。將“圖卷積”算子定義為一跳鄰居的特征集合。通過迭代卷積,信息在圖中傳播多個(gè)躍點(diǎn)。與之前的圖形挖掘方法(如DeepWalk[18])相比,GCN實(shí)現(xiàn)了顯著的改進(jìn)。
- William等人[6]提出了GraphSAGE,這是一個(gè)歸納框架,利用節(jié)點(diǎn)采樣和特征聚合技術(shù),有效地為不可見數(shù)據(jù)生成節(jié)點(diǎn)嵌入,這打破了在轉(zhuǎn)換設(shè)置中應(yīng)用GCN的限制。
- 圖注意網(wǎng)絡(luò)(GAT)[25]將注意機(jī)制整合到GCN中。通過計(jì)算節(jié)點(diǎn)之間的注意系數(shù),GAT允許每個(gè)節(jié)點(diǎn)將注意力集中在最相關(guān)的鄰居上,從而做出決策。
- –上面都是同構(gòu)圖
- 異構(gòu)圖
- EAGCN[20]使用注意機(jī)制計(jì)算異構(gòu)節(jié)點(diǎn)嵌入。該模型著重于圖中連接節(jié)點(diǎn)的多種類型的鏈接的情況。作者建議使用“多注意力”——每個(gè)注意力函數(shù)只考慮由特定鏈接類型定義的鄰居。
- GEM[14]關(guān)注的是存在多種類型節(jié)點(diǎn)的情況。作者提出了一種注意機(jī)制來學(xué)習(xí)不同類型節(jié)點(diǎn)的重要性。具體來說,他們將圖按節(jié)點(diǎn)類型劃分為子圖,并計(jì)算每個(gè)子圖對整個(gè)系統(tǒng)的貢獻(xiàn)作為注意系數(shù)。
- 本文第一次將GCN用于垃圾檢測
3. 本文的model
先介紹如何擴(kuò)展異構(gòu)圖的GCN算法,然后通過進(jìn)一步結(jié)合全局上下文來演示GAS
3.1 Preliminaries
- 以前都關(guān)注同構(gòu)圖
- 基于gcn的方法遵循分層傳播方式。在每個(gè)傳播層中,所有節(jié)點(diǎn)同時(shí)更新。 如[28,29]所述,傳播層可以分為兩個(gè)子層:聚集層和組合層。
- 第l層聚合和組合層表示為
其中N(v)是v相鄰的一組節(jié)點(diǎn),AGG是節(jié)點(diǎn)v相鄰節(jié)點(diǎn)的聚合嵌入函數(shù),該函數(shù)可由特定模型定制,如max-pooling、mean-pooling[6]或基于注意的加權(quán)求和[25]。wl是一個(gè)可訓(xùn)練的矩陣,在第l層的所有節(jié)點(diǎn)之間共享。σ是一個(gè)非線性激活函數(shù),例如,Relu。hlN (v)表示第l層節(jié)點(diǎn)v鄰居的聚集特征。
使用COMBINE函數(shù)來組合自嵌入和鄰居的聚合嵌入,這也是針對不同圖形模型的自定義設(shè)置,如GraphSAGE[6]中的拼接。
3.2建立問題
- 閑魚圖:
- 二部圖G(U, I, E),U-用戶,I-產(chǎn)品,E-評論(邊)
- 鄰居N(i) ∈ U and N(u) ∈ I
- U (e) and I (e) :設(shè)U (e)和I(e)分別表示e邊的用戶節(jié)點(diǎn)和項(xiàng)節(jié)點(diǎn)。
3.3閑魚圖上的異構(gòu)卷積網(wǎng)絡(luò)
- 在同構(gòu)圖上基于gcn的節(jié)點(diǎn)分類任務(wù)中,使用來自最后一層的節(jié)點(diǎn)嵌入作為分類器的輸入
- 我們利用來自最后傳播層的邊緣嵌入以及該邊緣鏈接到的兩個(gè)節(jié)點(diǎn)的嵌入。
- 我們將這三個(gè)嵌入連接起來進(jìn)行邊緣分類
- 閑魚圖上的異構(gòu)卷積網(wǎng)絡(luò)
- Aggregation Sub-layer
- Combination Sub-layer
- Time-related Sampling
3.3.1Aggregation Sub-layer
- E:使用TextCNN模型獲得評論嵌入(一起訓(xùn)練)
對于用戶節(jié)點(diǎn)u∈u和項(xiàng)目節(jié)點(diǎn)i∈i,除了收集鄰居節(jié)點(diǎn)的信息外,還收集與其相連的邊的屬性 - 聚合鄰居嵌入:
- 對于每個(gè)項(xiàng)目/用戶節(jié)點(diǎn),我們對固定數(shù)量的鄰居進(jìn)行抽樣,以形成一個(gè)小型的批處理饋送矩陣
3.3.2 Time-related Sampling
- 需要在一次迭代中更新所有實(shí)體的整批訓(xùn)練在大量數(shù)據(jù)上是不切實(shí)際的,因?yàn)檫@會(huì)消耗時(shí)間。考慮到閑魚圖的規(guī)模,小批量訓(xùn)練策略更合適。
- 根據(jù)時(shí)間選擇最接近的M個(gè)評論
- 選擇最接近的注釋比隨機(jī)抽樣更合理
- 當(dāng)候選對象的數(shù)量小于M時(shí),用占位符填充它們
- 填充比重采樣更合理(避免改變鄰域分布)
- 填充比重采樣更合理(避免改變鄰域分布)
3.3.4將圖形網(wǎng)絡(luò)與文本分類模型相結(jié)合。
- 使用TextCNN模型獲得評論嵌入
- TextCNN的參數(shù)與其他參數(shù)一起訓(xùn)練
3.4 GCN-based反垃圾郵件模式
-
全局上下文–評論圖
-
問題
- 對人類閱讀來說,垃圾郵件只有輕微影響,但往往混淆我們的NLP模型
- 性能很難從增加傳播層的數(shù)量中獲益
-
解決方案
- 評論圖:構(gòu)建一個(gè)齊次圖命名圖通過連接具有類似內(nèi)容的評論
- 齊次圖上的GCNs可以看作是拉普拉斯平滑的一種特殊形式。
- 節(jié)點(diǎn)的特征可以被它的鄰居平滑化
- 利用近似KNN圖算法[3]構(gòu)造基于K近鄰節(jié)點(diǎn)的圖。
- 構(gòu)造
- 刪除所有重復(fù)的注釋,以避免繁瑣的解決方案
- 生成評論嵌入
- 利用近似KNN圖算法得到相似的評論對
- 刪除由同一用戶發(fā)布的評論對或在同一項(xiàng)下發(fā)布的評論對,因?yàn)樵赬ianyu Graph上考慮了本地上下文。
- 評論圖:構(gòu)建一個(gè)齊次圖命名圖通過連接具有類似內(nèi)容的評論
-
各種垃圾郵件評論可以通過集成它們的鄰居的特性來平滑。
-
通過定量分析,證明了經(jīng)過平滑處理后的評論更具有可分性。兩個(gè)邏輯回歸模型在圖6中的原始嵌入和平滑嵌入上進(jìn)行了培訓(xùn)和測試。AUC和f1評分見表1。
結(jié)果表明,經(jīng)過平滑處理后,樣品的線性可分性得到改善。這種改進(jìn)表明,基于平滑嵌入的分類器性能更好。
4.實(shí)驗(yàn)
總結(jié)
以上是生活随笔為你收集整理的论文学习7-Spam Review Detection with Graph Convolutional Networks(阿里巴巴)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: JUnit-4.12报java.lang
- 下一篇: JavaWeb:tomcat服务器安装总