(二十六)【2021 WWW】Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs
題目: Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs
中文題目: 基于異構gnn的知識保持增量社會事件檢測
學習目標
學習怎么知識增強的?
學習怎么處理時間等多個因素的?
學習怎么構建子圖的?
學習怎么對新類型有魯棒性的?
ABSTRACT
Social events: 就是比較大型的新聞,引起了人們的關注! 檢測和分析這些事件有助于提取有價值的洞見。 在危機管理、產品推薦和決策等領域有很多應用。
難點:
在增量學習環境中獲取、保存和擴展知識是主要關注的問題。
過去的方法忽略了社交數據中豐富的語義信息! 而且不能保留住學習到的知識。
本文:
KPGNN利用了復雜的社會網絡來促進數據的利用。
為了應用傳入的數據,采用了contrastive loss terms處理數量不斷變化的事件類。
它還利用gnn的歸納學習能力來有效地檢測事件,并從之前未見過的數據擴展其知識。
KPGNN在處理大的社會流時,采用小批子圖抽樣策略進行訓練,并定期剔除過時數據以保持動態
的嵌入空間。
KPGNN不需要特征工程,也很少有超參數需要調優。
NOTATIONS AND PROBLEM FORMULATION
我們首先在表1中總結了本文中使用的主要符號。然后我們將社會流、社會事件、社會事件檢測和增量社會事件檢測形式化如下:
社會流:從社會流(即社交媒體消息序列)中提取相關消息的聚類來表示事件,如Twitter流。
Definition 2.1. social stream
一個社會流S=M0,...,Mi?1,Mi,...S = M_0,...,M_{i-1},M_i,...S=M0?,...,Mi?1?,Mi?,...是社會信息塊的連續和時間序列,其中MiM_iMi?是一個消息塊包含了在時間段內到達的所有消息[ti,ti+1)[t_i,t_{i+1})[ti?,ti+1?)。
我們表示一個消息塊MiM_iMi?為Mi={mj∣1≤j≤Mi}M_i = \left \{{m_j|1\le j\le M_i} \right \}Mi?={mj?∣1≤j≤Mi?},其中mmm是單個消息! mj={dj,uj,tj}m_j = \left \{ d_j,u_j,t_j \right \}mj?={dj?,uj?,tj?}表示為一種社會消息。 其中djd_jdj?和uju_juj?和tjt_jtj?表示為關聯的文本文檔、用戶(發送者和提到的用戶)和時間戳
Definition 2.2. social event
social event: e={mi∣1≤i≤∣e∣}e=\left \{ m_i|1 \le i \le \left | e \right | \right \}e={mi?∣1≤i≤∣e∣}是一組相關的社會信息,討論相同的現實世界發生的事情。注意,我們假設每個社交信息最多只屬于一個事件。
Definition 2.3.
給定一個消息塊MiM_iMi?,一個社會檢測算法學習一個模型f(Mi;θ)=Eif(M_i; \theta) = E_if(Mi?;θ)=Ei? 。這樣Ei={ek∣1≤k≤∣Ei∣}E_i = \left \{ e_k|1 \le k \le |E_i|\right \}Ei?={ek?∣1≤k≤∣Ei?∣}是包含在MiM_iMi?一組事件。
Definition 2.4.
給定社會流S,incremental social event detection算法學習一系列的事件檢測模型f0,...,ft?w,ft,...f_0,...,f_{t-w},f_t,...f0?,...,ft?w?,ft?,...,這樣ft(Mi;θt,θt?w)=Eif_t(M_i;\theta _t,\theta_{t-w})=E_ift?(Mi?;θt?,θt?w?)=Ei?會為所有的在{Mi∣t+1≤i≤t+w}\left \{ M_i|t+1 \le i \le t+w \right \}{Mi?∣t+1≤i≤t+w}中的消息塊。 這里,Ei={ek∣1≤k≤∣Ei∣}E_{i}=\left\{e_{k}|1 \leq k \leq| E_{i} \mid\right\}Ei?={ek?∣1≤k≤∣Ei?∣}是一系列的事件包含在消息塊MiM_iMi?,www是更新模型的window size,而θt\theta_tθt?和θt?w\theta_{t-w}θt?w?是兩個模型ftf_tft?和ft?wf_{t-w}ft?w?的參數。 注意ftf_tft?擴展了ft?wf_{t-w}ft?w?的知識,通過根據θt?w\theta_{t-w}θt?w?。 f0f_0f0?就是啥也沒有擴展。
3 METHODOLOGY
本節介紹我們提出的KPGNN模型。3.1節介紹了KPGNN的生命周期,給出了KPGNN如何增量運行的大圖景。第3.2-3.5節對KPGNN的組件進行了放大,KPGNN的設計目標是增量獲取和保存知識。第3.6節分析了KPGNN的時間復雜度。
3.1 Continuous Detection Framework
如圖2所示,KPGNN的生命周期包括三個階段,即預培訓、檢測和維護。
在訓練前階段,我們構建一個初始消息圖并訓練一個初始模型。
在檢測階段,我們用輸入消息塊更新消息圖,并檢測事件。目前的KPGNN模型在進入維護階段之前對一系列連續的區塊進行工作。
在維護階段,我們從消息圖中刪除過時的消息,并使用到達最后一個窗口的數據恢復模型訓練。維護階段允許模型忘記過時的知識,并為模型配備最新的知識。維護的模型可以在下一個窗口中用于檢測。通過這種方式,KPGNN不斷適應傳入的數據,以檢測新的事件并更新模型的知識。
3.2 Heterogeneous Social Message Modeling
在預處理過程中,我們的目標是:1)充分利用社交數據,從消息中提取不同類型的信息元素,2)對提取的元素進行統一組織,便于進一步處理。為此,我們利用了異構信息網絡(HINs) 。HIN是一個包含不止一種類型的節點和邊的圖。圖1 (a)是HIN的一個例子。
構建異構圖:給定一個消息mim_imi?,我們從它的文檔提取一組命名實體和文字(過濾掉非常常見和非常罕見的單詞),提取的元素,以及一組和mim_imi?關聯的用戶和mim_imi?本身作為節點添加到HIN。我們在mim_imi?和它的邊元素之間添加邊。 例如,圖1 (a),從m1m_1m1?,我們可以提取tweet node m1m_1m1?,單詞節點包含了fire和tears。 其中用戶節點包含了user1和user2。 我們添加了m1m_1m1?和其它節點之間邊。我們對所有消息重復相同的過程,合并重復節點。最終,我們得到了一個包含所有信息及其不同類型元素的異構社交圖譜。我們表示節點類型,即消息、單詞、命名實體和用戶分別表示為m,o,e和um,o,e和um,o,e和u。
異構節點類型: 現有的異構gnn[18,37,40,43,44]通常在其模型中保留異構節點類型,以學習所有節點的表示。
消息同構圖: 而KPGNN作為一個document-pivot模型,專注于學習消息之間的相關性,因此我們采用了不同的設計,將異構的社交圖映射為同質的消息圖,如圖1 ?所示。同構消息圖只包含消息節點,共享一些公共元素的消息之間有邊。通過映射,同質消息圖保留了異構社交圖編碼的消息相關性。具體來說,映射過程如下:
其中,A是同構信息圖的鄰接矩陣。N是圖中的消息總數。?i,j·_{i,j}?i,j?表示的是i行j列,k表示的是節點類型。 WmkW_{mk}Wmk?是異質社會圖鄰接矩陣的子矩陣,包含了類型m的行和類型k的列。如果消息mim_imi?和mjm_jmj?鏈接到一些常見類型k節點,[Wmk?Wmk?]i,j\left[\boldsymbol{W}_{m k} \cdot \boldsymbol{W}_{m k}^{\top}\right]_{i, j}[Wmk??Wmk??]i,j?將大于或等于1,并且Ai,jA_{i,j}Ai,j?將會等于1.
為了利用數據中的語義和時間信息,我們構造了消息的特征向量,如圖1(b)所示。具體而言,文檔特征計算為文檔中所有單詞預訓練單詞嵌入的平均值。通過對時間戳進行編碼來計算時間特征:我們將每個時間戳轉換為OLE date,OLE date的分數和整數分量構成一個二維向量。然后,我們執行這兩個函數的消息連接。得到的初始特征向量,表示為X={xmi∈Rd∣1≤i≤N}},\left.\boldsymbol{X}=\left\{x_{m_{i}} \in \mathbb{R}^ze8trgl8bvbq \mid 1 \leq i \leq N\right\}\right\},X={xmi??∈Rd∣1≤i≤N}},其中xmix_{m_i}xmi??是mim_imi?的初始特征向量,d是維度,是與相應的消息節點關聯。我們將齊次消息圖表示為G=(X,A)\mathcal{G}=(X,A)G=(X,A)
注意G\mathcal{G}G是靜態的,當新消息塊到達進行檢測時(如圖2第二階段所示),我們通過插入新消息節點、它們與現有消息節點的鏈接和他們內部的鏈接到G\mathcal{G}G來更新圖。 類似地,我們定期從中刪除過時的消息節點和與其相關聯的邊。在第4節中,我們對不同的更新維護策略進行了實證比較。
3.3 Knowledge-Preserving Incremental Message Embedding
總結
以上是生活随笔為你收集整理的(二十六)【2021 WWW】Knowledge-Preserving Incremental Social Event Detection via Heterogeneous GNNs的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 厦门大学计算机考研怎么样6,【图片】一战
- 下一篇: winform响应时间最长是多少分钟_当