(二十四)【2021 ACL】OntoED: Low-resource Event Detection with Ontology Embedding
題目: OntoED: Low-resource Event Detection with Ontology Embedding
論文鏈接: https://arxiv.org/abs/2105.10922
論文代碼:https://github.com/231sm/Reasoning_In_EE
論文
什么原型? Prototypical networks for few-shot learning. 論文
可以替代Instance Encoder:
Meta-learning with dynamic-memory-based prototypical network for few-shot event detection.
Edge-enhanced graph convolution networks for event detection with syntactic relation
創新
事件類型的嵌入,而且被應用到看不見的類型
摘要
存在的問題:
Event Detection(ED)事件檢測的目的是從給定的文本中識別事件觸發詞,并將其分類為事件類型。
目前大多數ED方法嚴重依賴訓練實例,幾乎忽略了事件類型的相關性。因此,它們往往會遭受數據短缺的困擾,并且無法處理新的不可見的事件類型。
我們的方法:
我們將ED描述為一個事件本體的生成過程: 將事件實例與事件本體中預定義的事件類型連接起來,并提出了一個具有本體嵌入的新的ED框架OntoED。
我們利用事件類型之間的關聯來豐富事件本體,并進一步誘發更多的事件-事件關聯。
基于事件本體,OntoED可以利用和傳播相關知識,特別是從數據豐富的事件類型和數據貧乏的事件類型。
此外,通過建立鏈接的存在, OntoED可以被應用到新的看不見的事件類型。
ED是從非結構化數據中提取結構化信息。
比如:Jack is married to the Iraqi microbiologist known as Dr . Germ.
ED模型應該將事件類型標識為“Marry”,其中單詞“married”觸發了事件。
作為一個重要的任務,ED面臨著資源不足問題。一方面,在ED benchmark數據庫(e.g.,FewEvent and MAVEN)中面臨著數據分布不均問題。 比如上面的圖中,兩種事件類型Attack 和 Riot(4816&30)。 這樣的話,沒有充足的數據容易出現過擬合。
第二種便是新類型的加入,不能總是重新訓練模型。
過去的方法: 事件本體只考慮每個事件提及和事件類型的內部結構。
在本文中,我們用更多事件類型的內部結構來豐富事件本體,如時間、因果和層次 事件-事件關系。比如上圖中, Attack?CAUSESentenceAttack\overset{CAUSE}{\longrightarrow} SentenceAttack?CAUSE?Sentence、 Sentence?BEFOREAcquitSentence\overset{BEFORE}{\longrightarrow} AcquitSentence?BEFORE?Acquit、Attack?CoSUPERRiotAttack\overset{CoSUPER}{\longrightarrow} RiotAttack?CoSUPER?Riot。 我們的主要目的是充分利用事件本體,并利用從數據豐富的事件類型(例如,Attack)到數據貧乏的事件類型(例如,Sentence,AcquitandRiot)的相關知識。此外,新的事件類型(即be - born)可以通過現有事件類型(即損傷)的相關性(即COSUPER)來學習。
3 Methodology
3.1 Problem Formulation
我們將事件監測任務當成事件本體群的迭代更新過程。
給定事件本體O\mathcal{O}O,事件類型集合E=ei∣i∈[1,Ne]\mathcal{E} = {e_i|i\in[1, N_e]}E=ei?∣i∈[1,Ne?],語料庫T=Xi∣i∈[1,K]T={X_i|i\in[1,K]}T=Xi?∣i∈[1,K]包含了K個實例;
事件本體群的目標是在事件類型和實例之間建立適當的聯系。
具體而言,每個在TTT中的實例XiX_iXi?被標記為token sequence Xi={xij∣j∈[1,L]}X_{i}=\left\{x_{i}^{j} \mid j \in[1, L]\right\}Xi?={xij?∣j∈[1,L]},長度最大為LLL,其中事件觸發器xitx_i^txit?被標記了。
我們期望預測index t (1≤t≤L)(1 \le t \le L)(1≤t≤L)和每個實例的事件標簽eie_iei?
此外,我們利用了一個多方面的事件-事件關系集R=RH?RT?RC\mathcal{R}=\mathcal{R}_{H} \sqcup \mathcal{R}_{T} \sqcup \mathcal{R}_{C}R=RH??RT??RC?用于事件本體群體和學習。
RH={SUBSUPER,?SUPERSUB,?COSUPER?1}\mathcal{R}_H= \left\{\text { SUBSUPER, SUPERSUB, COSUPER }^{1}\right\}RH?={?SUBSUPER,?SUPERSUB,?COSUPER?1}表示在子事件關系提取任務中定義的一組關系標簽。(subsuper 子類和超類、supersub超類和子類、cosuper:表示兩者有相同的關系類型)
RT={BEFORE,?AFTER,?EQUAL2}\mathcal{R}_T= \left\{\text { BEFORE, AFTER, EQUAL}^{2}\right\}RT?={?BEFORE,?AFTER,?EQUAL2}表示一組時間關系 (equal表示兩個事件同時發生);
RC={CAUSE,CAUSEDBY}\mathcal{R}_C= \left\{\text { CAUSE,CAUSEDBY}\right\}RC?={?CAUSE,CAUSEDBY}表示一組因果關系。
3.2 Model Overview
在本文中,我們提出了一個通用框架OntoED3個模塊:(1)事件檢測(本體群體),(2)事件本體學習,(3)事件關聯推理。圖2顯示了這三個模塊的關鍵思想。
事件監測是為了每個實例識別觸發器和類型;
事件本地學習基于實例派生的事件類型之間的關系,獲得嵌入事件原型關聯的事件本體。
事件關聯推理尋求在已有事件-事件關系的基礎上推斷出新的事件關聯,從而獲得一個堅實的事件本體。
3.3 Event Detection (Ontology Population)
ED的輸入是事件類型E\mathcal{E}E和粗糙數據集TTT。
Instance Encoder. 給定token sequence Xi={xi1,...,xiL}X_i = \left \{x_i^1,...,x_i^L \right \}Xi?={xi1?,...,xiL?}和觸發詞xit,x_i^t,xit?,利用預訓練模型BERT得到觸發詞xitx_i^txit?的上下文表示Xit\mathbf {X}_i^tXit?,[CLS]標志位表示實例embedding。 這里的Encoder是可以被其它模型替代的!
Class Encoder. 事件類型表示為事件原型(prototypes),因為它被證明是低資源的ED的健壯性。
最初,由于事件類型和其它類型還沒有關系,所以原型是通過計算實例的平均值得到的。
Event Detector. 將序列中的每個token視為一個候選觸發詞,然后計算候選觸發詞的對應事件類型的概率,并利用交叉熵損失函數計算損失
Instance Relation Extractor. 對于每個實例對(Xi,Xj)\left ( X_i,X_j \right )(Xi?,Xj?) ,我們采用了一種綜合的方法來建模嵌入交互,表示為: Xijp=[Xi,Xj,Xi⊙Xj,Xi?Xj]\boldsymbol{X}_{i j}^{p}=\left[\boldsymbol{X}_{i}, \boldsymbol{X}_{j}, \boldsymbol{X}_{i} \odot \boldsymbol{X}_{j}, \boldsymbol{X}_{i}-\right.\boldsymbol{X}_{j}]Xijp?=[Xi?,Xj?,Xi?⊙Xj?,Xi??Xj?],其中[?,?][·, ·][?,?]表明了向量concat,而⊙\odot⊙表示的是元素級別的Hadamard product。
之后用softmax對(Xi,Xj)\left ( X_i,X_j \right )(Xi?,Xj?)的關系分類,交叉熵損失函數計算損失。
也就是三種類別!
整個的損失如下:
3.4 Event Ontology Learning
Ontology Completion:建模事件實例與類型之間關系和事件類型之間的關系
我們完成事件本體O\mathcal{O}O的創建,用事件的內部和外部結構, 我們規范地鏈接事件實例TTT和事件類型E\mathcal{E}E。
Instance-to-class Linking: 給定一個句子SiS_iSi?(形式化為標記序列XiX_iXi?),使用的是事件實例的一個觸發器xitx_i^txit?,我們將這些信息鏈接到相應的事件類型eie_iei?上,用規范化的三元組: (Si,triggerIs,xit)(S_i,triggerIs,x_i^t)(Si?,triggerIs,xit?)和(Si,instanceOf,ei)(S_i,instanceOf,e_i)(Si?,instanceOf,ei?)
Class-to-class Linking.: 給定一個有關系rrr的事件實例對(Xi,Xj)(X_i, X_j)(Xi?,Xj?),我們將實例相關性升級為相應的事件類型,標記為(ei,rej)(e_i,re_j)(ei?,rej?),除此之外,我們鏈接每個事件的子類和它相應父類,具有子超關系(SUPERSUB反向),我們將每個具有相同超類型的事件子類型對連接到一個COSUPER關系上。
Ontology Embedding:我們表示事件本體,考慮每個事件類型的實例和關聯。具體而言,給定一個三元組l=(eh,r,et)∈Ol=(e_h,r,e_t)\in \mathcal{O}l=(eh?,r,et?)∈O,我們用關系變換矩陣Mr∈Rd×dM_r∈R^{d×d}Mr?∈Rd×d傳播有著頭部事件類型ehe_heh?的原型PhP_hPh?到有著尾部事件類型ete_tet?的原型PtP_tPt?。我們選擇一個矩陣來嵌入rrr,它對低資源場景下的模型關系顯示出很大的魯棒性(Zhang et al.,2019)。然后通過聚合所有頭事件類型的傳播:
其中Ol\mathcal{O}_lOl?是在O\mathcal{O}O的所有的一階跳的ete_tet?的鄰居三元組。
在lll的ete_tet?的原型PtP_tPt?在傳播后是帶有權重λ\lambdaλ的PtP_tPt?和Pt?P_t^*Pt??的一個權重平均
我們計算的可能性是rrr是ehe_heh?和ete_tet?的關系的可能性,使用的是(eh,r,et)(e_h, r, e_t)(eh?,r,et?)的真值。
?(eh,r,et)=sim?(PhMr,Pt)=σ(Ph?MrPt)\phi\left(e_{h}, r, e_{t}\right)=\operatorname{sim}\left(\boldsymbol{P}_{h} \boldsymbol{M}_{r}, \boldsymbol{P}_{t}\right)=\sigma\left(\boldsymbol{P}_{h}^{\top} \boldsymbol{M}_{r} \boldsymbol{P}_{t}\right)?(eh?,r,et?)=sim(Ph?Mr?,Pt?)=σ(Ph??Mr?Pt?)
總的來說,事件本體學習的損失函數定義為:
其中yyy表明了(eh,et)(e_h,e_t)(eh?,et?)的真實標簽。
3.5 Event Correlation Inference
給出了具有事件類型間關聯的事件本體,在已有事件關聯的基礎上推斷出新的事件關聯。
具體地說,我們利用grouding ggg來推斷出新的事件相關三元組,可以概括為如下形式:
其中right side event triples(ehk,rk,etk)∈O(e_h^k,r^k,e_t^k)\in \mathcal{O}(ehk?,rk,etk?)∈O,而(ehI,rI,etI)?O(e_h^I,r^I,e_t^I)\notin \mathcal{O}(ehI?,rI,etI?)∈/?O
為了計算接地的真值ggg,我們選擇在OWL2 Web Ontology Language中定義的關系的三個對象屬性(OP): subOP,inverseOP, andtransitiveOP,然后從線性映射的假設中學習關系矩陣。 【Wang et al.(2020a);Ning et al.(2018)】已經定義了一些事件對之間關系的合取約束,我們將它們轉換為對象屬性公理,如表2所示。
假定Mr?and?Mr?M_{r}^{\dagger} \text { and } M_{r}^{\ddagger}Mr???and?Mr??表明了公式9中左右的關系集合。 他們是矩陣或者是一個矩陣或者兩個矩陣的乘積。
由于關系約束是由理想線性映射假設推導而來(表1第三列),Mr?and?Mr?M_{r}^{\dagger} \text { and } M_{r}^{\ddagger}Mr???and?Mr??通常是不相等的,但在訓練中是相似的。因此,ggg的歸一化真值Fp\mathcal{F}_pFp?可以通過關系約束((表1第四列))來計算:
新事件相關推理的損失函數定義為:
整體而言,OntoED的最終損失函數表示為:
4. Experiments
實驗的目的是:(1)通過本體嵌入的OntoED可以使標準和低資源的ED受益,(2)評估OntoED中不同模塊的有效性,并提供錯誤分析。
為此,我們對OntoED的有效性進行了三種評估:(1)整體評估,(2)Few-shot Evaluation,(3)Zero-shot Evaluation
4.1 Datasets:
提出一個數據集OntoEvent,該數據集中包含13個超類型和100個子類型,派生自4115個Docs和60,546個event instance。
下面的表中是比較了我們的數據集和其它現存的ED數據集!
Doc: document, Ins: instance, SuperT: supertype, SubT: subtype, E-E Rel: event-event relation.
4.2 Baselines
overall evaluation:
CNN-based model DMCNN
RNN-based model JRNN
GCN-based model JMEE
BERT-based model AD-DMBERT
graph-based models OneIE、PathLM
few-shot evaluationandzero-shot evaluation,
some metric-based models for few-shot ED:MatchNet、 ProtoNet and DMBPN
knowledge-enhanced model EKD
BERT-based models QAEE as well as RCEE
ZSEE (Huang et al.,2018) especially for zero-shot ED.
4.3 Experiment Settings
SGD optimizer is used, with 30,000 iterations of training and 2,000 iterations of testing.
The dimension of token embedding is 50
the maximum length of a token sequence is 128.
a dropout rate of 0.2 is used to avoid over-fitting,
4.4 Overall Evaluation
4.5 Few-shot Evaluation
4.6 Zero-shot Evaluation
5. Further Analysis
5.1 Ablation Study
5.2 Error Analysis
我們進一步進行了誤差分析,并給出了一些有代表性的例子。
(1)一個典型的錯誤與事件本體中類似的事件-事件結構有關。當OntoED考慮事件相關性時,具有相似鄰居三元組的事件類型可能無法區分。
比如: Robbery和Kidnap- ping有相同的子類Crime,它們都有相鄰的三元組 (?, CAUSE,Arrest)
(2)第二個錯誤與錯誤的實例關系有關。實例關系的提取直接影響事件關聯的建立,錯誤的實例關系會導致錯誤傳播。
(3)第三個錯誤涉及同一事件提到不同的事件類型。
‘Of the 126 people aboard, 47 died and 74 sustained serious injuries.both mentions Die and Injure.
6 Conclusion and Future Work
提出了一種基于本體嵌入的事件檢測框架OntoED 。我們通過將每個事件實例鏈接到目標事件本體中的特定類型來重新訪問ED任務。為了便于關聯,我們在事件本體中加入時間、因果、層次等事件-事件關系,并在已有事件關聯的基礎上引入更多的事件關聯。關鍵的觀點是,事件本體可以幫助減少模型對實例數據的依賴,特別是在低資源場景下。因為數據豐富的事件類型可以將相關知識傳播給數據貧乏的事件類型,而新的事件類型可以建立到事件本體的連接。我們在三種情況下證明了OntoED的有效性:總體,少數射擊和零射擊,實驗表明,OntoED優于以往的方法,具有很大的魯棒性。在未來,我們打算在幾個方面擴展我們的工作。首先,我們將改進事件本體,考慮更多的事件關聯。其次,我們將探索低資源的ED是否也能促進識別事件相關性。第三,我們將開發更多的神經符號學方法來治療ED。
總結
以上是生活随笔為你收集整理的(二十四)【2021 ACL】OntoED: Low-resource Event Detection with Ontology Embedding的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自定义_如何自定义协议
- 下一篇: PAT乙类之1012 数字分类 (20