20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关
文章目錄
- abstract
- 1.introduction
- 2.相關工作
- 2.1. Named entity recognition
- 2.2. Relation classi?cation
- 2.3 聯合模型
- 2.4. LSTM and CNN models On NLP
- 3.模型
- 3.1. Bidirectional LSTM encoding layer
- 3.2. Named entity recognition (NER) module:LSTM decoder
- 3.3. Relation classi?cation (RC) module
- 3.4. Training and implementation
- 4. Experiment
- 4.1. Experimental setting
- 4.2. Results
- 5. Analysis and discussions
- 5.1. Analysis of named entity recognition module
- 5.2. Analysis of relation classi?cation module
- 5.3. The effect of two entities’ distance
- 5.4. Error analysis
- 6. Conclusion
- 參考文獻
Zheng, S., et al. (2017). “Joint entity and relation extraction based on a hybrid neural network.” Neurocomputing 257(000): 1-8.
abstract
實體和關系提取是一個結合檢測實體提及和從非結構化文本識別實體的語義關系的任務。我們提出了一種混合神經網絡模型來提取實體及其關系,而不需要任何手工制作的特征。混合神經網絡包含用于實體提取的新型雙向編碼器 - 解碼器L STM模塊(BiL STM-ED)和用于關系分類的CNN模塊。在BiLSTM-ED中獲得的實體的上下文信息關鍵詞:進一步通過CNN模塊以改進關系分類。我們在公共數據集ACE05(自動內容提取程序)上進行實驗神經網絡,以驗證我們的信息提取方法的有效性。我們提出的方法實現了實體和關系提取標記分類任務的最新結果。
- 任務:實體關系聯合抽取
- 模型:
- 實體抽取:BiLSTM編碼器-解碼器
- 獲取實體的上下文信息
- 關系分類:CNN
- 實體抽取:BiLSTM編碼器-解碼器
- 數據集:ACE05
1.introduction
實體和關系提取是檢測實體提及并從文本中識別它們的語義關系。它是知識提取中的一個重要問題,在知識庫的自動構建中起著至關重要的作用。傳統系統將此任務視為兩個獨立任務的管道,即命名實體識別(NER)[1]和關系分類(RC)[2]。這個分離的框架使任務易于處理,每個組件都可以更靈活。但它很少關注兩個子任務的相關性。聯合學習框架是一種有效的方法來關聯NER和RC,這也可以避免錯誤的級聯[3]。然而,大多數現有的聯合方法是基于特征的結構化系統[3-7]。它們需要復雜的特征工程,并且嚴重依賴于受監督的NLP工具包,這也可能導致錯誤傳播。為了減少特征提取中的手工工作,最近,Miwa和Bansal [8]提出了一種基于神經網絡的端到端實體和關系提取方法。然而,當檢測到實體時,它們使用NN結構來預測實體標簽,這忽略了標簽之間的長關系。基于上述分析,我們提出了一種混合神經網絡模型來解決這些問題,
- pipeline
- 命名實體識別
- 關系分類
- 分開處理,優點靈活,缺點沒有關注兩個子任務的相關性
- 聯合學習框架
- 優點:避免錯誤的級聯
- 以前:基于特征,依賴于受監督的nlp工具包,這也有錯誤傳播
- 神經網絡方法:
- Miwa和Bansal端到端的方法
- LSTM(encode)+softmax(NN-decode):實體提取
- dependency Tree LSTM:關系抽取
- NN的解碼忽略了標簽之間的長關系
- Miwa和Bansal端到端的方法
- LSTM-ED+CNN
- 優點:
- 聯合模型:無錯誤傳遞
- 混合神經網絡:不用nlp工具(依賴樹)
- LSTM-decoder:可以獲取標簽之間的長關系依賴
- 結構
- 共享編碼層:BiLSTM,獲取實體的上下文信息
- 實體抽取:LSTM解碼器
- decoder:也用Lstm,可以獲得標簽之間的長關系
- 關系分類:CNN
- 優點:
2.相關工作
- 信息抽取
- pipeline
- 命名實體識別
- 關系分類
- 分開處理,優點靈活,缺點沒有關注兩個子任務的相關性
- 聯合學習框架
- 優點:避免錯誤的級聯
- 以前:基于特征,依賴于受監督的nlp工具包,這也有錯誤傳播
- 神經網絡方法:
- Miwa和Bansal端到端的方法
- LSTM(encode)+softmax(NN-decode):實體提取
- dependency Tree LSTM:關系抽取
- NN的解碼忽略了標簽之間的長關系
- Miwa和Bansal端到端的方法
- pipeline
2.1. Named entity recognition
- 特征
- CRF[14,20] .
- HMM
- 神經網絡
- 序列標注
- CNN
- Collobert et al[21]:CNN+CRF
- RNN
- Chiu and Nichols [15]:character level+word level混合特征
- decode:線性層+softmax
- BiLSTM+CRF[16,17,22]
- decode:CRF
- Miwa and Bansal [8] :
- encode:BiLSTM
- decode:NN+softmax
- Chiu and Nichols [15]:character level+word level混合特征
- CNN
- 序列標注
- decode不同
2.2. Relation classi?cation
- 特征
- Kambhatla [23] employs Maximum Entropy model
- 結合從文本中衍生出的各種詞匯,句法和語義特征
- Rink [2]設計了16種使用許多有監督的NLP工具包和資源提取的功能,包括POS,Word-Net,依賴解析等。
- 手工設計的特征不全面
- 依賴于nlp工具
- 手工特征設計需要大量工作
- Kambhatla [23] employs Maximum Entropy model
- 神經網絡
- CNN
- RNN
- RecNN
- LSTM
- 其他
- 基于核的方法
- Nguyen et al. [28] :探索基于句法和語義結構的創新內核的使用
- Sun and Han [34]:提出了一種新的樹內核,稱為特征豐富的樹內核(FTK),用于關系提取。
- 組合方法
- FCM [25]:學習了一個句子的子結構的表示。與現有的組合模型相比,FCM可以輕松處理任意類型的輸入和組合的全局信息。
- 基于核的方法
2.3 聯合模型
- pipeline
- 學習了一個句子的子結構的表示。與現有的組合模型相比,FCM可以輕松處理任意類型的輸入和組合的全局信息。
- 聯合模型
- 特征
- 基于特征的結構化系統[3,4,35-37],需要復雜的特征工程。 [35,36]提出了一個聯合模型,該模型使用子任務的最佳結果并尋求全局最優解。
- Singh et al. [37]:單一圖模型,它表示了子任務之間的各種依賴關系
- Li and Ji [3]:逐步預測,結構感知器,具有高效的beam搜索
- Miwa and Sasaki [4]:引入了一個表格來表示句子中的實體和關系結構,并提出了一種基于歷史的波束搜索結構化學習模型。
- 神經網絡:
- Miwa和Bansal [8]:LSTM+Tree-LSTM使用基于LSTM的模型來提取實體和關系,這可以減少手工工作。
- 特征
2.4. LSTM and CNN models On NLP
- CNN
- 視覺:圖像特征
- 用于nlp:能夠提取句子語義和關鍵詞信息
- LSTM
- 有長期記憶
本文使用的方法基于神經網絡模型:卷積神經網絡(CNN)和長短期記憶(LSTM)。CNN最初是為計算機視覺而發明的[38],它總是被用來提取圖像的特征[39,40]。近年來,CNN已成功應用于不同的NLP任務,并且還顯示了提取感知語義和關鍵詞信息的有效性[27,41-43]。長短期記憶(LSTM)模型是一種特定的復發性神經網絡(RNN)。LSTM用帶有門的內存塊替換了一個重復神經網絡的隱藏向量。它可以通過訓練適當的門控權重來保持長期記憶[44,45]。LSTM還在許多NLP任務上展示了強大的能力,如機器翻譯[46],句子表示[47]和關系提取[26]。在本文中,我們提出了一種基于聯合學習實體及其關系的混合神經網絡。與手工制作的基于特征的方法相比,它可以從給定的句子中學習相關的特征而無需復雜的特征工程工作。當與其他基于神經網絡的方法[8]進行比較時,我們的方法考慮了實體標簽之間的長距離關系。
3.模型
混合神經網絡的框架如圖1所示。混合神經網絡的第一層是雙向LSTM編碼層,由命名實體識別(NER)模塊和關系分類(RC)模塊共享。在編碼層之后有兩個“通道”,一個鏈接到NER模塊,它是LSTM解碼層,另一個鏈接到CNN層以提取關系。在以下部分中,我們將詳細描述這些組件。
- LSTM-ED+CNN
- 優點:
- 聯合模型:無錯誤傳遞
- 混合神經網絡:不用nlp工具(依賴樹)
- LSTM-decoder:可以獲取標簽之間的長關系依賴
- 結構
- 共享編碼層:BiLSTM,獲取實體的上下文信息
- 實體抽取:LSTM解碼器
- decoder:也用Lstm,可以獲得標簽之間的長關系
- 關系分類:CNN
- 優點:
3.1. Bidirectional LSTM encoding layer
- BiLSTM encoder
- 字嵌入層
- 平行的層
- 前向lstm層h→\stackrel{\rightarrow}{h}h→?
- 考慮前文(1-t)和wt
- 后向lstm層h←\stackrel{\leftarrow}{h}h←?
- 前向lstm層h→\stackrel{\rightarrow}{h}h→?
- 連接層:h=[h→;h←]h=[\stackrel{\rightarrow}{h};\stackrel{\leftarrow}{h}]h=[h→?;h←?]
- LSTM的公式
- it=δ(Wxixt+Whiht?1+Wcict?1+bi)ft=δ(Wxfxt+Whfht?1+Wcfct?1+bf)zt=tanh(Wxcxt+Whcht?1+bc)ct=ftct?1+itztot=δ(Wxoxt+Whoht?1+Wcoct+bo)ht=ottanh(ct)i_t=\delta(W_{xi}x_t+W_{hi}h_{t-1}+W_{ci}c_{t-1}+b_i)\\ f_t=\delta(W_{xf}x_t+W_{hf}h_{t-1}+W_{cf}c_{t-1}+b_f)\\ z_t=tanh(W_{xc}x_t+W_{hc}h_{t-1}+b_c)\\ c_t=f_tc_{t-1}+i_tz_t\\ o_t=\delta(W_{xo}x_t+W_{ho}h_{t-1}+W_{co}c_t+b_o)\\ h_t=o_ttanh(c_t)it?=δ(Wxi?xt?+Whi?ht?1?+Wci?ct?1?+bi?)ft?=δ(Wxf?xt?+Whf?ht?1?+Wcf?ct?1?+bf?)zt?=tanh(Wxc?xt?+Whc?ht?1?+bc?)ct?=ft?ct?1?+it?zt?ot?=δ(Wxo?xt?+Who?ht?1?+Wco?ct?+bo?)ht?=ot?tanh(ct?)
3.2. Named entity recognition (NER) module:LSTM decoder
- NER:LSTM decoder
- 輸入:
- BiLSTM encoder:hth_tht?
- 先前預測的標簽:Tt?1T_{t-1}Tt?1?
- decoder的前隱藏狀態:st?1s_{t-1}st?1?
- LSTM
- LSTM的公式
- it=δ(Wxiht+Whist?1+WtiTt?1+bi)<???這個變了ft=δ(Wxfxt+Whfst?1+Wcfct?1+bf)zt=tanh(Wxcxt+Whcst?1+bc)ct=ftct?1+itztot=δ(Wxoxt+Whoht?1+Wcoct+bo)st=ottanh(ct)i_t=\delta(W_{xi}h_t+W_{hi}s_{t-1}+W_{ti}T_{t-1}+b_i)<---這個變了\\ f_t=\delta(W_{xf}x_t+W_{hf}s_{t-1}+W_{cf}c_{t-1}+b_f)\\ z_t=tanh(W_{xc}x_t+W_{hc}s_{t-1}+b_c)\\ c_t=f_tc_{t-1}+i_tz_t\\ o_t=\delta(W_{xo}x_t+W_{ho}h_{t-1}+W_{co}c_t+b_o)\\ s_t=o_ttanh(c_t)it?=δ(Wxi?ht?+Whi?st?1?+Wti?Tt?1?+bi?)<???這個變了ft?=δ(Wxf?xt?+Whf?st?1?+Wcf?ct?1?+bf?)zt?=tanh(Wxc?xt?+Whc?st?1?+bc?)ct?=ft?ct?1?+it?zt?ot?=δ(Wxo?xt?+Who?ht?1?+Wco?ct?+bo?)st?=ot?tanh(ct?)
- 轉換Tt=Wtsst+btsT_t=W_{ts}s_t+b_{ts}Tt?=Wts?st?+bts?
- softmax:
- yt=WyTt+byy_t=W_yT_t+b_yyt?=Wy?Tt?+by?
- pti=exp(yti)Σj=1ntexp(ytj)p_t^i=\frac{exp(y_t^i)}{\Sigma_{j=1}^{nt}exp(y_t^j)}pti?=Σj=1nt?exp(ytj?)exp(yti?)?
- LSTM的公式
- 因為T類似于tag embedding,而LSTM可以學習長期依賴–>類似于標簽交互
- 輸入:
3.3. Relation classi?cation (RC) module
- CNN
- 輸入:LSTM編碼出來的,實體的隱層表示h和實體之間的單詞的嵌入表示q
- CNN:R=CNN([he1,we1,we1+1...we2,he2])R=CNN([h_{e1},w_{e1},w_{e1+1}...w_{e2},h_{e2}])R=CNN([he1?,we1?,we1+1?...we2?,he2?])
- s=[he1,we1,we1+1...we2,he2]卷積:zl(i)=σ(Wc(i)×sl:l+k?1+br(i)),filters的尺寸(k,d),i??第i個filters結果:z(i)=[z1(i),...,zl?k+1(i)]max?pooling:zmax(i)=max{z(i)}=max{z1(i),...,zl?k+1(i)}s=[h_{e1},w_{e1},w_{e1+1}...w_{e2},h_{e2}]\\ 卷積:z_l^{(i)}=\sigma(W_c^{(i)}\times s_{l:l+k-1}+br^{(i)}),filters的尺寸(k,d),i--第i個filters\\ 結果:z^{(i)}=[z^{(i)}_1,...,z^{(i)}_{l-k+1}]\\ max-pooling:z_{max}^{(i)}=max\{z^{(i)}\}=max\{z^{(i)}_1,...,z^{(i)}_{l-k+1}\}s=[he1?,we1?,we1+1?...we2?,he2?]卷積:zl(i)?=σ(Wc(i)?×sl:l+k?1?+br(i)),filters的尺寸(k,d),i??第i個filters結果:z(i)=[z1(i)?,...,zl?k+1(i)?]max?pooling:zmax(i)?=max{z(i)}=max{z1(i)?,...,zl?k+1(i)?}–把句子長度所在的維度pool了,獲取最顯著特征
- 結合多個卷積核(softmax+dropout)
- Rs=[zmax(1),...,zmax(nr)]R_s=[z_{max}^{(1)},...,z_{max}^{(nr)}]Rs?=[zmax(1)?,...,zmax(nr)?]
- yr=WR?(Rs°r)+bR??°是元素級乘法y_r=W_R\cdot (R_s\circ r)+b_R--\circ是元素級乘法yr?=WR??(Rs?°r)+bR???°是元素級乘法
- pri=exp(yri)Σj=1ncexp(yrj)p_r^i=\frac{exp(y_r^i)}{\Sigma_{j=1}^{nc}exp(y_r^j)}pri?=Σj=1nc?exp(yrj?)exp(yri?)?
- !!: 實體內有多個單詞:隱層表示(h)相加以表示實體向量
3.4. Training and implementation
- 目標函數:最大化似然函數
- ner:Lner=maxΣj=1∣D∣Σt=1Ljlog(pt(j)=yt(j)∣xj,Θner)L_{ner}=max\Sigma_{j=1}^{|D|}\Sigma_{t=1}^{L_j}log(p_t^{(j)}=y_t^{(j)}|x_j,\Theta_{ner})Lner?=maxΣj=1∣D∣?Σt=1Lj??log(pt(j)?=yt(j)?∣xj?,Θner?)
- RC:Lrc=maxΣj=1∣D∣log(pr(j)=yr(j)∣xj,Θrc)L_{rc}=max\Sigma_{j=1}^{|D|}log(p_r^{(j)}=y_r^{(j)}|x_j,\Theta_{rc})Lrc?=maxΣj=1∣D∣?log(pr(j)?=yr(j)?∣xj?,Θrc?)
- 先訓練ner,再訓練RC
- 如果兩個實體的距離>LmaxL_{max}Lmax?,則不可能存在關系如圖4
- 優化方法:Hinton在[52]中提出的RMSprop
我們首先訓練NER模塊識別實體并獲得實體的編碼信息,然后進一步訓練RC模塊根據編碼信息和實體組合對關系進行分類。特別地,我們發現如果兩個實體之間存在關系,則兩個實體的距離總是小于約20個字,如圖4所示。因此,在確定兩個實體之間的關系時,我們也充分利用了這個屬性,即如果兩個實體的距離大于L max,我們認為它們之間不存在關系。基于圖4的統計結果,ACE05數據集中的L max約為20。
4. Experiment
4.1. Experimental setting
- 數據集
- ACE05
- 考慮關系的方向
- ACE05
- baseline
- a classical pipeline model [3] :CRF+最大熵模型
- a joint feature-based model called Joint w/Global [3] ,
- 聯合w / Global [3]使用單個模型逐步提取實體提及及其關系。他們開發了許多新的有效的全局功能作為軟約束,以捕獲實體提及和關系之間的相互依賴性。
- an end-to-end NN-based model SPTree [8] .M. Miwa , M. Bansal ,2016
- 通過使用雙向順序和雙向樹狀結構LSTM-RNN來表示單詞序列和依存關系樹結構。
- 評估
- Precision §, Recall ? and F- Measure (F1)
- 正確:h,r,t均對
- 超參數
4.2. Results
- 本文模型有效:效果最好
- 神經網絡模型和聯合模型是可行的
- 聯合模型好于pipeline
- 神經網絡模型好于基于特征的模型
- 精度差不多,區別集中于recall,本文模型平衡了精度和recall
5. Analysis and discussions
5.1. Analysis of named entity recognition module
NER模塊包含雙向LSTM編碼層和LSTM解碼層。我們使用BiLSTM-ED來表示NER模塊的結構。為了進一步說明BiLSTM-ED對實體提取任務的有效性,我們將BiLSTM-ED與其不同的變異和其他有效的序列標記模型進行了比較。對比方法是:
- NER:BiLSTM-ED
- 對比
- Forward-LSTM:使用單向LSTM對從w 1到w n的輸入語句進行編碼,然后還應用LSTM結構對實體標簽進行解碼。
- Backward-LSTM :具有與Forward-LSTM類似的方式,不同之處在于從w n到w 1的編碼順序。
- BiLSTM-NN:使用雙向LSTM編碼輸入語句,并使用前饋神經網絡(NN)體系結構預測實體標簽。它忽略了標簽之間的關系。
- BiLSTM-NN-2 [8]Miwa:使用雙向LSTM編碼輸入句子,并通過考慮相鄰標簽信息而不是標簽之間的長距離關系使用新穎的前饋神經網絡(NN)。
- CRF [53]:是經典且有效的序列標記模型。在本節中,我們使用CRF作為強大的比較方法之一,并且CRF中使用的功能與所使用的[3]相同。
- 結論:
- 考慮其他標簽信息好于不考慮
- BiLSTM-NN-2>BiLSTM-NN
- 考慮長距離標簽信息比僅考慮相鄰標簽信息好
- BiLSTM-ED>BiLSTM-NN-2
- 考慮其他標簽信息好于不考慮
5.2. Analysis of relation classi?cation module
在關系分類模塊中,我們使用兩種信息:實體之間的子句和從雙向LSTM層獲得的實體的編碼信息。為了說明我們考慮過的這些信息的有效性,
- RC
- 信息有效性:
- 實體間子句
- 實體編碼信息(LSTM)
- 信息有效性:
- 實驗
- pipeline:我們首先使用NER模塊檢測句子中的實體,然后使用步驟1的正確實體識別結果來測試RC模塊。
- Full-CNN使用整個句子來識別實體的關系。
- sub-CNN僅使用兩個實體之間的子句。
- Sub-CNN-H:子句+實體編碼信息
- 結果
- Full-CNN<sub-CNN<sub-CNN-H
- Full-CNN<sub-CNN<sub-CNN-H
5.3. The effect of two entities’ distance
- sub-CNN來獲取下圖
從圖4中,我們知道當水平軸是兩個實體之間的距離時,數據分布顯示長尾屬性。因此,我們設置閾值L max來過濾數據。如果兩個實體的距離大于L max,我們認為這兩個實體沒有任何關系。為了分析閾值L max的影響,我們使用Sub-CNN來基于不同的L max值來預測實體關系。效果如圖5所示.L max越小,過濾的數據越多。因此,如果L max太小,它可能會過濾正確的數據并使F 1結果下降。如果L max太大,則無法過濾噪聲數據,這也可能損害最終結果。圖5顯示當L max在10和25之間時,它可以表現良好。該范圍也與圖4的統計結果相匹配。
- Lmax用以過濾數據
- 因為長尾性
- 結果與統計相符合
5.4. Error analysis
- 對角線:正確結果
- 其他:錯誤結果
- 結果顯示:
- 除了“P-S”.其他表現良好
- 原因:
- 測試集中“P-S”少,因此“P-S”無法反應真實分布.
- “person-social”.多是代詞,難以判別
- 原因:
- 大多數被預測為了Other(忽略了某些關系)
- 我們還可以看到預測關系的分布相對分散在“OTHER”的第一行,這意味著大多數特定關系類可以被預測為“OTHER”。
- 也就是說,我們無法識別某些關系,直接導致相對較低的召回率。
- 從“OTHER”的第一列,我們可以看到,如果兩個實體之間沒有關系,那么模型就可以被有效地區分開來。
- 具有相反方向的相同關系類型易于混淆
- 例如:P-W(e2e1)和P-W(e1e2),ART(e1e1)和ART(e2e1),O-A(e1e1)和O-A(e2e1)。
- 原因是相同的關系類型總是具有類似的描述,即使它們不在同一方向上。
- 除了“P-S”.其他表現良好
6. Conclusion
實體和關系抽取是知識提取中的一個重要問題,在知識庫的自動構建中起著至關重要的作用。在本文中,我們提出了一種混合神經網絡模型來提取實體及其語義關系,而不需要任何手工制作的特征。當與其他基于神經網絡的方法進行比較時,我們的方法考慮了實體標簽之間的長距離關系。為了說明我們的方法的有效性,我們在公共數據集ACE05(自動內容提取程序)上進行了實驗。公共數據集ACE05的實驗結果驗證了我們方法的有效性。在未來,我們將探索如何基于神經網絡更好地鏈接這兩個模塊,以便它可以更好地執行。此外,我們還需要解決忽視某些關系的問題,并試圖提升召回價值。
參考文獻
[1] D. Nadeau , S. Sekine , A survey of named entity recognition and classification, Lingvisticae Investigationes 30 (1) (2007) 3–26 .
[2] B. Rink , Utd: classifying semantic relations by combining lexical and semantic resources, in: Proceedings of the 5th International Workshop on Semantic Evaluation, 2010, pp. 256–259 .
[3] Q. Li , H. Ji , Incremental joint extraction of entity mentions and relations., in: Proceedings of the 52rd Annual Meeting of the Association for Computational Linguistics, 2014, pp. 402–412 .
[4] M. Miwa , Y. Sasaki , Modeling joint entity and relation extraction with table representation., in: Proceedings of Conference on Empirical Methods in Natural Language Processing, 2014, pp. 1858–1869 .
[5] Y.S. Chan , D. Roth , Exploiting syntactico-semantic structures for relation extraction, in: Proceedings of the 49rd Annual Meeting of the Association for Computational Linguistics, 2011, pp. 551–560 .
[6] X. Yu , W. Lam , Jointly identifying entities and extracting relations in encyclopedia text via a graphical model approach, in: Proceedings of the 21th COLING International Conference, 2010, pp. 1399–1407 .
[7] L. Li , J. Zhang , L. Jin , R. Guo , D. Huang , A distributed meta-learning system for chinese entity relation extraction, Neurocomputing 149 (2015) 1135–1142 .
[8] M. Miwa , M. Bansal , End-to-end relation extraction using lstms on sequences and tree structures, in: Proceedings of the 54rd Annual Meeting of the Association for Computational Linguistics, 2016 .
[9] C.N. dos Santos , B. Xiang , B. Zhou , Classifying relations by ranking with convolutional neural networks, in: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, vol. 1, 2015, pp. 626–634 .
[10] Y. Xu , L. Mou , G. Li , Y. Chen , H. Peng , Z. Jin , Classifying relations via long short term memory networks along shortest dependency paths, in: Proceedings of Conference on Empirical Methods in Natural Language Processing, 2015 .
[11] L. Zou , R. Huang , H. Wang , J.X. Yu , W. He , D. Zhao , Natural language question answering over RDF: a graph data driven approach, in: Proceedings of the 2014 ACM SIGMOD international conference on Management of data, ACM, 2014, pp. 313–324 .
[12] J. Sang , C. Xu , J. Liu , User-aware image tag refinement via ternary semantic analysis, IEEE Trans. Multimed. 14 (3) (2012) 883–895 .
[13] J. Sang , C. Xu , Right buddy makes the difference: An early exploration of social relation analysis in multimedia applications, in: Proceedings of the 20th ACM International Conference on Multimedia, ACM, 2012, pp. 19–28 .
[14] G. Luo , X. Huang , C.-Y. Lin , Z. Nie , Joint entity recognition and disambiguation, in: Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2015, pp. 879–888 .
[m5G; March 8, 2017;1:24 ] 7
[15] J.P. Chiu, E. Nichols, Named entity recognition with bidirectional lstm-cnns, arXiv: 1511.08308 (2015).
[16] Z. Huang, W. Xu, K. Yu, Bidirectional lstm-crf models for sequence tagging, arXiv: 1508.01991 (2015).
[17] G. Lample , M. Ballesteros , S. Subramanian , K. Kawakami , C. Dyer , Neural architectures for named entity recognition, in: Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2016 .
[18] K. Xu Y. Feng, S. Huang, D. Zhao, Semantic relation classification via convolutional neural networks with simple negative sampling, arXiv: 1506.07650 (2015).
[19] D. Zeng , K. Liu , G. Zhou , J. Zhao , Relation classification via convolutional deep neural network, in: Proceedings of the 25th COLING International Conference, 2014, pp. 2335–2344 .
[20] A. Passos , V. Kumar , A. McCallum , Lexicon infused phrase embeddings for named entity resolution, in: Proceedings of the International Conference on Computational Linguistics, 2014, pp. 78–86 .
[21] R. Collobert , J. Weston , L. Bottou , M. Karlen , K. Kavukcuoglu , P. Kuksa , Natural language processing (almost) from scratch, J. Mach. Learn. Res. 12 (2011) 2493–2537 .
[22] X. Ma, E. Hovy, End-to-end sequence labeling via bi-directional lstm-cnns-crf, arXiv: 1603.01354 (2016).
[23] N. Kambhatla , Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations, in: Proceedings of the 43th ACL International Conference, 2004, p. 22 .
[24] R. Socher , B. Huval , C.D. Manning , A.Y. Nq , Semantic compositionality through recursive matrix-vector spaces, in: Proceedings of the EMNLP International Conference, 2012, pp. 1201–1211 .
[25] M. Yu , M. Gormleyl , M. Dredze , Factor-based compositional embedding models, in: Proceedings of the NIPS Workshop on Learning Semantics, 2014 .
[26] X. Yan , L. Moul , G. Li , Y. Chen , H. Peng , Z. Jin , Classifying relations via long short term memory networks along shortest dependency paths, in: Proceedings of EMNLP International Conference, 2015 .
[27] C.N. dos Santos , B. Xiangl , B. Zhou , Classifying relations by ranking with convolutional neural networks, in: Proceedings of the 53th ACL International Conference, vol. 1, 2015, pp. 626–634 .
[28] T.-V.T. Nguyen , A. Moschittil , G. Riccardi , Convolution kernels on constituent, dependency and sequential structures for relation extraction, in: Proceedings of the EMNLP International Conference, 2009, pp. 1378–1387 .
[29] P. Qin , W. Xu , J. Guo , An empirical convolutional neural network approach for semantic relation classification, Neurocomputing 190 (2016) 1–9 .
[30] S. Zheng , J. Xu , P. Zhou , H. Bao , Z. Qi , B. Xu , A neural network framework for relation extraction: Learning entity semantic and relation pattern, Knowl. Based Syst. 114 (2016) 12–23 .
[31] D. Zhang D. Wang, Relation classification via recurrent neural network, arXiv: 1508.01006 (2015).
[32] J. Ebrahimi , D. Dou ,Chain based RNN for relation classification, in: Proceedings of the NAACL International Conference, 2015, pp. 1244–1249 .
[33] S. Zhang , D. Zheng , X. Hu , M. Yang , Bidirectional long short-term memory networks for relation classification, in: Proceedings of the Pacific Asia Conference on Language, Information and Computation, 2015, pp. 73–78 .
[34] L. Sun , X. Han , A feature-enriched tree kernel for relation extraction, in: Proceedings of the 52th ACL International Conference, 2014, pp. pages 61– 67 .
[35] D. Roth , W.-t. Yih , Global inference for entity and relation identification via a linear programming formulation, in: Introduction to Statistical Relational Learning, 2007, pp. 553–580 .
[36] B. Yang , C. Cardie , Joint inference for fine-grained opinion extraction., in: Proceedings of the 51rd Annual Meeting of the Association for Computational Linguistics, 2013, pp. 1640–1649 .
[37] S. Singh , S. Riedel , B. Martin , J. Zheng , A. McCallum ,Joint inference of entities, relations, and coreference, in: Proceedings of the 2013 Workshop on Automated Knowledge Base Construction, ACM, 2013, pp. 1–6 .
[38] Y. LeCun , L. Bottou , Y. Bengio , P. Haffner , Gradient-based learning applied to document recognition, Proc. IEEE 86 (11) (1998) 2278–2324 .
[39] J. Yu, X. Yang, F. Gao, D. Tao, Deep multimodal distance metric learning using click constraints for image ranking, IEEE Trans. Cybern. (2016), doi: 10.1109/ TCYB.2016.2591583 .
[40] J. Yu , B. Zhang , Z. Kuang , D. Lin , J. Fan , Image privacy protection by identifying sensitive objects via deep multi-task learning, in: Proceedings of the IEEE Transactions on Information Forensics and Security, 2016 .
[41] Y. Kim , Convolutional neural networks for sentence classification, in: Proceedings of the EMNLP International Conference, 2014 .
[42] N. Kalchbrenner , E. Grefenstette , P. Blunsom ,A convolutional neural network for modelling sentences, in: Proceedings of the 52th ACL International Conference, 2014 .
[43] P. Wang , B. Xu , J. Xu , G. Tian , C.-L. Liu , H. Hao , Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification, Neurocomputing 174 (2016) 806–814 .
[44] X. Zhu , P. Sobihani , H. Guo , Long short-term memory over recursive structures, in: Proceedings of the 32nd International Conference on Machine Learning (ICML-15), 2015, pp. 1604–1612 .
[45] A. Graves , Supervised Sequence Labelling, Springer, 2012 . [46] M.-T. Luong , I. Sutskever , Q.V. Le , O. Vinyals , W. Zaremba , Addressing the rare word problem in neural machine translation, in: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015, pp. 11–19 .
[47] R. Kiros , Y. Zhu , R.R. Salakhutdinov , R. Zemel , R. Urtasun , A. Torralba , S. Fidler , Skip-thought vectors, in: Proceedings of the Advances in Neural Information Processing Systems, 2015, pp. 3276–3284 .
[48] L. Ratinov , D. Roth , Design challenges and misconceptions in named entity recognition, in: Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Association for Computational Linguistics, 2009, pp. 147–155 .
[49] N. Kalchbrenner , E. Grefenstette , P. Blunsom ,A convolutional neural network for modelling sentences, in: Proceedings of Conference on Empirical Methods in Natural Language Processing, 2014 .
[50] K. Duan , S.S. Keerthi , W. Chu , S.K. Shevade , A.N. Poo , Multi-category classification by soft-max combination of binary classifiers, in: Multiple Classifier Systems, Springer, 2003, pp. 125–134 .
[51] G.E. Dahl , T.N. Sainath , G.E. Hinton , Improving deep neural networks for LVCSR using rectified linear units and dropout, in: Proceedings of the ICASSP, 2013, pp. 8609–8613 .
[52] T. Tieleman , G. Hinton , Lecture 6.5-rmsprop, COURSERA: Neural networks for machine learning (2012) .
[53] J. Lafferty , A. McCallum , F. Pereira , Conditional random fields: Probabilistic models for segmenting and labeling sequence data, in: Proceedings of the Eighteenth International Conference on Machine Learning, ICML, vol. 1, 2001, pp. 282–289 .
[54] S.J. Phillips , R.P. Anderson , R.E. Schapire , Maximum entropy modeling of species geographic distributions, Ecol. Modell. 190 (3) (2006) 231–259 .
總結
以上是生活随笔為你收集整理的20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 元学习研究综述
- 下一篇: 论文学习19-Structured pr