论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)
文章目錄
- abstract
- 1. Introduction
- 2.相關工作
- 3.方法
- 3.1 Bi-LSTM (baseline)
- 3.2BiLSTM+CRF
- 3.3 BiLSTM_CRF with pairwise modeling
- 3.4 Approximate Skip-chain CRF
- 5.實驗
Jagannatha, A. and H. Yu “Structured prediction models for RNN based sequence labeling in clinical text.”
abstract
序列標記是一種廣泛應用于非結構化自然語言數據中命名實體識別和信息提取的方法。在臨床領域,序列標記的一個主要應用涉及從電子健康記錄敘述中提取醫療實體,如藥物、適應癥和副作用。序列標記,在這個領域,提出了自己的一套挑戰和目標。在這項工作中,我們使用遞歸神經網絡實驗了各種基于CRF的結構化學習模型。我們擴展了先前研究的LSTM-CRF模型,對成對電位進行了顯式建模。我們還提出了一個具有RNN勢的跳躍鏈CRF推理的近似版本。我們將這些方法用于結構化預測,以提高對各種醫療實體的準確短語檢測。
- LSTM_CRF
- 具有RNN勢的跳躍鏈CRF推理的近似版本
- 原文code
1. Introduction
醫院收集的患者數據分為兩類:結構化數據和非結構化自然語言文本。研究表明,出院總結、病程記錄等自然文本醫療數據是藥物不良事件、藥物處方、診斷信息等醫學相關信息的豐富來源。從這些天然文本文件中提取的信息可用于多種用途,從藥物療效分析到不良反應監測。
廣泛應用的信息提取序列標記方法是對非結構化自然語言數據進行命名實體識別和信息提取的一種常用方法。在臨床領域,序列標記的一個主要應用涉及從電子健康記錄敘述中提取醫療實體,如藥物、適應癥和副作用。序列標記,在這個領域,提出了自己的一套挑戰和目標。在這項工作中,我們使用遞歸神經網絡實驗了各種基于CRF的結構化學習模型。我們擴展了先前研究的LSTM-CRF模型,對成對電位進行了顯式建模。我們還提出了一個具有RNN勢的跳躍鏈CRF推理的近似版本。我們將這些方法用于結構化預測,以提高對各種醫療實體的準確短語檢測。
最近,遞歸(RNN)或卷積神經網絡(CNN)模型越來越多地用于各種NLP相關任務。然而,這些神經網絡本身并不把序列標記看作是一個結構化的預測問題。不同的神經網絡模型使用不同的方法來合成每個單詞的上下文向量。這個上下文向量包含當前單詞及其鄰近內容的信息。在CNN的例子中,相鄰詞由相同大小窗口的單詞組成,而在雙向rnn (Bi-RNN)中它們包含整個句子。
- RNN中:窗口是整個句子(上下文)
圖形模型和神經網絡各有優缺點。雖然圖形模型可以聯合預測整個標簽序列,但它們通常需要特殊的手工特性來提供良好的結果。另一方面,神經網絡(尤其是遞歸神經網絡)已被證明在從噪音文本數據中識別模式方面非常擅長,但是他們仍然獨立地預測每個單詞的標簽,而不是作為一個序列的一部分。
簡單來說,RNN受益于識別周圍輸入特征的模式,而CRF等結構化學習模型受益于鄰近標簽預測的知識。近期的命名實體識別研究(Huang et al., 2015)等將神經網絡與CRF的優點結合起來,將CRF的一元勢函數建模為神經網絡模型。他們將兩兩配對的電位模型化為一個矩陣[a],其中Ai、j分別對應從標簽i到標簽j的轉移概率.在神經網絡模型中加入CRF推理有助于通過強制成對約束來標記各種命名實體的精確邊界。
- RNN受益于識別周圍輸入特征的模式,
- 而CRF等結構化學習模型受益于鄰近標簽預測的知識。
- l兩者結合更好。(在神經網絡模型中加入CRF推理有助于通過強制成對約束來標記各種命名實體的精確邊界。)
這項工作的重點是在電子健康記錄的非結構化臨床記錄中標注醫療事件(藥物、指征和不良藥物事件)和事件相關屬性(藥物劑量、用藥途徑等)。稍后在第4部分中,我們將顯式定義我們所評估的醫療事件和屬性。為了簡單起見,對于本文的其余部分,我們使用廣義的術語“醫療實體”來指代我們感興趣的所有醫療相關信息
在醫療文件中檢測醫療實體,如由臨床醫生編寫的電子健康記錄筆記,與在NLP中類似的序列標記應用(如命名實體識別),呈現出一些不同的挑戰。這種差異部分是由于醫學領域的關鍵性質,部分是由于醫學文本和其中實體的性質。首先,在醫學領域,準確的醫學短語的提取是非常重要的。醫學實體的名稱通常遵循多項式命名法。如葡萄膜黑色素瘤或毛細胞白血病等疾病名稱需要準確識別,因為部分名稱(毛細胞或黑色素瘤)可能有顯著不同的含義。此外,重要的醫療實體可能是電子健康記錄中相對罕見的事件。例如,在我們的語料庫中,每600個單詞中就會出現一次藥品不良事件。之前引用的NN模型的CRFs推理確實改進了短語的精確標注。然而,對CRFs的成對勢函數進行建模的更好方法可能導致在標記稀有實體和檢測精確短語bondaries方面的改進。
- 上面是對于醫學特性的要求(挑戰一)
- 下面是挑戰二(要長期標簽依賴建模)
- CRF(短期依賴)+RNN的長期依賴
該領域的另一個重要挑戰是需要對長期標簽依賴關系進行建模。例如,在“患者表現為A繼發于B”這句話中,A的標簽與B的標簽預測有很強的相關性。如果B是藥物或診斷,A既可以被標記為藥物不良反應,也可以被標記為癥狀。傳統的線性鏈CRF方法只執行局部成對約束,可能不適合對這些依賴關系進行建模。可以認為,RNNs可能通過相鄰單詞的輸入特性中的模式隱式地建模標簽依賴關系。
在這項工作中,我們探討了使用基于RNN的特征提取器進行結構化學習的各種方法。我們使用LSTM作為我們的RNN模型。具體來說,我們使用神經網絡來模擬CRF成對電位。我們還對一個近似版本的跳躍鏈CRF進行建模,以捕獲前面提到的長期標簽依賴關系。我們證明,與具有相同數量可訓練參數的標準LSTM或CRF-LSTM模型相比,這些改進的框架提高了性能。據我們所知,這是唯一一項專注于使用和分析基于RNN的結構化學習技術的工作
2.相關工作
正如前面所提到的,神經網絡和條件隨機域都被廣泛地用于NLP中的序列標記任務。特別地,CRFs (Lafferty et al., 2001)在一般情況下被用于各種序列標記任務,特別是命名實體識別方面有著悠久的歷史。早期的一些著名作品包括McCallum等人(2003),Sarawagi等人(2004)和Sha等人(2003)。Hammerton等人(2003)和Chiu等人(2015)使用長短時記憶(LSTM) (Hochreiter和Schmidhuber, 1997)進行命名實體識別。
最近在基于圖像和文本領域的一些工作中,使用了結構化推理來提高基于神經網絡的模型的性能。在NLP中,Collobert等(2011)使用了卷積傳統的神經網絡來模擬一元勢。Lample等人(2016)和Huang等人(2015)專門針對遞歸神經網絡,使用LSTMs對CRF的一元勢進行建模。
在生物測定的命名實體識別中,有幾種方法使用帶有實體(如蛋白質或基因名稱)注釋的生物語料庫。settle(2004)使用條件隨機字段提取蛋白質、DNA和類似的生物實體類。Li et. al.(2015)最近使用LSTM進行命名實體識別或生物創造語料庫中的蛋白/基因名稱。Gurulingappa等人(2010)對現有的各種生物醫學詞典進行了評估,以從Medline摘要語料庫中提取不良反應和疾病。
我們的工作使用一個真實世界的電子健康記錄的臨床語料庫注釋了各種醫療實體。其他使用真實世界醫學語料庫的作品包括Rochefort等人(2015),他們研究的是敘述性放射學報告。他們使用一種基于svm的分類器和一袋單詞的特征向量來預測深靜脈血栓和肺栓塞。Miotto et. al.(2016)使用去噪自編碼器構建電子健康記錄的無監督表示,可用于患者健康的預測建模
3.方法
我們使用Bi-RNNs作為單詞序列的特征提取器。我們評估了三種不同的結構化學習方法。基線是一個雙向遞歸神經網絡,如3.1節所述。
3.1 Bi-LSTM (baseline)
- embedding+BiLSTM+softmax
- loss:交叉熵
3.2BiLSTM+CRF
- BiLSTM如上
- BiLSTM的輸出經過tanh層得到矩陣A(LXL)
- 損失函數log-likelihood
3.3 BiLSTM_CRF with pairwise modeling
在前一節中,成對的電位是通過一個轉移概率矩陣來計算的[A],而與當前的上下文或單詞無關。由于第1節中提到的原因,這可能不是一個有效的策略。一些醫療實體相對少見。因此,從外部標簽到醫療標簽的轉換可能無法通過固定的參數矩陣有效地建模。在這種方法中,成對電位是通過一個依賴于當前詞匯和上下文的非線性神經網絡來建模的
- 這里用Ψnn(yt,yt+1)\Psi_{nn}(y_t,y_{t+1})Ψnn?(yt?,yt+1?)–
- LSTM->CNN(1-D,2size 的卷積)->tanh
- LSTM->CNN(1-D,2size 的卷積)->tanh
3.4 Approximate Skip-chain CRF
- 線性鏈CRF的變種
跳躍鏈模型是對線性鏈crf的修改,允許通過使用跳躍邊來實現長期的標簽依賴關系。這些基本上是標簽位置之間不相鄰的邊的相互關系。由于這些跳躍邊緣,跳躍鏈CRF模型(Sutton和McCallum, 2006)顯式地對標簽之間的依賴關系建模,這些標簽之間可能有不止一個位置的距離。在解碼最佳標簽序列時,將這些依賴項的聯合推理考慮在內。然而,跳躍鏈CRF中的循環圖使得精確推理變得難以處理。在這樣的模型中,推理的近似解需要多次重復的循環信念傳播(BP)。由于對于合并的RNN-CRF模型,每次梯度下降迭代都需要重新計算邊緣,因此這種方法在計算上非常昂貴。Lin et. al.(2015)提出了一種緩解這一問題的方法,該方法直接對用于圖像分割的二維網格CRF的消息傳遞推理中的消息進行建模。這繞過了對勢函數建模的需要,以及使用loopy BP計算圖上的近似消息的需要。
**近似CRF消息傳遞推理:**Lin等人(2015)利用輸入圖像特征的神經網絡,直接對變量消息的因子進行估計。他們的基本推理是,從因子F到標記變量yt(用于任何循環BP的迭代)的因子到變量的因子到變量的消息可以近似為所有輸入變量和作為該因子一部分的先前消息的函數。他們只對一個循環的BP進行建模,并通過經驗表明,這將顯著提高性能。這允許他們將消息建模為僅作為輸入變量的函數,因為消息傳遞的第一次迭代的消息僅使用勢函數計算。
在我們的跳躍鏈模型中,我們采用了類似的方法來計算可變邊值。然而,我們不是估計單個因素到變量的消息,而是利用我們的問題中的序列結構并估計因素到變量的消息組。對于任何標簽節點yt,第一組包含了與在句子中yt之前發生的節點相關的因子(從左至右)。第二組因素到變量的消息對應于涉及到句子后面出現的節點的因素。我們使用像LSTM這樣的遞歸計算單元分別從左和右輸入因子。來估計log因子到變量的和
我們現在假設使用跳躍邊將當前節點t連接到前面的m個節點和后面的m個節點。每條邊(跳躍或不跳躍)都由一個因子表示,該因子包含邊的二進制勢和連接節點的一元勢。如前所述,我們將與節點t相關的因素分為兩個集,FL(t)和FR(t)。其中FL(t)包含了{yt m,…, 1}和。因此,我們可以用FL(t)中的因子來表示組合后的信息
- FR(t)中包含從yt+1到yt+m變量的因子組合信息可以表示為:
與Lin et. al.(2015)類似,為了限制網絡復雜度,我們只使用一個消息傳遞迭代。在我們的設置中,這意味著從鄰近變量yi到當前變量yt的一個變元到因子的消息只包含yi的一元勢和yi、yt之間的二元勢。因此,我們可以看到
- Modeling the messages using RNN:
.
5.實驗
- embedding:skip-gram
- dropout=0.5
- batch norm(層間)
- adagrad with mmentum
- BIO
- ten-fold
- early-stoping
總結
以上是生活随笔為你收集整理的论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 20-Joint entity and
- 下一篇: Python:Tensorflow中两个