命名实体识别NER:LSTM-CRF模型
目錄
一、LSTM-CRF模型
1、LSTM
2、CRF
二、損失函數
?
一、LSTM-CRF模型
1、LSTM
LSTM(長短期記憶神經網絡)能夠學習長的依賴關系,將以前的信息連接到當前任務中。
LSTM存儲信息的能力由門結構控制:
1、丟棄信息
? ? ? LSTM的第一步是決定我們要從細胞狀態中丟棄什么信息,該決定由遺忘門實現,它查看ht-1(前一個輸出)和xt(當前輸入),并為單元格狀態Ct-1(上一個狀態)中的每個數字輸出0和1之間的數字。1代表完全保留,而0代表徹底刪除。
2、存儲信息
? ? ? ?下一步是決定我們要在細胞狀態中存儲什么信息。 這部分分為兩步。 首先,稱為“輸入門層”的Sigmoid層決定了我們將更新哪些值。 接下來一個tanh層創建候選向量Ct,該向量將會被加到細胞的狀態中。
? ? ? ?丟棄歷史無效信息,添加新的信息后,當前狀態信息為:
3、信息輸出
? ? ? ?最后,我們需要決定我們要輸出什么。 此輸出將基于我們的單元格狀態,但將是一個過濾版本。 首先,我們運行一個sigmoid層,它決定了我們要輸出的細胞狀態的哪些部分。 然后,我們將單元格狀態通過tanh(將值規范化到-1和1之間),并將其乘以Sigmoid門的輸出,至此我們只輸出了我們決定的那些部分
2、CRF
? ? ?LSTM 層的輸出是每個標簽的分數,我們可以選擇得分最高的標簽。
? ? 最終是無效的輸出“I-Organization I-Person O I-Organization I-Person”。CRF 層通過學習標簽的概率轉移矩陣,可以向最終的預測標簽添加一些約束。
如上表所示,我們可以發現轉移矩陣已經學習了一些有用的約束:
- 句子中第一個單詞的標簽應該以“B-”或“O”開頭,而不是“I-”開頭**(從“START”到“I- person 或 I- organization”的 transition 分數非常低)**
- “B-label1 I-label2 I-label3 I-…”,在這個模式中,label1、label2、label3…應該是相同的命名實體標簽。例如,“B-Person I-Person”是有效的,但是“B-Person I-Organization”是無效的。(例如,從“B-Organization”到“I-Person”的分數只有 0.0003,比其他分數低很多)
- “O I-label”無效。一個被命名實體的第一個標簽應該以“B-”而不是“I-”開頭,換句話說,有效的模式應該是“O B-label”(同樣,tO,I?Person?的分數非常小)
二、損失函數
? ? ? ? 損失函數由兩部分組成,P是LSTM得到的標簽預測得分,是一個n*k維的矩陣,其中n指字符個數,k指標簽個數,A是CRF得到的標簽轉移得分:
?所有可能的標簽路徑中正確路徑標簽分數值最高:
?
參考文獻:
Neural Architectures for Named Entity Recognition LSTM網絡:https://www.jianshu.com/p/4b4701beba92 CRF:https://www.6aiq.com/article/1585415235824總結
以上是生活随笔為你收集整理的命名实体识别NER:LSTM-CRF模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ae效果控件快速参考:3D 通道
- 下一篇: 小白版----使用vm安装win10