知识图谱入门知识(三)词性标注
生活随笔
收集整理的這篇文章主要介紹了
知识图谱入门知识(三)词性标注
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
學習內容
基本大多數的問題都可以轉為詞性標注問題!
這里只做記錄,都是別人的回答!
常用的概念
tokenization就是通常所說的分詞,分出的每一個詞語我們把它稱為token。
鏈接
詞性標注參考一
自然語言處理之序列標注問題
傳統解決序列標注問題的方法包括HMM/MaxEnt/CRF等,很明顯RNN很快會取代CRF的主流地位,成為解決序列標注問題的標準解決方案,那么如果使用RNN來解決各種NLP基礎及應用問題,我們又該如何處理呢,下面我們就歸納一下使用RNN解決序列標注問題的一般優化思路。
對于分詞、詞性標注(POS)、命名實體識別(NER)這種前后依賴不會太遠的問題,可以用RNN或者BiRNN處理就可以了。而對于具有長依賴的問題,可以使用LSTM、RLSTM、GRU等來處理。關于GRU和LSTM兩者的性能差不多,不過對于樣本數量較少時,有限考慮使用GRU(模型結構較LSTM更簡單)。此外神經網絡在訓練的過程中容易過擬合,可以在訓練過程中加入Dropout或者L1/L2正則來避免過擬合。
詞性標注參考二
序列標注模型綜述
CRF隨機場
CRF
也是類似邏輯回歸的分類!
事實上,條件隨機場是邏輯回歸的序列化版本。邏輯回歸是用于分類的對數線性模型,條件隨機場是用于序列化標注的對數線性模型。
總結
以上是生活随笔為你收集整理的知识图谱入门知识(三)词性标注的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux视频在windows播放器,适
- 下一篇: mysql 装载dump文件_mysql