python英文语义角色标注_八款中文词性标注工具使用及在线测试
結束了中文分詞工具的安裝、使用及在線測試,開啟中文詞性標注在線測試之旅,一般來說,中文分詞工具大多數都附帶詞性標注功能的,這里測試了之前在AINLP公眾號上線的8款中文分詞模塊或者工具,發現它們都是支持中文詞性標注的,這里面唯一的區別,就是各自用的詞性標注集可能有不同:
以下逐一介紹這八個工具的中文詞性標注功能的使用方法,至于安裝,這里簡要介紹,或者可以參考之前這篇文章:Python中文分詞工具大合集:安裝、使用和測試,以下是在Ubuntu16.04 & Python3.x的環境下安裝及測試。
1) Jieba: https://github.com/fxsjy/jieba
安裝:
代碼對 Python 2/3 均兼容
全自動安裝:easy_install jieba 或者 pip install jieba / pip3 install jieba
半自動安裝:先下載 http://pypi.python.org/pypi/jieba/ ,解壓后運行 python setup.py install
手動安裝:將 jieba 目錄放置于當前目錄或者 site-packages 目錄
中文詞性標注示例:
2) SnowNLP: https://github.com/isnowfy/snownlp
特點:
中文分詞(Character-Based Generative Model)
詞性標注(TnT 3-gram 隱馬)
情感分析(現在訓練數據主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)
文本分類(Naive Bayes)
轉換成拼音(Trie樹實現的最大匹配)
繁體轉簡體(Trie樹實現的最大匹配)
提取文本關鍵詞(TextRank算法)
提取文本摘要(TextRank算法)
tf,idf
Tokenization(分割成句子)
文本相似(BM25)
支持python3(感謝erning)
安裝:
$ pip install snownlp
中文詞性標注示例:
3) PkuSeg: https://github.com/lancopku/pkuseg-python
pkuseg具有如下幾個特點:
多領域分詞。不同于以往的通用中文分詞工具,此工具包同時致力于為不同領域的數據提供個性化的預訓練模型。根據待分詞文本的領域特點,用戶可以自由地選擇不同的模型。我們目前支持了新聞領域,網絡領域,醫藥領域,旅游領域,以及混合領域的分詞預訓練模型。在使用中,如果用戶明確待分詞的領域,可加載對應的模型進行分詞。如果用戶無法確定具體領域,推薦使用在混合領域上訓練的通用模型。各領域分詞樣例可參考 example.txt。
更高的分詞準確率。相比于其他的分詞工具包,當使用相同的訓練數據和測試數據,pkuseg可以取得更高的分詞準確率。
支持用戶自訓練模型。支持用戶使用全新的標注數據進行訓練。
支持詞性標注。
僅支持Python3, 測試詞性標注的時候會自動額外下載一個包:
中文詞性標注示例:
4) THULAC: https://github.com/thunlp/THULAC-Python
THULAC(THU Lexical Analyzer for Chinese)由清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。THULAC具有如下幾個特點:
能力強。利用我們集成的目前世界上規模最大的人工分詞和詞性標注中文語料庫(約含5800萬字)訓練而成,模型標注能力強大。
準確率高。該工具包在標準數據集Chinese Treebank(CTB5)上分詞的F1值可達97.3%,詞性標注的F1值可達到92.9%,與該數據集上最好方法效果相當。
速度較快。同時進行分詞和詞性標注速度為300KB/s,每秒可處理約15萬字。只進行分詞速度可達到1.3MB/s。
中文詞性標注示例:
5) pyhanlp: https://github.com/hankcs/pyhanlp
pyhanlp: Python interfaces for HanLP
自然語言處理工具包HanLP的Python接口, 支持自動下載與升級HanLP,兼容py2、py3。
安裝
pip install pyhanlp
注意pyhanlp安裝之后使用的時候還會自動下載相關的數據文件,zip壓縮文件600多M,速度有點慢,時間有點長
中文詞性標注示例:
6)FoolNLTK:https://github.com/rockyzhengwu/FoolNLTK
特點
可能不是最快的開源中文分詞,但很可能是最準的開源中文分詞
基于BiLSTM模型訓練而成
包含分詞,詞性標注,實體識別, 都有比較高的準確率
用戶自定義詞典
可訓練自己的模型
批量處理
僅在linux Python3 環境測試通過
安裝,依賴TensorFlow, 會自動安裝:
pip install foolnltk
中文詞性標注示例:
7) LTP: https://github.com/HIT-SCIR/ltp
pyltp: https://github.com/HIT-SCIR/pyltp
pyltp 是 語言技術平臺(Language Technology Platform, LTP) 的 Python 封裝。
安裝 pyltp
注:由于新版本增加了新的第三方依賴如dynet等,不再支持 windows 下 python2 環境。
使用 pip 安裝
使用 pip 安裝前,請確保您已安裝了 pip
$ pip install pyltp
接下來,需要下載 LTP 模型文件。
下載地址 - `模型下載 http://ltp.ai/download.html`_
當前模型版本 - 3.4.0
注意在windows下 3.4.0 版本的 語義角色標注模塊 模型需要單獨下載,具體查看下載地址鏈接中的說明。
請確保下載的模型版本與當前版本的 pyltp 對應,否則會導致程序無法正確加載模型。
從源碼安裝
您也可以選擇從源代碼編譯安裝
$ git clone https://github.com/HIT-SCIR/pyltp
$ git submodule init
$ git submodule update
$ python setup.py install
安裝完畢后,也需要下載相應版本的 LTP 模型文件。
這里使用"pip install pyltp"安裝,安裝完畢后在LTP模型頁面下載模型數據:http://ltp.ai/download.html,我下載的是 ltp_data_v3.4.0.zip ,壓縮文件有600多M,解壓后1.2G,里面有不同NLP任務的模型。
中文詞性標注示例:
8) Stanford CoreNLP: https://stanfordnlp.github.io/CoreNLP/
stanfordcorenlp: https://github.com/Lynten/stanford-corenlp
這里用的是斯坦福大學CoreNLP的python封裝:stanfordcorenlp
stanfordcorenlp is a Python wrapper for Stanford CoreNLP. It provides a simple API for text processing tasks such as Tokenization, Part of Speech Tagging, Named Entity Reconigtion, Constituency Parsing, Dependency Parsing, and more.安裝很簡單,pip即可:
pip install stanfordcorenlp
但是要使用中文NLP模塊需要下載兩個包,在CoreNLP的下載頁面下載模型數據及jar文件,目前官方是3.9.1版本:
https://nlp.stanford.edu/software/corenlp-backup-download.html
第一個是:stanford-corenlp-full-2018-02-27.zip
第二個是:stanford-chinese-corenlp-2018-02-27-models.jar
前者解壓后把后者也要放進去,否則指定中文的時候會報錯。
中文詞性標注使用示例:
最后,感興趣的同學可以關注我們的公眾號 AINLP,輸入"中文詞性標注 測試內容"進行詞性標注測試:
參考:
五款中文分詞工具在線PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP
中文分詞工具在線PK新增:FoolNLTK、HITLTP、StanfordCoreNLP
Python中文分詞工具大合集:安裝、使用和測試
總結
以上是生活随笔為你收集整理的python英文语义角色标注_八款中文词性标注工具使用及在线测试的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源网店系统_amazon都做不行,就不
- 下一篇: 华为折叠屏通信实验室首次开放 Mate