百度NLP工具LAC初体验:分词,词性标注,命名实体识别
生活随笔
收集整理的這篇文章主要介紹了
百度NLP工具LAC初体验:分词,词性标注,命名实体识别
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
LAC全稱Lexical Analysis of Chinese,是百度自然語言處理部研發的一款聯合的詞法分析工具,實現中文分詞、詞性標注、專名識別等功能。
輸入:
from LAC import LAC# 裝載LAC模型 lac = LAC(mode='lac')# 單個樣本輸入,輸入為Unicode編碼的字符串 text = u"LAC是個優秀的分詞工具" lac_result = lac.run(text) print(lac_result)# 批量樣本輸入, 輸入為多個句子組成的list,平均速率更快 texts = [u"LAC是個優秀的分詞工具", u"百度是一家高科技公司"] lac_result = lac.run(texts) print(lac_result)輸出:
[['LAC', '是', '個', '優秀', '的', '分詞', '工具'], ['nz', 'v', 'q', 'a', 'u', 'n', 'n']] [[['LAC', '是', '個', '優秀', '的', '分詞', '工具'], ['nz', 'v', 'q', 'a', 'u', 'n', 'n']], [['百度', '是', '一家', '高科技', '公司'], ['ORG', 'v', 'm', 'n', 'n']]]詞性和專名類別標簽集合如下表,其中我們將最常用的4個專名類別標記為大寫的形式:
| n | 普通名詞 | f | 方位名詞 | s | 處所名詞 | nw | 作品名 |
| nz | 其他專名 | v | 普通動詞 | vd | 動副詞 | vn | 名動詞 |
| a | 形容詞 | ad | 副形詞 | an | 名形詞 | d | 副詞 |
| m | 數量詞 | q | 量詞 | r | 代詞 | p | 介詞 |
| c | 連詞 | u | 助詞 | xc | 其他虛詞 | w | 標點符號 |
| PER | 人名 | LOC | 地名 | ORG | 機構名 | TIME | 時間 |
?
注意事項:
每個句子的輸出其切詞結果word_list,以及對每個單詞的標注tags_list,其格式為(word_list, tags_list)
總結
以上是生活随笔為你收集整理的百度NLP工具LAC初体验:分词,词性标注,命名实体识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 定时器输出PWM原理
- 下一篇: 【分块】【Violet】蒲公英