jieba模块基本介绍
生活随笔
收集整理的這篇文章主要介紹了
jieba模块基本介绍
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
一.jieba模塊基本介紹
1.1 jieba模塊的作用
jieba是優(yōu)秀的第三方中文詞庫
中文分詞(Chinese Word Segmentation) 指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程
1.2 jieba模塊的安裝
pip install jieba #cmd命令行
二.jieba庫的使用說明
2.1 jieba分詞的三種模式
精確模式:將句子最精確的分開,適合文本分析(無冗余)
全模式:句子中所有可以成詞的詞語都掃描出來,速度快,不能解決歧義(有冗余)
搜索引擎模式:在精確的基礎(chǔ)上,對(duì)長詞再次切分,提高召回率(有冗余)
三.jieba分詞的使用方法
3.1 三種模式的使用方法
#調(diào)用jieba詞庫 import jieba
#精確模式
jieba.cut(文件/文本等內(nèi)容) #獲取可迭代對(duì)象
jieba.lcut()
#全模式
jieba.cut(cut_all=True) #獲取可迭代對(duì)象
jieba.lcut(cut_all=True)
#搜索引擎模式
jieba.cut_for_search() # 獲取可迭代對(duì)象
jieba.lcut_for_search()
3.2 jieba.cut與jieba.lcut的區(qū)別
jieba.cut生成的是一個(gè)生成器,generator,也就是可以通過for循環(huán)來取里面的每一個(gè)詞。
import jieba
txt = '狗比胡晨陽'
print(jieba.cut(txt))
#打印的內(nèi)容
<generator object Tokenizer.cut at 0x000002004F5B8348>
jieba.lcut 直接生成的就是一個(gè)list
import jieba
txt = '狗比胡晨陽'
print(jieba.lcut(txt))
#打印的內(nèi)容
runfile('E:/python項(xiàng)目/test.py', wdir='E:/python項(xiàng)目')
Building prefix dict from the default dictionary ...
Loading model from cache C:UsersADMINI~1AppDataLocalTempjieba.cache
Loading model cost 1.374 seconds.
Prefix dict has been built succesfully.
['狗', '比', '胡晨陽']
總結(jié)
以上是生活随笔為你收集整理的jieba模块基本介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第三章 选择结构
- 下一篇: 中国电动汽车新科技?