當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jieba库详解

發布時間：2023/12/10 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 jieba库详解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

jieba是優秀的中文分詞第三方庫

中文文本需要通過分詞獲得單個的詞語

jieba是優秀的中文分詞第三方庫，需要額外安裝

jieba庫提供三種分詞模式，最簡單只需安裝一個函數。

jieba庫是通過中文詞庫的方式來識別分詞的。

安裝命令如下：

點擊windows+r,進入命令提示符輸入cmd,進入界面后，輸入pip install jieba。即可安裝，示例如下：

安裝界面如下：?

jieba庫分詞依靠中文詞庫

利用一個中文詞庫，確定漢字之間的關聯概念

漢字間概率大的組成詞組，形成分詞結果

除了分詞，用戶還可以添加自定義的詞組。

精確模式、全模式、搜索引擎模式

精確模式：把文本精確的切分開，不存在冗余單詞

全模式：把文本中所有可能的詞語都掃描出來，有冗余。

搜索引擎模式：在精確模式基礎上，對長詞進行切分。

1.jieba.lcut(s) 精確模式，返回一個列表類型的分詞結果

代碼示例如下：

import jieba a=jieba.lcut("約翰沃爾是NBA超級巨星") print(a)

運行界面如下：

2.jieba.lcut(s,cut_all=True)全模式，返回一個列表類型的分詞結果，存在冗余。

代碼示例如下：

import jieba a=jieba.lcut("約翰沃爾是NBA超級巨星",cut_all=True) print(a)

運行界面如下：

?3.jieba.lcut_for_search(s)搜索引擎模式。

代碼示例如下：

import jieba a=jieba.lcut_for_search("中華人民共和國是偉大的") print(a)

運行界面如下：4.?

4.jieba.add_word(w),向分詞詞典增加新詞w。

代碼示例如下：

import jieba a=jieba.add_word("奇才隊控球后衛約翰沃爾是NBA超級巨星") b=jieba.lcut("奇才隊控球后衛約翰沃爾是NBA超級巨星") print(b)

運行界面如下：

jieba.lcuts(s),能夠將字符串s進行精確的分詞處理，并且返回一個列表類型。?

以上是生活随笔為你收集整理的jieba库详解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。