當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

jieba初步了解

發(fā)布時(shí)間：2024/1/17 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了 jieba初步了解小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

http://www.gowhich.com/blog/147

jieba自帶詞典：dict.txt

一個(gè)詞占一行；每一行分三部分，一部分為詞語，另一部分為詞頻，最后為詞性（可省略），用空格隔開

例如：詞頻率詞性

一不注意 3 i
一不留神 3 i
一專多能 27 l
一世 770 t
一世之雄 2 i
一世英名 3 m
一世龍門 3 i

這篇文檔介紹的比較詳細(xì)：http://www.cnblogs.com/wangtao_20/p/3647240.html

關(guān)于中文分詞方法的了解：

一、基于詞典分詞

機(jī)械分詞：

按照長(zhǎng)度優(yōu)先級(jí)不同，分為最大匹配與最小匹配

按匹配方向不同，分為正向匹配與逆向匹配

缺點(diǎn)：缺乏歧義分析處理，切分精度低

基于規(guī)則分詞方式：

基于統(tǒng)計(jì)分詞方式：

以上兩者可以依賴庫也可以不依賴庫，與詞典分詞結(jié)合起來用。難以嚴(yán)格區(qū)分

實(shí)踐中，經(jīng)常以正向匹配方式為主。

依賴于詞典的方法，缺點(diǎn)是：沒有在詞典中出現(xiàn)的詞語，就沒法作為關(guān)鍵詞進(jìn)行切分(識(shí)別新詞一般使用統(tǒng)計(jì)法)。

二、基于詞頻統(tǒng)計(jì)分詞

將文章中任意兩個(gè)字同時(shí)出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),次數(shù)越高的就可能是一個(gè)詞。

實(shí)際應(yīng)用的統(tǒng)計(jì)分詞系統(tǒng)都要使用一部基本的分詞詞典（常用詞詞典）進(jìn)行串匹配分詞，同時(shí)使用統(tǒng)計(jì)方法識(shí)別一些新的詞，即將串頻統(tǒng)計(jì)和串匹配結(jié)合起來，既發(fā)揮匹配分詞切分速度快、效率高的特點(diǎn)，又利用了無詞典分詞結(jié)合上下文識(shí)別生詞、自動(dòng)消除歧義的優(yōu)點(diǎn)。

三、基于規(guī)則分詞

即基于理解分詞

規(guī)則法,目前常見的是CRF（Conditional random field, http://en.wikipedia.org/wiki/Conditional_random_field）。具體的實(shí)現(xiàn)可參考http://nlp.stanford.edu/software/segmenter.shtml
基于統(tǒng)計(jì)和基于規(guī)則的分詞法是非詞典,也就是可以不需要詞典的(實(shí)際中是多種方式結(jié)合，所以會(huì)與詞典結(jié)合)。
基于詞典的和不基于詞典的兩類分詞法,有他們各自的優(yōu)缺點(diǎn)
基于詞典的，部署比較簡(jiǎn)單，只需要安裝詞庫即可。實(shí)現(xiàn)也簡(jiǎn)單，對(duì)比查找詞語庫的思路。
缺點(diǎn)是，分詞精度有限，對(duì)于詞典里沒有的詞語識(shí)別較差。

非詞典分詞法，優(yōu)點(diǎn)是，對(duì)于出現(xiàn)過的詞語識(shí)別效果較好，能夠根據(jù)使用領(lǐng)域達(dá)到較高的分詞精度。
缺點(diǎn)：實(shí)現(xiàn)比較復(fù)雜。前期需要做大量的工作。

現(xiàn)實(shí)中，沒有一種分詞方法能夠滿足所有需求。所以一般都是多種分詞方法結(jié)合起來使用，相互彌補(bǔ)。

現(xiàn)實(shí)中的使用詞典來存儲(chǔ)大部分關(guān)鍵詞，而識(shí)別新詞使用統(tǒng)計(jì)法。最后就是詞典+統(tǒng)計(jì)法結(jié)合起來使用。

既能達(dá)到分詞精準(zhǔn)，又能分詞速度快，往往是比較理想的狀態(tài)。但要求精準(zhǔn)就會(huì)存在性能消耗。搜索引擎需要在分詞速度與分詞準(zhǔn)確度方面求得平衡。

中文分詞一直要解決的兩大技術(shù)難點(diǎn)為：歧義識(shí)別和新詞識(shí)別(新的人名、地名等)

轉(zhuǎn)載于:https://www.cnblogs.com/lwhp/p/6079227.html

總結(jié)

以上是生活随笔為你收集整理的jieba初步了解的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

Jieba

上一篇： Android开发7：简单的数据存储（使
下一篇： quantum theory