KTDictSeg 1.4 版本功能介绍 - 多元分词
KTDictSeg 1.4 版本功能介紹 - 多元分詞
?作者:肖波
????? KTDictSeg 1.4 開(kāi)發(fā)了多元分詞算法,其與lucene.net 配合構(gòu)建全文搜索,經(jīng)測(cè)試準(zhǔn)確度接近google和baidu的水平。現(xiàn)將一些實(shí)現(xiàn)方法和測(cè)試結(jié)果公布出來(lái),供關(guān)心分詞和搜索技術(shù)的朋友們參考。
? ? ? 中文分詞按照分詞粒度來(lái)分,分成 一元分詞,二元分詞,多元分詞和精確分詞等類(lèi)型。一元分詞就是最簡(jiǎn)單的分詞,將所有的中文字符按照單字形式輸出。二元分詞按雙字形式輸出。多元分詞則是將 一句話(huà)中可能的單詞組合按照一定規(guī)則輸出,允許輸出的詞有重疊。精確分詞則是將一句話(huà)中最準(zhǔn)確的單詞組合輸出,不允許輸出的詞有重疊。當(dāng)然這里用精確這個(gè) 詞來(lái)修飾只是為了與其他幾種分詞方法區(qū)分,不可能有完全精確的分詞方法,因?yàn)槲覀儌ゴ笞鎳?guó)的語(yǔ)言實(shí)在是博大精深,分詞本身缺乏標(biāo)準(zhǔn)(能否制定標(biāo)準(zhǔn)也是一個(gè) 問(wèn)號(hào))一些中文句子就是由人來(lái)分解也可能分出不同的結(jié)果,所以到目前為止還沒(méi)有100%精確的分詞方法。
????? 由于一元和二元分詞較為簡(jiǎn)單,其分詞的效果也不盡理想,這里不多討論。
????? 現(xiàn)在讓我們看看精確分詞。下面這句話(huà):“許仙喝了口黃酒”,精確分詞由于不能包含重疊的詞,一般可以分成 許仙/喝了/口/黃酒,用這種分詞結(jié)果構(gòu)建索引,輸入黃酒,可以搜到,但輸入酒就無(wú)法搜到。而作為搜索用戶(hù),往往需要既能搜到黃酒也能搜到酒, google, 百度等著名搜索引擎就可以達(dá)到這種效果。我們自己開(kāi)發(fā)的搜索引擎如果無(wú)法實(shí)現(xiàn)這種功能,用戶(hù)體驗(yàn)就不會(huì)很好。為了解決這個(gè)問(wèn)題,我們必須對(duì)中文句子進(jìn)行多 元分解,即分解出合適的組合,比如上面的句子,如果分解為 許/仙/許仙/喝/了/口/黃/酒/黃酒/喝了口/ 那么無(wú)論我們輸入黃酒還是酒,我們都可以搜索到這條記錄。
? ? ? 多元分詞的缺點(diǎn):
? ? ? 多元分詞和搜索引擎結(jié)合可以得到較多的匹配結(jié)果,但同時(shí)也增加了索引文件的大小。另外由于將一些單詞進(jìn)行了拆分,搜索結(jié)果的排序會(huì)受到影響。比如搜索黃 酒,多元分詞后搜索的關(guān)鍵字組合為 黃+酒+黃酒,很可能會(huì)將只包含黃或者酒的記錄排在包含黃酒的記錄前面,這不是我們希望的結(jié)果。對(duì)于搜索引擎來(lái)說(shuō)這個(gè)排序是很重要的,google,百度 就靠這個(gè)吃飯的,如果這樣瞎排,估計(jì)用戶(hù)早就把他們拋棄了。事實(shí)上,他們做的很好。
? ? ? 為了解決這個(gè)問(wèn)題,KTDictSeg 1.4 版本提出了兩個(gè)概念,一個(gè)是多元分詞的冗余度(Redundancy),一個(gè)是多元分詞結(jié)果的權(quán)重級(jí)別(Rank)。
? ? ? 首先先談?wù)勅哂喽?#xff0c;對(duì)于一句話(huà),可能會(huì)有很多種分詞組合,我們通過(guò)冗余度的設(shè)置可以控制這個(gè)組合的數(shù)量。 KTDictSeg 1.4 版本支持3級(jí)冗余。當(dāng)冗余度設(shè)置為0時(shí),只分解最佳的分詞組合,設(shè)置為1時(shí)次之,2時(shí)再次之。
? ? ? 比如 “中華人民共和國(guó)” ,冗余度取0,1,2 時(shí) 分詞結(jié)果分別為
????? 中華人民共和國(guó)(0,5)/
? ? ? 中華(0,3)/人民共和國(guó)(2,3)/中華人民(0,3)/共和國(guó)(4,3)/中華人民共和國(guó)(0,5)/
? ? ? 中(0,2)/華(1,2)/人民共和國(guó)(2,2)/中華(0,2)/人民(2,2)/共和國(guó)(4,2)/中華人民(0,2)/共和(4,2)/國(guó)(6,2)/中華人民共和國(guó)(0,5)/
????? 其中挎號(hào)中第一個(gè)數(shù)字表示單詞在整個(gè)文章中的位置,第二個(gè)數(shù)字表示權(quán)重級(jí)別。下同。
?????
?
????? ? KTDictSeg 不同分詞方法的索引大小和分詞時(shí)間比較
?
?????? 我們?cè)僬務(wù)剻?quán)重。KTDictSeg 將多元分詞出來(lái)的單詞根據(jù)其詞長(zhǎng),詞的間隔以及未登錄詞的取舍等條件給定了不同的權(quán)重。最高權(quán)重為5,最低為0。由于Lucene.net 不支持根據(jù)權(quán)重建立索引(畢竟其不是為中文設(shè)計(jì)的),我們只能在搜索時(shí)對(duì)分解出來(lái)的關(guān)鍵字指定權(quán)重來(lái)影響搜索結(jié)果。
? ? ?? 比如黃酒這個(gè)詞,搜索關(guān)鍵詞分解為 黃酒/黃/酒 如果我們對(duì)黃酒指定較高的權(quán)重,對(duì)黃和酒指定較低的權(quán)重,那么包含黃酒的記錄將會(huì)優(yōu)先于只包含黃或者酒的記錄被搜索到,這樣就基本解決了搜索排序的問(wèn)題。
? ? ?? 下面來(lái)看看搜索 “長(zhǎng)春市長(zhǎng)春藥店” 這個(gè)句子采用KTDictSeg 1.4 版本 + Lucene.net 2.0 的搜索結(jié)果和采用 google 和百度的搜索結(jié)果的比較。冗余度取1,搜索范圍限定在 博客園 網(wǎng)站內(nèi)。
?
? ? Google 的搜索結(jié)果 59 條符合條件的記錄 搜索關(guān)鍵字: 長(zhǎng)春市長(zhǎng)春藥店? site:cnblogs.com
?
?
常用分詞算法的比較與設(shè)想- Alic的文件夾- 博客園
?- [ Translate this page ] 長(zhǎng)春市 /長(zhǎng)春 /藥店 (分成3個(gè)詞,都匹配到,語(yǔ)義正確) ... 我們對(duì)“長(zhǎng)春市長(zhǎng)春藥店 ”進(jìn)行兩種方法的分詞,但是因?yàn)槟嫦蜃畲笃ヅ浞ǖ玫降摹按核幍辍钡脑~頻相比于其他詞語(yǔ)的 ...www.cnblogs.com/alic/archive/2008/06/06/1215001.html - 26k - Cached - Similar pages
KTDictSeg 一個(gè)C#.net做的簡(jiǎn)單快速準(zhǔn)確的開(kāi)源中文分詞組件- eaglet ...
?- [ Translate this page ] “長(zhǎng)春市長(zhǎng)春藥店 ”可以依次拆分為長(zhǎng)春、長(zhǎng)春市、市長(zhǎng)、長(zhǎng)春、春藥、春藥店、藥店這幾個(gè)詞, ... “長(zhǎng)春市長(zhǎng)春藥店 ”按正向最大匹配掃描順序可以出現(xiàn)如下匹配的單詞組合: ...www.cnblogs.com/eaglet/archive/2007/05/24/758833.html - 144k - Cached - Similar pages
KTDictSeg 一個(gè)C#.net做的簡(jiǎn)單快速準(zhǔn)確的開(kāi)源中文分詞組件- eaglet ...
?- [ Translate this page ] 以“長(zhǎng)春市長(zhǎng)春節(jié)致詞”和“長(zhǎng)春市長(zhǎng)春藥店 ”這個(gè)兩個(gè)句子為例:. “長(zhǎng)春市長(zhǎng)春節(jié)致詞”可以依次拆 ... “長(zhǎng)春市長(zhǎng)春藥店 ”按正向最大匹配掃描順序可以出現(xiàn)如下匹配的單詞組合: ...www.cnblogs.com/eaglet/archive/2007/06/02/758833.html - 145k - Cached - Similar pages
漢語(yǔ)轉(zhuǎn)拼音(帶音調(diào)和多音字識(shí)別) - 草屋主人的blog - 博客園
?- [ Translate this page ] 由結(jié)果看,是分成了“長(zhǎng)春市 ”“長(zhǎng)”了如果是“長(zhǎng)春市 長(zhǎng)大”和“長(zhǎng)春市 長(zhǎng)治久安”,分的就 ... 另外,一般我們都會(huì)說(shuō)“長(zhǎng)春市 市長(zhǎng)”,“北京市市長(zhǎng)”,少一個(gè)市雖然也能理解,但總 ...www.cnblogs.com/sunli/archive/2007/11/21/967294.html - 78k - Cached - Similar pages
最新評(píng)論- 草屋主人的blog - 博客園
?- [ Translate this page ] “長(zhǎng)春市 長(zhǎng)”試了下,確實(shí)不對(duì)這個(gè)跟分詞有關(guān)吧? 由結(jié)果看,是分成了“長(zhǎng)春市 ”“長(zhǎng)”了如果是“長(zhǎng)春市 長(zhǎng)大”和“長(zhǎng)春市 長(zhǎng)治久安”,分的就對(duì)的看來(lái)分詞還要做上下文分析^_^ ...www.cnblogs.com/sunli/RecentComments.html - 44k - Cached - Similar pages
中文分詞組件KTDictSeg 1.2 版本發(fā)布及算法簡(jiǎn)介- eaglet - 博客園
?- [ Translate this page ] 長(zhǎng)春市長(zhǎng)春節(jié)致詞 長(zhǎng)春市長(zhǎng)春藥店 IBM的技術(shù)和服務(wù)都不錯(cuò) ... 市長(zhǎng) 157 2 春節(jié) 159 2 致詞 161 2 -1 1 9 1 長(zhǎng)春市 155 3 長(zhǎng)春 158 2 藥店 170 2 ...www.cnblogs.com/eaglet/archive/2007/06/02/768856.html - 118k - Cached - Similar pages
搜索引擎中中文詞組分詞的實(shí)現(xiàn)- 旋風(fēng)- 博客園
?- [ Translate this page ] ps:"杭州市長(zhǎng)春藥店 "你分完詞后會(huì)是什么呢?:). #3樓 [樓主] 回復(fù) 引用 查看. 2007-04 -16 16:12 by xuanfeng. 第一步:把,”杭州市長(zhǎng)“ ”杭州市“ “春藥店 ” 添加到詞庫(kù)中 ...www.cnblogs.com/xuanfeng/archive/2007/04/15/714312.html - 83k - Cached - Similar pages
博客園- Clark Zheng發(fā)表的評(píng)論
?- [ Translate this page ] ps:"杭州市長(zhǎng)春藥店 "你分完詞后會(huì)是什么呢?:). Clark Zheng 發(fā)表于2007-4-16 11:42. re: C#基礎(chǔ)概念二十五問(wèn). @森林?jǐn)U展或修改繼承的方法、屬性、索引器或事件的抽象 ...www.cnblogs.com/CommentsByAuthor.aspx?author=Clark+Zheng&page=31 - 27k - Cached - Similar pages
博客園- xuanfeng發(fā)表的評(píng)論
?- [ Translate this page ] 不好意思,是“長(zhǎng)春藥店 ”而不是“春藥店 ”! xuanfeng 發(fā)表于2007-4-16 18:39. re: 搜索引擎中中文詞組分詞的實(shí)現(xiàn). 第一步:把,”杭州市長(zhǎng)“ ”杭州市“ “春藥店 ” 添加到詞庫(kù) ...www.cnblogs.com/CommentsByAuthor.aspx?author=xuanfeng&page=2 - 27k - Cached - Similar pages
我的評(píng)論- 旋風(fēng)- 博客園
?- [ Translate this page ] 不好意思,是“長(zhǎng)春藥店 ”而不是“春藥店 ”! re: 搜索引擎中中文詞組分詞的實(shí)現(xiàn) xuanfeng 2007-04-16 16:12. 第一步:把,”杭州市長(zhǎng)“ ”杭州市“ “春藥店 ” 添加到詞庫(kù)中 ...www.cnblogs.com/xuanfeng/MyComments.html - 49k - Cached - Similar pages
???
?????? 百度 的搜索結(jié)果 4 條符合條件的記錄? 搜索關(guān)鍵字: site:(cnblogs.com) 長(zhǎng)春市長(zhǎng)春藥店
?
?常用分詞算法的比較與設(shè)想 - Alic的文件夾 - 博客園
長(zhǎng)春市長(zhǎng)春節(jié)致辭 2) 長(zhǎng)春市長(zhǎng)春藥店 我們假使詞庫(kù)中包含如下詞語(yǔ)“長(zhǎng)春”,“長(zhǎng)春市”,“市長(zhǎng)”,“春節(jié)”,“致辭...我們對(duì)“長(zhǎng)春市長(zhǎng)春藥店”進(jìn)行兩種方法的分詞,但是因?yàn)槟嫦蜃畲笃ヅ浞ǖ玫降摹按核幍辍钡脑~頻相比于其他詞語(yǔ)的詞頻要...
www.cnblogs.com/alic/articles/1215001.html 33K 2008-9-4 - 百度快照
| KTDictSeg 一個(gè)C#.net做的簡(jiǎn)單快速準(zhǔn)確的開(kāi)源中文分詞組件 - eagl.. 以“長(zhǎng)春市長(zhǎng)春節(jié)致詞”和“長(zhǎng)春市長(zhǎng)春藥店”這個(gè)兩個(gè)句子為例: “長(zhǎng)春市長(zhǎng)春節(jié)致詞”可以依次拆分為 長(zhǎng)春、長(zhǎng)春市...“長(zhǎng)春市長(zhǎng)春藥店”可以依次拆分為長(zhǎng)春、長(zhǎng)春市、市長(zhǎng)、長(zhǎng)春、春藥、春藥店、藥店 這幾個(gè)詞,按照正向最大匹配算法,... www.cnblogs.com/eaglet/archive/2007/05/24 ... 125K 2008-9-15 - 百度快照 |
?
| 中文分詞組件 KTDictSeg 1.2 版本發(fā)布及算法簡(jiǎn)介 - eaglet - 博客.. 長(zhǎng)春市長(zhǎng)春節(jié)致詞 長(zhǎng)春市長(zhǎng)春藥店 IBM的技術(shù)和服務(wù)都不錯(cuò) 張三在一月份工作會(huì)議上說(shuō)的確實(shí)在理 于北京時(shí)間5月10日舉行運(yùn)動(dòng)會(huì) 我的和服務(wù)必在明天做好 KTDictSeg 0 9 9 1 簡(jiǎn)介10 2 : 12 1 13 1 KTDictSeg 14 9 23 1 是24 1... www.cnblogs.com/eaglet/articles/768856.html 119K 2008-9-2 - 百度快照 |
博客園 - 劍飄紅發(fā)表的評(píng)論
長(zhǎng)春市長(zhǎng)春節(jié)致詞 長(zhǎng)春市長(zhǎng)春藥店 IBM的技術(shù)和服務(wù)都不錯(cuò) 張三在一月份工作會(huì)議上說(shuō)的確實(shí)在理 于北京時(shí)間5月10日舉行運(yùn)動(dòng)會(huì) 我的和服務(wù)必在明天做好 KTDictSeg 0 9 9 1 簡(jiǎn)介10 2 : 12 1 13 1 KTDictSeg 14 9 23 1 是24 1...
www.cnblogs.com/CommentsByAuthor.aspx?aut ... 35K 2008-9-3 - 百度快照
?
?
KTDictSeg 1.4 版本 + Lucene.net 2.0 的搜索結(jié)果 376 條符合條件的記錄
?
?
| 常用分詞算法的比較與設(shè)想- Alic的文件夾- 博客園 ,語(yǔ)義錯(cuò)誤) 長(zhǎng)春市/長(zhǎng)春/藥店(分成3個(gè)詞,都匹配到,語(yǔ)義正確) 用逆向最大匹配法得到的結(jié)果是: 長(zhǎng)春/市長(zhǎng)/春節(jié)/致辭(分成4個(gè)詞,都匹配到,語(yǔ)義正確) 長(zhǎng)春/市長(zhǎng)/春藥店(分成3個(gè)詞,都 http://www.cnblogs.com/alic/archive/2008/06/06/1215001.html | |
| KTDictSeg 一個(gè)C#.net做的簡(jiǎn)單快速準(zhǔn)確的開(kāi)源中文分詞組件- eaglet ... 詞結(jié)果是長(zhǎng)春市/長(zhǎng)/春節(jié)/致詞,按照反向最大匹配算法,分詞結(jié)果是長(zhǎng)春/市長(zhǎng)/春節(jié)/致詞。 “長(zhǎng)春市長(zhǎng)春藥店”可以依次拆分為長(zhǎng)春、長(zhǎng)春市、市長(zhǎng)、長(zhǎng)春、春藥、春藥店、藥店 這幾個(gè) http://www.cnblogs.com/eaglet/archive/2007/05/24/758833.html | |
| 我的評(píng)論- 旋風(fēng)- 博客園 sp; 第一步:把,”杭州市長(zhǎng)“ ”杭州市“ “春藥店” 添加到詞庫(kù)中 后效果為:杭州市長(zhǎng)/杭州市/杭州/杭/州/市長(zhǎng)/市/長(zhǎng)/春藥店/春藥/春/藥店/藥/店 采用的是模糊分詞分保證每個(gè)詞語(yǔ) http://www.cnblogs.com/xuanfeng/MyComments.html | |
| 博客園- Clark Zheng發(fā)表的評(píng)論 分詞的實(shí)現(xiàn) 連著三個(gè)if+goto,為什么不用switch呢?ps:"杭州市長(zhǎng)春藥店"你分完詞后會(huì)是什么呢?:) Clark Zheng 發(fā)表于 2007-4 http://www.cnblogs.com/CommentsByAuthor.aspx?author=Clark+Zheng&page=31 | |
| 搜索引擎中中文詞組分詞的實(shí)現(xiàn)- 旋風(fēng)- 博客園 第一步:把,”杭州市長(zhǎng)“ ”杭州市“ “春藥店” 添加到詞庫(kù)中 后效果為:杭州市長(zhǎng)/杭州市/杭州/杭/州/市長(zhǎng)/市/長(zhǎng)/春藥店/春藥/春/藥店/藥/店 采用的是模糊分詞分保證每個(gè)詞語(yǔ) http://www.cnblogs.com/xuanfeng/archive/2007/04/15/714312.html | |
| 中文分詞組件KTDictSeg 1.2 版本發(fā)布及算法簡(jiǎn)介- eaglet - 博客園 9 1 長(zhǎng)春 155 2 市長(zhǎng) 157 2 春節(jié) 159 2 致詞 161 2 -1 1 9 1 長(zhǎng)春市 155 3 長(zhǎng)春 158 2 藥店 170 http://www.cnblogs.com/eaglet/archive/2007/06/02/768856.html | |
| 最新評(píng)論- 草屋主人的blog - 博客園 菌哥 長(zhǎng)春市市長(zhǎng) re: 漢語(yǔ)轉(zhuǎn)拼音(帶音調(diào)和多音字識(shí)別) jason_lb 2007-11-21 16:26?? “長(zhǎng)春市長(zhǎng)”試了 http://www.cnblogs.com/sunli/RecentComments.html | |
| 漢語(yǔ)轉(zhuǎn)拼音(帶音調(diào)和多音字識(shí)別) - 草屋主人的blog - 博客園 “長(zhǎng)春市長(zhǎng)”試了下,確實(shí)不對(duì)這個(gè)跟分詞有關(guān)吧?由結(jié)果看,是分成了“長(zhǎng)春市”“長(zhǎng)”了如果是“長(zhǎng)春市長(zhǎng)大”和“長(zhǎng)春市長(zhǎng)治久安”,分的就對(duì)的看來(lái)分詞還要做上下文分 http://www.cnblogs.com/sunli/archive/2007/11/21/967294.html | |
| 前門(mén)新大街8月7日正式開(kāi)街亮相- 歲月無(wú)聲- 博客園 店都還空著沒(méi)開(kāi)張,就一些老字號(hào)開(kāi)張了,包括”大北照相館、慶林春茶莊、億兆百貨、都一處燒麥館、一條龍羊肉館、長(zhǎng)春堂藥店、中國(guó)書(shū)店、南區(qū)郵局、月盛齋醬牛羊肉館、張一元茶莊分社、尚珍閣工藝品店 http://www.cnblogs.com/joe235/archive/2008/08/29/1263334.html | |
| 博客園- 560889223發(fā)表的評(píng)論 re: 我完成的C#關(guān)于在lucene下的中文切詞 長(zhǎng)春市|長(zhǎng)春節(jié) 長(zhǎng)春市長(zhǎng)|春節(jié) 560889223 發(fā)表于 2007-9-26 19:57 http://www.cnblogs.com/CommentsByAuthor.aspx?author=560889223&page=2 |
?
???? 從搜索結(jié)果來(lái)看KTDictSeg 1.4 + Lucene.net 2.0 的搜索效果已經(jīng)非常接近google的搜索效果,前10個(gè)記錄的選擇兩者基本上差不多,排序上略有區(qū)別。Baidu搜索出來(lái)的數(shù)據(jù)很少,可能其更追求搜索 的精度吧,畢竟也是國(guó)內(nèi)搜索界的老大,這里不想做過(guò)多評(píng)論,好不好按百度自己的話(huà)說(shuō)還是拿事實(shí)說(shuō)話(huà)吧。
?
?
???? 關(guān)于KTDictSeg 的多元分詞技術(shù),本文就介紹到這里。 KTDictSeg 1.4 版本還有最后的掃尾工作,不日即將發(fā)布。
?
總結(jié)
以上是生活随笔為你收集整理的KTDictSeg 1.4 版本功能介绍 - 多元分词的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: java中的内存图_各个JAVA场景下的
- 下一篇: python最新版本安卓下载_Pytho