當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

mmseg java_MMSeg中文分词算法

發布時間：2023/12/15 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了 mmseg java_MMSeg中文分词算法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Java中有一些開源的分詞項目，比如：IK、Paoding、MMSEG4J等等。這里主要說的是MMSEG4J中使用的MMSeg算法。它的原文介紹在：http://technology.chtsai.org/mmseg/，是用英文書寫的，這是只是它的一個中文筆記。

為什么中文要分詞

中文和英文的書寫方式不一樣，英文中單詞之間用空格隔開，而且每個單詞代表一個含義(當然也有短語，但這占的比例不是主要的)；中文的書寫是連在一起的，而且單個單詞常常與相鄰的單詞組合成一個詞語，代表一個含義。比如:“中學校長”，不能像英文那樣一個詞一個劃分，要劃分為“中學”和“校長”兩個詞。如果我們的書寫習慣是每個詞語用空格分隔，那就像英文一樣不用分了。

一、劃分規則

把查詢語句劃分為3個word組成的chunk,每個word中存放一個詞語，這個詞語是字典中出現的一個字或詞組(多個字)，對于剩下未劃分的子語句可以再使用這個規則劃分。

為什么chunk由3個word組成，而不是其它數值？

也許是漢語句子基本結構是主謂賓3部分，而不劃為更多個的word，卻是在程序準確性與性能之間做一個折中。

例如“眼看就要來了”或以分為以下幾種chunk

1、眼看 ? ?就要來了

2、眼看就要來

3、眼看就要

4、眼看就要

5、眼看就

二、過濾規則

從上面的劃分可見，有多個chunk，為了選出唯一一個chunk，分別用四個規則過濾它們，當然如果在某個過濾規則中已經讓chunk剩存一個，就退出后繼的過濾篩選。反之，如果使用了4個規則，仍然剩存1個以上的chunk，就拋出異常。這4個規則分別是：最大匹配、最大平均單詞長度、單詞長度最小方差和單字單詞語素自由度的最大和。

2.1、最大匹配

把3個word中的單詞個數相加，取總單詞長度最長的chunk。

上面第一個chunk單詞長度為6，所以取它。

2.2、最大平均單詞長度

就是chunk中單詞總數除以word個數，如：

1、國際化

2、國際化

3、國際化

這三個chunk的平均單詞長度都是1.

2.3、最小單詞長度方差

先回憶一下什么是方差？

方差就是各數據與樣本平均數的差的平方和的平均數，公式：

[1/(n-1)][(x1-s)^2+(x2-s)^2+...+(xn-s)^2]，其中的s為標準值。

方差用于衡量x1~xn群體與s之間的偏離程度，方差越小表明x1~xn群體與s越聚集。當x1~xn都等于s時，方差的值為0，表明它們聚焦在一個點。

比如有以下兩個chunk

1、小女孩子們

2、小女孩子們

x1~xn就是每個word中單詞的長度，標準值就是chunk中平均單詞長度

第一個chunk的值為：

[(2-5/3)^2+(2-5/3)^2+(1-5/3)^2]/3=[(1/3)^2+(1/3)^2+(-2/3)^2]/3=

(0.1111+0.1111+0.4444)/3=0.2222

第二個chunk的值為：

[(1-5/3)^2+(3-5/3)^2+(1-5/3)^2]/3=[(-2/3)^2+(4/3)^2+(-2/3)^2]/3=

(0.4444+1.7777+0.4444)/3=0.8888

所以取第1個chunk,當然這個規則在這個例子中篩選錯誤了，因為第二個chunks比較接近原意。

為什么取方差值最小的，因為這樣選對的概率比較高。

2.4最大單字單詞的語素自由度和

取出chunks中單詞個數為1的word，統計它們的單詞語素自由度之和。取語素自由度之和最高的chunk。一個高頻率的漢字更可能是一個單字單詞，也就有更高的語素自由度，而這個單詞的頻率是事先統計的，它記錄在一個預定義字典中。比如：

1、為首要考慮

2、為首要考慮

在1 chunks中,“要”的語素自由度為13.84，而在2中，“為”的語素自由度為13.64，說明“要”作為單個詞使用的概率高一些，所以這里選擇第一個chunk。當然這個算法在這里也選錯了。

MMSeg中計算自由度公式是：

Freq=(int)(Math.log(Integer.parseInt(rate))*100)

這個公式的目的是讓頻率值相差不大的詞擁有相同的自由度

從上面可以看到MMSeg算法劃分并不是完全準確，官方說：“在一個由1013個單詞組成的樣本中，這個系統的正確識別率達到98.41%。”目前也沒有那個算法能做到100%準確率，因為語言對于計算機來說真是太復雜的。

總結

以上是生活随笔為你收集整理的mmseg java_MMSeg中文分词算法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：苹果2022年向开发者支付600亿美元
下一篇： python重写和装饰器_python中