[搜索]波特词干(Porter Streamming)提取算法详解(2)
生活随笔
收集整理的這篇文章主要介紹了
[搜索]波特词干(Porter Streamming)提取算法详解(2)
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
接[搜索]波特詞干(Porter Streamming)提取算法詳解(1),
http://blog.csdn.net/zhanghaiyang9999/article/details/41624007
條件也包含下面一些規(guī)則:
*S? -詞干以S結(jié)束 (同樣適用于其他字符).
*v* - 詞干包含一個(gè)元音.
*d? - 詞干以兩個(gè)相同輔音結(jié)束(如. -TT, -SS).
*o? - 詞干以cvc的形式結(jié)束, 但是第二個(gè)c(輔音)不是 W, X?或者Y (如 -WIL, -HOP).
這些條件可以用AND,OR和NOT來運(yùn)算,如:
(m>1 and (*S or *T))
表示判斷詞干m>a并且以S或T結(jié)束。
再看看 下面的這一組規(guī)則
SSES -> SS
IES? -> I
SS?? -> SS
S??? ->
但是只有一個(gè)會(huì)被用到,就是最長(zhǎng)匹配的那個(gè),例如:
CARESSES會(huì)被替換成 CARESS ,因?yàn)镾SES->SS是最長(zhǎng)的匹配。
總結(jié)
以上是生活随笔為你收集整理的[搜索]波特词干(Porter Streamming)提取算法详解(2)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [搜索]波特词干(Porter Stre
- 下一篇: [搜索]一种分词方法的实现