當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

lucene 4.3 ansj分词演示

發布時間：2024/1/18 编程问答 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 lucene 4.3 ansj分词演示小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

當然用他之前強烈建議你吧內存調大(不是讓你買內存去).不得不說.他是個內存消耗大戶.

不會調內存????其實我也不會.呵呵在eclipse中Run As--> Run Configurations--> Arguments 找到個框框 VM Arguments寫上:-Xms1024m -Xmx1024m

如果你空閑內存連1G都木有.有兩個辦法.1.買內存or換機器 2.刪除用戶詞典(強烈不建議)

1.這是一個標注的調用方式

import org.ansj.domain.Term; import org.ansj.splitWord.Analysis; import org.ansj.splitWord.analysis.ToAnalysis; /**

標注的分詞方式,這里面的流你可以傳入任何流.除了流氓
@author ansj */ public class Demo { public static void main(String[] args) throws IOException {Analysis udf = new ToAnalysis(new StringReader("Ansj中文分詞是一個真正的ict的實現.并且加入了自己的一些數據結構和算法的分詞.實現了高效率和高準確率的完美結合!"));Term term = null ;while((term=udf.next())!=null){System.out.print(term.getName()+" ");} } }

2.這是一個簡易的調用方式

import org.ansj.domain.Term; import org.ansj.splitWord.Analysis; import org.ansj.splitWord.analysis.ToAnalysis; /**

最最最簡單的分詞調用方式
@author ansj * */ public class SimpleDemo { public static void main(String[] args) throws IOException {List paser = ToAnalysis.paser("Ansj中文分詞是一個真正的ict的實現.并且加入了自己的一些數據結構和算法的分詞.實現了高效率和高準確率的完美結合!");System.out.println(paser); } }

3.如何做詞性標注,詞性標注是需要在分詞結果后調用詞性標注.下面寫一個簡單的方式.有針對文件的詞性標注特殊的處理辦法.不要著急

import org.ansj.domain.Term; import org.ansj.splitWord.analysis.ToAnalysis; import org.ansj.util.recognition.NatureRecognition; /**

詞性標注
@author ansj */ public class NatureDemo { public static void main(String[] args) throws IOException {List terms = ToAnalysis.paser("Ansj中文分詞是一個真正的ict的實現.并且加入了自己的一些數據結構和算法的分詞.實現了高效率和高準確率的完美結合!");new NatureRecognition(terms).recognition() ;System.out.println(terms); } }

以上這些結果你會看到

[ansj/en, 中文/nz, 分/q, 詞/n, 是/v, 一個/m, 真正/d, 的/uj, ict/en, 的/uj, 實現/v, ./m, 并且/c, 加入/v, 了/ul, 自己/r, 的/uj, 一些/m, 數據結構/userDefine, 和/c, 算法/n, 的/uj, 分詞/n, ./m, 實現/v, 了/ul, 高/a, 效率/n, 和/c, 高/a, 準確率/n, 的/uj, 完美/a, 結合/v, !/null] 完畢收工.

總結

以上是生活随笔為你收集整理的lucene 4.3 ansj分词演示的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： CSS左右摆动动效
下一篇：如何将WPS里文件的内容转换为图片格式