lucene 4.3 ansj分词演示
生活随笔
收集整理的這篇文章主要介紹了
lucene 4.3 ansj分词演示
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
當然用他之前強烈建議你吧內存調大(不是讓你買內存去).不得不說.他是個內存消耗大戶.
不會調內存????其實我也不會.呵呵在eclipse中Run As--> Run Configurations--> Arguments 找到個框框 VM Arguments寫上:-Xms1024m -Xmx1024m
如果你空閑內存連1G都木有.有兩個辦法.1.買內存or換機器 2.刪除用戶詞典(強烈不建議)
1.這是一個標注的調用方式
import org.ansj.domain.Term; import org.ansj.splitWord.Analysis; import org.ansj.splitWord.analysis.ToAnalysis; /**- 標注的分詞方式,這里面的流你可以傳入任何流.除了流氓
- @author ansj */ public class Demo { public static void main(String[] args) throws IOException {Analysis udf = new ToAnalysis(new StringReader("Ansj中文分詞是一個真正的ict的實現.并且加入了自己的一些數據結構和算法的分詞.實現了高效率和高準確率的完美結合!"));Term term = null ;while((term=udf.next())!=null){System.out.print(term.getName()+" ");} } }
2.這是一個簡易的調用方式
import org.ansj.domain.Term; import org.ansj.splitWord.Analysis; import org.ansj.splitWord.analysis.ToAnalysis; /**- 最最最簡單的分詞調用方式
- @author ansj * */ public class SimpleDemo { public static void main(String[] args) throws IOException {List paser = ToAnalysis.paser("Ansj中文分詞是一個真正的ict的實現.并且加入了自己的一些數據結構和算法的分詞.實現了高效率和高準確率的完美結合!");System.out.println(paser); } }
3.如何做詞性標注,詞性標注是需要在分詞結果后調用詞性標注.下面寫一個簡單的方式.有針對文件的詞性標注特殊的處理辦法.不要著急
import org.ansj.domain.Term; import org.ansj.splitWord.analysis.ToAnalysis; import org.ansj.util.recognition.NatureRecognition; /**- 詞性標注
- @author ansj */ public class NatureDemo { public static void main(String[] args) throws IOException {List terms = ToAnalysis.paser("Ansj中文分詞是一個真正的ict的實現.并且加入了自己的一些數據結構和算法的分詞.實現了高效率和高準確率的完美結合!");new NatureRecognition(terms).recognition() ;System.out.println(terms); } }
以上這些結果你會看到
[ansj/en, 中文/nz, 分/q, 詞/n, 是/v, 一個/m, 真正/d, 的/uj, ict/en, 的/uj, 實現/v, ./m, 并且/c, 加入/v, 了/ul, 自己/r, 的/uj, 一些/m, 數據結構/userDefine, 和/c, 算法/n, 的/uj, 分詞/n, ./m, 實現/v, 了/ul, 高/a, 效率/n, 和/c, 高/a, 準確率/n, 的/uj, 完美/a, 結合/v, !/null] 完畢收工.總結
以上是生活随笔為你收集整理的lucene 4.3 ansj分词演示的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CSS左右摆动动效
- 下一篇: 如何将WPS里文件的内容转换为图片格式