java nlpir_中科院NLPIR中文分词java版
摘要:為解決中文搜索的問題,最開始使用 版 SCWS ,但是處理人名和地名時,會出現(xiàn)截斷人名地名出現(xiàn)錯誤。開始使用 NLPIR 分詞,在分詞準確性上效果要比 SCWS 好。本文介紹如何在 系統(tǒng)下 JAVA ,生成可以執(zhí)行的 jar 文件。
NLPIR 的下載地址:
http://ictclas.nlpir.org/downloads
兩個版本有一些不同,本文將分別講解如何利用 Ecl 建立工程。
一、NLPIR 官方版本
下載后文件夾中 bin NLPIR_WinDemo.exe 是一個 NLPIR 的演示程序,可以嘗試運行,了解 NLPIR 的功能。
工程sample 目錄下,包含 C 、 C++ 、 、 JAVA 、 Python 等語言示例。
用 Eclipse 新建一個工程導(dǎo)入 JAVA 工程目錄 JnaTest_NLPIR ,
( 1 ) Eclipse?->?File->import
(2)選擇 JnaTest_NLPIR 所在的路徑,點擊 Finish
(3)查看 Eclipse 工程
(4)NlpirTest.文件中包含 main 函數(shù),下面的語句初始化 NLPIR 需要的庫文件
CLibrery 類是包含在 NlpirTest.java 文件中,
CLibrary Instance = (CLibrary) Native.loadLibrary("H://workspace//ictclas//1//ICTCLAS2015//lib//win64//NLPIR", CLibrary.class);
函數(shù) loadLibrary 需要傳遞庫文件位置,源碼提供了多種語言類庫,我們的工程需要加載 win64 類庫,該文件夾內(nèi)容如下 ,
(5)加載分詞Data 文件夾路徑
String argu = "H://workspace//ictclas//1//ICTCLAS2015"; String system_charset= "UTF-8";int charset_type = 1;int init_flag = CLibrary.Instance.NLPIR_Init(argu, charset_type, "0");
H://workspace//ictclas//1//ICTCLAS2015是Data 文件夾的父文件夾。
這步驟完成后,你就可以可以閱讀手冊。
二、github 上下載的代碼
目錄中包含了 NLPIR?SDK 目錄,每一個目錄是 NLPIR 提供的一個組件。 NLPIR-ICTCLAS 目錄包含 NLPIR 組件的代碼。
在 Eclipse 中導(dǎo)入 ICTCLAS_java 工程,工程目錄如下圖
工程中沒有填寫main 函數(shù),可以在 NlpirTest.java 文件中,加入 main 函數(shù)
public classNlpirTest {public static void main(String[] args) throwsException{ NlpirTest t= newNlpirTest(); t.testParticiple(); }public void testParticiple() throwsIOException { ..... } ....... }
和官方 win32 、 win64 、 、 linux64 都是包含庫文件的文件夾。
同時會自動加載“工程當前目錄“下 Data 問佳佳為分詞數(shù)據(jù)目錄。這些目錄設(shè)置好,就可以進行調(diào)試工作了。
三、在 github 中"查找關(guān)鍵字"的組件 Key_Extract
工程目錄如下,
project 中提供 java 版本的示例代碼,利用 Eclipse 導(dǎo)入工程
同樣在 KeyExtractor.java 文件中添加 main 函數(shù)。 KeyExtract_GetKeyWords 的第一個
public static voidmain(String[] args) { String= CLibraryKeyExtractor.instance.KeyExtract_GetKeyWords(args[0], 10, true); System.out.println(keyWordsStr); CLibraryKeyExtractor.instance.KeyExtract_Exit(); }
在工程的當前文件夾下,有一個 Data 目錄,是分詞和提取關(guān)鍵詞需要用到的分詞數(shù)據(jù)。需要將需要的 license 考入到這個文件夾。你可以不用區(qū)分用到哪一個 user 文件,建議把全部文件都考到當前工程目錄 Data 文件夾中。
這些設(shè)置完成,在 Eclipse 中傳入?yún)?shù),菜單項 run–>run?configure 。
四、導(dǎo)出 jar
Eclipse 工程目錄上,右鍵選擇 Export
選擇 runnablejar ,生成 jar 文件
之后就可以利用 執(zhí)行,傳遞參數(shù),效果如下
總結(jié)
以上是生活随笔為你收集整理的java nlpir_中科院NLPIR中文分词java版的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IOS 定时器 NSTimer
- 下一篇: 已知圆心,半径,角度,求圆上的点坐标