coreseek java_基于Sphinx的中文全文检索引擎Coreseek的安装
按照Sphinx來進行全文檢索,默認只支持按字拆分,如果要實現比較好的中文分詞,可以使用基于libmmseg的引擎Coreseek。
yum install g++
yum install gcc
yum install make
yum install mysql mysql-devel php-mysql qt4-mysql
tar -xzvf mmseg3_0b3.tar.gz
tar -xzvf csft3_0b4.tar.gz
cd mmseg.3.0b3/
./configure --prefix=/var/mmseg
make
make install
cd ..
cd csft3_0b4
./configure --prefix=/var/coreseek --with-mysql --with-mmseg-includes=/var/mmseg/include/mmseg --with-mmseg-libs=/var/mmseg/lib/
make
make install
cd /var/coreseek/
mkdir dict
cd /home/hfahe/mmseg.3.0b3/data
/var/mmseg/bin/mmseg -u unigram.txt
cp unigram.txt.uni /var/coreseek/dict/uni.lib
cd /var/coreseek/dict/
vi mmseg.ini
輸入
[mmseg]
merge_number_and_ascii=1;
number_and_ascii_joint=-;
compress_space=0;
seperate_number_ascii=1;
cd /var/coreseek/etc/
cp sphinx.conf.dist sphinx.conf
mysql -h 192.168.1.xxx -u root -pxxx test < example.sql
vi sphinx.conf
修改配置里的數據庫ip、用戶名、密碼、數據庫
/var/coreseek/bin/indexer? --config? /var/coreseek/etc/sphinx.conf
這時可能會出現關于libmysqlclient的錯誤,解決辦法如下:
locate libmysqlclient.so
ln -s /usr/local/lib/mysql/libmysqlclient.so.16 /lib/libmysqlclient.so.16
/var/coreseek/bin/indexer? --config? /var/coreseek/etc/sphinx.conf --all
/var/coreseek/bin/search? --config? /var/coreseek/etc/sphinx.conf doc
displaying matches:
1. document=3, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010
id=3
group_id=2
group_id2=7
date_added=2010-04-22 15:15:25
title=another doc
content=this is another group
2. document=4, weight=1, group_id=2, date_added=Thu Apr 22 15:15:25 2010
id=4
group_id=2
group_id2=8
date_added=2010-04-22 15:15:25
title=doc number four
content=this is to test groups
words:
1. 'doc': 2 documents, 2 hits
要支持中文,需要將配置里的charset_type值修改為zh_cn.utf-8,并添加charset_dictpath = /var/coreseek/dict。
還需要將sql_query_pre = SET NAMES utf8這一行配置打開。
/var/coreseek/bin/indexer? --config? /var/coreseek/etc/sphinx.conf --all
/var/coreseek/bin/search? --config? /var/coreseek/etc/sphinx.conf 中文
試試是否已經可以正常檢索中文了。
coreseek默認的配置文件是etc下的csft.conf,使用此文件時可以不需要加入config的配置。
此時應該已經可以顯示正確結果了。
總結
以上是生活随笔為你收集整理的coreseek java_基于Sphinx的中文全文检索引擎Coreseek的安装的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第六十七期:Python爬虫44万条数据
- 下一篇: 第三十二期:你们都是怎么学Python的