python大数据搜索_【大数据搜索】JZSearch大数据搜索引擎
大數(shù)據(jù)的特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類型繁多。網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”——Volume,Variety,Value,Velocity。大數(shù)據(jù)搜索引擎的主要挑戰(zhàn)在于:海量處理規(guī)模、多字段多類型數(shù)據(jù)融合、高效的索引壓縮技術(shù)及毫秒級(jí)的索引更新技術(shù)。
JZSearch大數(shù)據(jù)搜索引擎是靈玖軟件聯(lián)合中科院與北理工的信息檢索專家,針對(duì)大數(shù)據(jù)搜索業(yè)務(wù)需求而打造的一套搜索引擎,具有專業(yè)精準(zhǔn)、高擴(kuò)展性和高通用性的特點(diǎn)。可支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型的高效索引,支持鄰近搜索、負(fù)面搜索、語義關(guān)聯(lián)搜索,可提供各類數(shù)據(jù)庫(kù)的實(shí)時(shí)搜索服務(wù),并支持少數(shù)民族語言。目前已經(jīng)應(yīng)用于中國(guó)郵政搜索引擎、河北省標(biāo)準(zhǔn)搜索引擎、富基融通(納斯達(dá)克上市公司:EFUT)商品搜索以及新疆維文搜索引擎。
主要功能:
搜索基本功能包括:
1多字段關(guān)聯(lián)搜索:非結(jié)構(gòu)化與結(jié)構(gòu)化字段的關(guān)聯(lián)搜索,支持指定字段的搜索,也可以搜索多個(gè)字段,以及復(fù)雜表達(dá)式的綜合搜索;
2 指定字段排序:可以按照任意指定字段的排序;
3 精確搜索:支持精確匹配以及模糊匹配,默認(rèn)為模糊匹配,忽略字母大小寫,采用雙引號(hào)進(jìn)行精確匹配;
搜索特色功能包括:
1 內(nèi)嵌正負(fù)面情感等極性分析,可以搜索任意對(duì)象的正負(fù)面結(jié)果;
2 語義聯(lián)想搜索:如搜索“馬鈴薯”可以同時(shí)返回“土豆”的內(nèi)容,搜索“北京市”可以返回“北京”或者“首都”的內(nèi)容;語義聯(lián)系詞表用戶可以自行根據(jù)專業(yè)知識(shí)定制;
3 搜索結(jié)果去重:按照指定字段對(duì)搜索結(jié)果進(jìn)行去重;
4 鄰近搜索功能:可以要求兩個(gè)關(guān)鍵詞必須在一定的詞場(chǎng)范圍內(nèi)。
5 內(nèi)嵌了智能分詞系統(tǒng)。
6 數(shù)據(jù)庫(kù)實(shí)時(shí)同步:數(shù)據(jù)庫(kù)增刪改10秒內(nèi)即可同步到搜索引擎中
搜索維護(hù)功能包括:
1 支持增量索引:系統(tǒng)可以在搜索服務(wù)不停的前提下,繼續(xù)索引新的數(shù)據(jù),索引完成后,可以搜索新的數(shù)據(jù);
2 自動(dòng)備份與恢復(fù)機(jī)制,在建立索引和自動(dòng)優(yōu)化之前,在當(dāng)前索引文件被破壞無法搜索的前提下,系統(tǒng)將自動(dòng)恢復(fù)上次搜索正常的備份文件;
3 自動(dòng)緩存機(jī)制:系統(tǒng)自動(dòng)保存最近常用的搜索條件與結(jié)果,再次搜索時(shí)將直接推送搜索結(jié)果內(nèi)容,可以將搜索響應(yīng)速度提升30%以上;緩存會(huì)隨著新的索引數(shù)據(jù)自動(dòng)更新,不存在緩存延遲問題;
4 自動(dòng)優(yōu)化機(jī)制:在系統(tǒng)索引碎片較多時(shí),系統(tǒng)會(huì)自動(dòng)優(yōu)化歸并;
5 屏蔽指定文檔、指定關(guān)鍵詞的搜索服務(wù),也可以恢復(fù)屏蔽信息;
6 實(shí)現(xiàn)的是多線程搜索服務(wù);
7 兼容當(dāng)前所有廠商的數(shù)據(jù)庫(kù)系統(tǒng),其中SQL Server, Oracle, MySQL,DB2等。系統(tǒng)支持多表關(guān)聯(lián)搜索;支持Windows/Linux/FreeBSD等操作系統(tǒng),支持C/C++/C#/Java二次開發(fā)。
總結(jié)
以上是生活随笔為你收集整理的python大数据搜索_【大数据搜索】JZSearch大数据搜索引擎的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 山西计算机中考操作题,2017山西中考物
- 下一篇: html5 签到墙,签名墙尺寸一般设置多