大数据时代之大数据搜索与挖掘
?
???? 在企業(yè)日益發(fā)展的今天,數(shù)據(jù)、文檔、資料的不斷擴充,大大增加了我們查找搜索的難度,如何才能在最短時間找到我們需要的資料成為大型企業(yè)經(jīng)常遇到的問題,我們統(tǒng)稱這些為大數(shù)據(jù)搜索。(www.lingjoin.com)
???? 大數(shù)據(jù)的特點有四個層面:第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別;第二,數(shù)據(jù)類型繁多。網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個“V”——Volume,Variety,Value,Velocity。大數(shù)據(jù)搜索的主要挑戰(zhàn)在于:海量處理規(guī)模、多字段多類型數(shù)據(jù)融合、高效的索引壓縮技術(shù)及毫秒級的索引更新技術(shù)。
JZSearch大數(shù)據(jù)搜索引擎是靈玖軟件聯(lián)合中科院與北理工的信息檢索專家,針對大數(shù)據(jù)搜索業(yè)務(wù)需求而打造的一套搜索引擎,具有專業(yè)精準(zhǔn)、高擴展性和高通用性的特點。可支持文本、數(shù)字、日期、字符串等各種數(shù)據(jù)類型的高效索引,支持鄰近搜索、負(fù)面搜索、語義關(guān)聯(lián)搜索,可提供各類數(shù)據(jù)庫的實時搜索服務(wù),并支持少數(shù)民族語言。目前已經(jīng)應(yīng)用于中國郵政搜索引擎、河北省標(biāo)準(zhǔn)搜索引擎、富基融通(納斯達(dá)克上市公司:EFUT)商品搜索以及新疆維文搜索引擎。
主要功能:
搜索基本功能包括:
1多字段關(guān)聯(lián)搜索:非結(jié)構(gòu)化與結(jié)構(gòu)化字段的關(guān)聯(lián)搜索,支持指定字段的搜索,也可以搜索多個字段,以及復(fù)雜表達(dá)式的綜合搜索;
2 指定字段排序:可以按照任意指定字段的排序;
3 精確搜索:支持精確匹配以及模糊匹配,默認(rèn)為模糊匹配,忽略字母大小寫,采用雙引號進(jìn)行精確匹配;
搜索特色功能包括:
1 內(nèi)嵌正負(fù)面情感等極性分析,可以搜索任意對象的正負(fù)面結(jié)果;
2 語義聯(lián)想搜索:如搜索“馬鈴薯”可以同時返回“土豆”的內(nèi)容,搜索“北京市”可以返回“北京”或者“首都”的內(nèi)容;語義聯(lián)系詞表用戶可以自行根據(jù)專業(yè)知識定制;
3 搜索結(jié)果去重:按照指定字段對搜索結(jié)果進(jìn)行去重;
4 鄰近搜索功能:可以要求兩個關(guān)鍵詞必須在一定的詞場范圍內(nèi)。
5 內(nèi)嵌了智能分詞系統(tǒng)。
6 數(shù)據(jù)庫實時同步:數(shù)據(jù)庫增刪改10秒內(nèi)即可同步到搜索引擎中
搜索維護功能包括:
1 支持增量索引:系統(tǒng)可以在搜索服務(wù)不停的前提下,繼續(xù)索引新的數(shù)據(jù),索引完成后,可以搜索新的數(shù)據(jù);
2 自動備份與恢復(fù)機制,在建立索引和自動優(yōu)化之前,在當(dāng)前索引文件被破壞無法搜索的前提下,系統(tǒng)將自動恢復(fù)上次搜索正常的備份文件;
3 自動緩存機制:系統(tǒng)自動保存最近常用的搜索條件與結(jié)果,再次搜索時將直接推送搜索結(jié)果內(nèi)容,可以將搜索響應(yīng)速度提升30%以上;緩存會隨著新的索引數(shù)據(jù)自動更新,不存在緩存延遲問題;
4 自動優(yōu)化機制:在系統(tǒng)索引碎片較多時,系統(tǒng)會自動優(yōu)化歸并;
5 屏蔽指定文檔、指定關(guān)鍵詞的搜索服務(wù),也可以恢復(fù)屏蔽信息;
6 實現(xiàn)的是多線程搜索服務(wù);
7 兼容當(dāng)前所有廠商的數(shù)據(jù)庫系統(tǒng),其中SQL Server, Oracle,
MySQL,DB2等。系統(tǒng)支持多表關(guān)聯(lián)搜索;支持Windows/Linux/FreeBSD等操作系統(tǒng),支持C/C++/C#/Java二次開發(fā)。
技術(shù)架構(gòu):
?
圖:JZSearch大數(shù)據(jù)搜索引擎系統(tǒng)架構(gòu)
應(yīng)用案例:
典型應(yīng)用包括:中國郵政搜索引擎、河北省標(biāo)準(zhǔn)搜索引擎、富基融通(納斯達(dá)克上市公司:EFUT)商品搜索以及新疆維文搜索引擎。下圖為標(biāo)準(zhǔn)搜索應(yīng)用界面。
?
圖:JZSearch大數(shù)據(jù)搜索引擎在標(biāo)準(zhǔn)搜索中的應(yīng)用案例
轉(zhuǎn)載于:https://my.oschina.net/u/944980/blog/123302
總結(jié)
以上是生活随笔為你收集整理的大数据时代之大数据搜索与挖掘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vue 项目中使用photo-spher
- 下一篇: 基于Abaqus的随机纤维增强复合材料拉