基于Web2.0的异构数字资源检索系统研究与开发
摘? 要:對跨庫檢索技術進行調查分析,選擇聯合檢索模式實現跨庫檢索,提出跨庫檢索模型。采用UML 2.0進行系統建模,選用PHP開發代碼,同時將AJAX、TAG等Web2.0的元素引入系統來提高用戶體驗,采用基于XML的模版更新技術降低維護難度。同時對系統進行性能測試,最終實現了基于Web2.0的異構數字資源跨庫檢索系統。
關鍵詞: 異構數字資源;檢索模式;跨庫檢索;數字圖書館
文獻標識碼: A??? 中圖分類號:TP393
?
1 引言
圖書館自建和外購文獻數據庫的數量越來越多,用戶在時間的角度來看檢索效率在不斷下降,在空間角度來看文獻資源范圍在不斷擴大。檢索效率下降的主要原因在于:第一,文獻數據庫檢索空間存在較大差異。文獻數據庫廠商的數據庫產品都會按照自己的方式進行信息檢索表達和結果呈現,對于用戶來說,同樣的查詢題目,用戶需要熟悉不同用戶界面和檢索規則,需要頻繁登錄與退出各個文獻數據庫,在不同的文獻系統中重復輸入檢索詞,重復查找;第二,用戶認證方式繁瑣。第三,增加了圖書館服務、管理難度。不利于區域或行業性文獻共享平臺對用戶的統一管理[1]。有效解決因時間和空間變化所產生的問題,為用戶提供更加簡潔、便利的服務,就成為了當今圖書館學和圖書情報服務行業研究的重要課題之一,對未來圖書情報理論研究具有十分重要的意義。
2 跨庫檢索技術調查分析
文獻數據庫是分布式海量數據庫群,是基于智能檢索技術和寬帶高速網絡技術的大型、開放、分布式信息庫群,具有異構和分布式計算兩個最顯著的特性。
跨庫檢索系統的實現必須緊密圍繞異構和分布式計算兩個最顯著的特性開展技術開發,只要屏蔽文獻數據庫資源的異構性,合理采用分布式處理技術就能提出符合實際的解決方案,實現統一的文獻資源查詢服務。
從技術實現的角度看,跨庫檢索有二種模式:聯合檢索和整合檢索二種[2]。聯合檢索一般采用模擬Web訪問過程[3],將統一檢索界面輸入的檢索條件自動保存下來依次傳給多個數字資源系統,各數字資源系統啟動各自的檢索系統進行檢索,并將檢索結果在同一界面同時顯示。這種技術實現難度相對較低、開發費用少、維護量小。該技術對數字資源系統的用戶界面的HTML代碼依賴性強,同時啟動的檢索進程系統越多,整體檢索效率就會下降,另外組合檢索難度大,不支持二次檢索是它的最大缺點。整合檢索不破壞各數字資源的數據庫結構,它將各數字資源的元數據提取出來,經過重新描述建成標準統一的元數據庫,在此元數據庫的基礎再配套開發檢索系統,形成統一檢索界面,因為檢索都在統一元數據庫中進行,只是當讀者需要瀏覽對像數據時才調用各數字資源原有的瀏覽器進行閱讀。所以它的整體檢索效率非常高,并且還能很好的進行高級檢索及二次檢索,查全率查準率高,檢索結果還可依據相關度、訪問率、檢索時間等進行智能排序。除了檢索效率高外,并發用戶量及兼容能力也非常強大,由于完全不依賴各數字資源原有的檢索系統,適用范圍廣、穩定性非常好,但相對聯合檢索它的開發難度大、成本高,但效果最好。
目前,形成產品中大都是基于聯合檢索技術實現的,我國僅有國家科技圖書文獻中心、實施了浙江科技文獻共享平臺建設的北京九瑞公司等少數幾個機構憑借其雄厚實力和技術力量開發出真正意義上的整合檢索系統。
本文采用聯合檢索模式來實現跨庫檢索。
3跨庫檢索模型
跨庫檢索的目的是消除資源子空間引起的檢索障礙,使得分布式資源經過跨庫檢索系統的處理,成為一個虛擬的資源統一體[4]。用戶只需要在跨庫檢索網站設置好檢索參數后,就可以進行檢索了,具體的檢索過程由跨庫檢索系統負責。
?? 跨庫檢索系統模型是四層:客戶端,Web服務器,應用服務器和資源數據層。用戶只需要在客戶端設定好檢索信息后(包括檢索詞和資源選擇),利用HTTP協議發送檢索請求,檢索請求信息經Web服務器處理后傳輸到應用服務器后,在這里對檢索請求進行分析,然后通過HTTP、Z39.50、ODBC或JDBC等協議訪問資源數據庫,得到檢索結果后進行數據清理,然后以統一的數據形式傳到客戶端。很顯然,在這個模型中用戶只需要一次參數輸入,就可以得到在傳統檢索中多次檢索才能得到的檢索結果,檢索效率得到了很大的提高。
4 需求分析和系統建模
4.1跨庫檢索系統用戶功能需求分析
??? 異構數字資源跨庫檢索系統從功能上來說,主要是為文獻檢索用戶提供資源檢索和基于Web 2.0[5]元素的個性化服務,為管理員提供資源的配置維護,能夠調用其它系統訪問接口。可進一步細化為檢索子系統、管理子系統、用戶子系統和接口子系統。其功能需求結構圖如圖2。
4.2系統建模
采用UML2.0對系統建模[6],在跨庫檢索系統中系統角色主要是有交互作用的人或事物,系統角色為:文獻檢索用戶和管理員。文獻檢索用戶是文獻共享平臺客戶,包括個人用戶和集團用戶,進行文獻檢索的各種請求。管理員主要對系統進行維護配置工作。
用戶實例是在系統中執行的一系列動作,這些動作將生成特定參與者可見的結果。從系統本身來講,主要集中在用戶服務和系統管理兩個方面。進一步區分的話,可分為用戶檢索子系統和系統管理子系統,以下建立用戶檢索子系統用例圖。
5系統開發環境
Web及文獻網關應用服務器:Apache 2.0數據庫服務器:Microsoft SQL Server 2000
開發語言:PHP 5.0,Javascipt 2.0
中間件:Multibyte String:多字節編碼轉換工具
DOM XML:XML文件解析工具
Tidy:HTML向XHTML文件轉化、修復工具
Libcurl:多協議URL訪問工具
Soap:簡單對象訪問協議組件
6 基于XML的模版更新技術
在跨庫檢索系統對各資源數據庫進行處理之前,首先需要一種方法來描述各資源數據庫的配置信息,可以采用SQL SERVER 2000來存儲各數據庫的配置信息[7],也可以采用XML來描述。為了有效降低用戶維護難度,并能輕松實現導入導出描述模板,采用了基于XML的模版更新技術。
(1)資源描述模板
資源描述模板是對資源基本信息的描述性文件。
(2)資源訪問模板
資源訪問模板是指機器訪問源數據過程及參數的描述性文件。它針對數據庫廠商,多個資源描述模板可使用一個訪問模板,就廠商而言它的資源發布平臺是統一的,而不同的數據庫,可通過子庫來區分。
7 系統性能測試
??? 通過47599次用戶檢索的測試統計,用戶平均資源查詢訪問時間為4.35秒,小于業界公認用戶網頁查詢等待時間小于10秒[8]的要求。
| 資源數據庫 | 查詢次數(次) | 平均訪問時間(秒) |
| 維普中文科技期刊 | 17133 | 5.11 |
| 清華同方中國期刊 | 19829 | 3.67 |
| NSTL中文期刊 | 479 | 8.92 |
| 萬方中國標準 | 695 | 1.67 |
| 萬方中國科技成果 | 278 | 2.04 |
表1 查詢最頻繁的5個資源數據庫主要性能表
從表1可以看出,清華同方、重慶維普、萬方數據的平均檢索時間較短,而NSTL中文期刊的平均檢索時間較長,原因是前者都是鏡像庫,而后者是遠程訪問。
查詢最頻繁的前5個資源數據庫總訪問次數為38414次,占到了總訪問次數的80.7%,通過計算加權平均時間為5.32秒,總體反映出系統處理性能比較理想。
??? 加權平均時間 =(17133×5.11+19829×3.67+479×8.92+695×1.67+278×2.04)/38414≈ 5.32秒。
結語
基于Web2.0的異構數字資源跨庫檢索系統的研究開發有效地保障了圖書情報行業文獻共享平臺順利建設。本系統截至目前已投入中國石油科技文獻共享平臺、甘肅省科技文獻共享平臺[9]、青海省科技文獻共享平臺[10]、寧夏科技文獻共享平臺[11]進行運行,累計整合資源數據庫170個左右,系統已經基本實現產品化。但系統在設計實現上還存在一些不足,主要集中在以下幾個方面:
(1)檢索協議標準支持不廣泛
??? 在采用松散耦合技術實現跨庫檢索系統中,還有一些比較重要的協議,如Z39.50等,系統對于這些協議暫時還不支持,需要在下一步延續開發中逐步的完善。
??? (2)用戶個性化功能靈活度不夠
??? 系統雖然使用了主要的Web2.0元素進行用戶個性化服務,但本身受到了跨庫檢索系統功能的局限,在用戶使用的時候靈活度還是有所欠缺。
基于Web服務的跨庫聯合檢索畢竟是為了解決數據庫廠商的非規范的數據接口而產生的,基于標準和規范的資源數據庫訪問和檢索接口才是解決目前數字資源“信息孤島”[12]現象的有效途徑和手段,我國應該及早加強該類標準和規范的制定和強制推廣,使我國的數字圖書館建設早日完善。
參考文獻
[1] 黃鏑.異構數據庫的跨庫檢索技術綜述[J].圖書情報工作,2003,(6):94-97,109.
[2] 歐陽美林.數字圖書館新技術—整合技術的研究[EB/OL].[2008-08-19].
http://www.chnlib.com/zylwj/shuzitsg/200605/221.html.
[3] 曹方,施韶亭.基于Web過程模擬的異構數字文獻統一檢索系統設計與實現[J].情報學報, 2006,25(5):575-579.
[4] 朱虎明.數字圖書館中統一檢索系統的研究與開發[D].西安:西安電子科技大學,2004.
[5] 孫茜. Web2.0 的含義、特征與應用研究[J].現代情報,2006(2):69-70,74.
[6] 李云全,劉淑芬,申自浩.基于UML2.0的系統建模[J].河南理工大學學報(自然科學版),2007,26(5):555-558.
[7] 王權,施韶亭.基于PHP的統一檢索系統的設計與實現[J].蘭州理工大學學報,2008,34(1):91-94.
[8] 柳炳祥,盛昭翰.一種基于Web挖掘的網站性能評價方法[J].計算機工程與應用,2003,(4):189-191.
[9] 甘肅省科技文獻資源共享平臺[EB/OL].[2008-08-19].http://www.gsstd.cn.
[10] 青海省科技文獻資源共享平臺[EB/OL].[2008-08-19].http://www.textqh.com.
[11] 寧夏科技文獻資源共享平臺[EB/OL].[2008-08-19].http://www.nxkjwx.com.cn.
[12] 孫紅艷,白秀麗,劉偉東.信息整合:區域公共圖書館與社科院信息系統對接互動的新課題[J].圖書館建設,2003(4):116-117.
總結
以上是生活随笔為你收集整理的基于Web2.0的异构数字资源检索系统研究与开发的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无锡IATF16949认证_无锡IATF
- 下一篇: “英雄无敌”(一)