企业内容管理软件的核心技术及应用方向(计世网)
需求篇
信息激增催生內容管理
在當今信息爆炸的時代,信息每天都在以驚人的速度增長。有統計表明,來自交易中的數據每年增長的速度達到61%,而其他各種相關信息的每年增長率甚至超過92%。同時,信息的種類也在不斷地擴展,越來越多的非結構化信息不斷出現,包括企業的各種報表、賬單、電子文檔、網站的各種元素、圖片、傳真、掃描影像,以及大量的多媒體的音頻、視頻信息等等。而信息爆炸的背后,我們面臨的巨大挑戰是如何有序地存儲、管理并利用這些信息,尤其是對于那些大量的、非結構化的信息。如果一個企業無法將這些信息進行有系統地編目和管理,則隨之面臨的危機是不斷流失的生產力。另一個統計數字值得我們深思,企業員工為了完成自己的工作而用于尋找信息的時間平均占整個工作時間的30%,這等于將員工每周40個小時的工作時間縮減為28個小時。沒有一個公司允許員工每年用30%的時間去休假,然而現在,這是一個很多企業和組織不得不面對的現實。從另一方面,企業和組織也希望對這些信息有更多的控制,保障信息的安全,挖掘信息的價值。
在過去幾年中, 我們接觸過許多不同行業的客戶對于內容管理方面的各種需求, 并成功與客戶一起實施了許多企業內容管理應用。在我們試圖為企業內容管理明確一個定義之前,不妨讓我們從幾個實際的案例來分析客戶對于企業內容管理的需求。
用戶1:中國銀行廣州分行
中國銀行廣州分行,從1998年開始實施電子報表管理應用。而在此之前,所有的報表都是打印到紙張上,每年用于打印的開銷超過600萬人民幣。廣州中行在進行系統選型時要求,應用的平臺必須基于成熟的技術,支持開放的標準,可以支持從PC到Unix系統到AS/400到ES/9000等各種硬件平臺,支持存儲管理各個業務系統各種報表。系統要求具有工業化強度、可擴展性,適應中行的大集中模式。今天,基于內容管理平臺,中國銀行廣州分行的電子報表管理系統已經成功實施并經歷了三個發展階段,即從廣州市行擴展到廣東省行再擴展到華南區域中心。目前,該系統支持存儲管理華南中心下轄五省一市的來自各個業務系統(包括會計、零售、信用卡、信貸、消費信貸、國際結算、收付清算、 電話銀行、基金、中間業務、NETS、SCAN、EFT、BEPS、ATM、POS等)的394種報表,支持超過1000個用戶的并發訪問。通過多層級存儲管理,報表可以被自動遷移到光盤庫中保存15年或者永久保存。目前,中國銀行還希望基于該系統管理更多類型的內容,包括各種影像單證、OA系統的公文和電子文檔等。
用戶2:北京移動通信公司
北京移動通信公司需要提供話費詳單的多種服務渠道,包括郵寄、營業廳、1860、Internet等等,而原來每個服務渠道都有各自處理詳單的方式,造成系統壓力、響應時間、運營成本、客戶服務等多方面的問題。今天,基于IBM的內容管理軟件,北京移動成功實施了統一的詳單管理平臺,實現了詳單的海量存儲。通過高效壓縮,系統可以節省超過90%的存儲成本,而詳單的保存時間可以支持2年甚至更長的時間。即便在峰值時,查詢的時間也僅在1到2秒鐘。這樣一個統一的平臺目前可以支持營業廳、1860、Internet以及安全保衛部門等多渠道的詳單服務,在實現系統響應時間縮短、客戶服務質量提升的同時,還大大節省了運營的成本。在擴展性上,該系統可以很好地支持北京移動未來的個性化詳單服務要求。
用戶3:某圖書館
某圖書館的實驗型數字圖書館系統,需要發布6000張拓片,最初采用的方式是基于數據庫加上Web服務器進行自主開發。數據庫采用12個字段描述關于拓片的索引信息,而最后一個字段是URL地址,對應Web服務器的文件目錄、子目錄、文件名,每條記錄對應三個圖片,分別為150DPI的高分辨率JPEG圖、 75DPI的中分辨率JPEG圖以及拇指圖,這三張圖片都是從平均大小為7M左右的TIFF轉換得到的。該系統上線后,業務部門提出了很多新的需求,他們希望能夠通過層次存儲管理原始的TIFF圖片,能夠支持更復雜的層次型元數據描述,以提升拓片的價值;他們希望將系統從單純的圖片發布平臺擴展為拓片的專業研究平臺,可以增加關于拓片各種背景資料、專家研究文檔;希望支持工作流,以實現對拓片的專業化標引流程;通過水印等技術實現拓片信息的版權保護。系統本身也需要從底層解決元數據和拓片影像之間的一致性、完整性保障,保證系統的安全性;支持參量檢索、全文檢索等多渠道復合檢索方式?,F在,該圖書館已經開始通過內容管理軟件管理拓片、電子圖書、博士論文、音頻、視頻等各種多媒體數字資源,實施了八個數字資源子系統。
在上面的幾個案例中,我們談到了報表、賬單、影像、電子文檔、圖片、音頻、視頻等各種信息,這些信息都是非結構化的大對象,難以用傳統的關系型數據庫管理,我們將這些非結構化的信息稱為內容(Content)。而上述的各種客戶需求也反映了客戶對于內容管理系統的基本需求,包括基于成熟開放的技術、標準;支持各種硬件環境、提供從部門級應用到企業級應用的擴展;具有高可用性、安全性、工業化強度;支持多層級海量存儲管理、強大的開發能力;保證信息的一致性、完整性、靈活的數據模型、工作流、數字版權保護等等。
平臺是主流
明確了企業內容管理,認識到平臺的重要性,那么到底何處入手了解、掌握并開發出適合您的企業內容管理應用呢?最好的方式是從成熟商業軟件入手。
一個統一、完整、集成、開放、可擴展的內容管理架構應該包含以下內容:
我們就其中的一些重點技術做詳細的探討。
1、系統架構
對于任何平臺來說,良好的架構對于系統的重要性是不言而喻的,尤其是企業內容管理系統。內容管理平臺軟件需要考慮如何實現靈活高效的數據模型,如何設計各種語言的API接口,如何實現完善的訪問控制管理,以及如何架構系統的拓撲以完成數據遷移、緩存,如何支持PB級的存儲和上千的并發用戶。企業內容管理尤其需要考慮到未來的擴展能力,如何在最大化保護用戶現有投資的情況下,提供無限的可擴展空間。由于企業內容管理牽涉的范圍太廣,使得平臺在選擇技術時,必須使用大量的成熟穩定的技術,而且必須符合業界標準。此外,當這些技術發展時,企業內容管理平臺必須能夠支持這些新的技術以及新的標準。同時還要在技術、軟件、平臺本身升級時保護用戶先有的數據。
作為企業內容管理的廠商通常需要掌握數據庫、應用服務器、存儲等必需的核心技術。然后將這些技術整合在一起,以滿足用戶的需求。比如,下圖中的三角形架構是一種代表性架構,充分利用了各種軟件技術的優勢,設計出了高效、靈活、高擴展的企業內容管理平臺。該體系結構是由一個索引服務器、一個或多個資源管理器和一個或多個客戶程序構成的三角形客戶/服務器模型。
索引服務器(又稱圖書館服務器)負責存儲管理用戶安全控制信息和關于數字對象的元數據信息等。底層基于關系數據庫管理存儲所有的元數據信息、安全權限控制信息、用戶信息,并支持參量檢索、文本檢索、參量/文本混合檢索等多渠道檢索方式。
資源管理器負責存儲管理數字對象,支持從硬盤到磁帶庫、光盤庫的多層級存儲管理,支持從一個資源管理器到多個資源管理器的擴展。通過基于流媒體的媒體資源管理器支持對音頻、視頻信息的流媒體服務。
當用戶想獲取某內容對象時,客戶程序發送查詢請求至索引服務器,然后索引服務器返回搜索結果并將內容對象存儲的具體存儲位置加密形成安全對象令牌??蛻舳烁鶕饕掌靼l來的安全令牌發出獲取內容對象的請求至資源管理器,最后資源管理器響應并解析請求,并將內容對象直接返回至客戶端。這種方式可以保證“安全盡在控制,信息一站必達”。
在這個三角形架構下,可以支持多個分布式資源管理器,具有很好的擴展性。而客戶對系統的所有操作,包括增加、更新、刪除、提取等等,都通過統一的庫訪問協議完成,從而保證信息的一致性、完整性和安全性。
2、數據模型
數據模型的設計應該是企業內容管理中最有挑戰性的技術實現之一。數據模型的能力直接表現出一個企業內容管理平臺適應用戶需求的能力。在實施企業內容管理的初始階段,我們只能了解很少的一部分需求,如果我們設計數據模型時僅基于這些特定的需求,那么這個應用可能只能適應客戶當時的需求,而無法適應客戶的需求變化。在內容管理中,通常元數據越復雜,內容提升價值的潛力就越大。而豐富元數據的模型不是一蹴而就的,這就要求一個面向客戶內容管理的通用數據模型,以適應客戶不斷變化的需求,提升信息的價值。如下圖這個抽象的內容管理數據模型非常值得借鑒。
在這個模型中,在對一個內容進行描述時,支持多層級的元數據模型,支持對各種復合文檔的精確描述,可以對同一文檔中不同的資源對象實施不同的處理和控制;該模型也可以靈活地描述內容和內容之間的關系以及內容在使用中的工作狀態。而圖形化的建模工具以及支持建模的API可以幫助方便客戶和應用開發商通過不同方式快速建模并進行調整。現在,某些行業已經開始定制行業元數據標準來描述復雜的需求,例如數字圖書館行業和廣電行業開始基于都柏林元數據定制自己行業的多層級元數據標準,并以XML描述。XML與通常的關系型數據庫不同之處在于其數據是有結構的,并且可能在同一個Tag下包含多值。如上圖所示的元數據模型可以方便地支持從XML文件向內容管理數據模型的轉換。在描述不同內容之間的關系時,準許用戶在初始模型建立時或者在使用過程中隨時建立鏈接(Link)、數據庫外鍵和引用屬性(引用屬性是一種可以將一個字段變成指向另一條記錄的指針)。這是一種可以將系統中任意兩個記錄關聯在一起的方法,不管這兩條記錄在數據模型上是否相似,也無論他們是否已經和其他記錄建立了鏈接關系,從而為客戶建立描述內容的組織方式提供了便利的條件。出于性能和穩定考慮,目前基于關系型數據庫還是保存元數據最好的手段。未來的趨勢是越來越加強對XML的支持,包括對XML數據庫的支持。
3、檢索查詢
對于企業內容管理的最終用戶來說,如何高效準確地找到自己所需要的資源是首要課題。尤其是企業內容管理的數據模型逐漸復雜、來源更加多樣化,使得檢索查詢就變得更加重要,同時也變得非常困難。因此企業內容管理系統需要支持標準,支持多渠道復合檢索以及查詢優化。
用戶可以實現在對單一系統的查詢,也可以使用信息集成技術,完成一次檢索對多個數據源的查詢。
從數據模型的分析上得出,企業內容管理系統的元數據可以非常復雜。例如各種基于XML的元數據標準,其定義都極其詳細。舉例來說,廣電標準數據模型規定了廣播電視音像資料編目著錄項目和規則,適用于廣播電視音像資料的編目著錄,將主要用于廣播電視音像資料的收藏、管理、檢索、資料獲取,具有實用、簡單、靈活、易轉換、可擴展等特性。這個數據模型,包括了4級信息,每個級別的信息包括15大屬性,屬性里面又包括多個子屬性,很多屬性則是用多值的方式實現的。這樣的模型創建后,需要一個簡單、強大且基于標準的檢索方式,而查詢中可能會涉及到元數據參量查詢、元數據的全文檢索、文本對象的全文檢索等復合檢索等等,單純使用關系型數據庫的SQL語言很難滿足這種多渠道檢索的需求。對XML查詢的支持是業界普遍采用技術基礎。例如有的產品從XQuery和XPath上設計出了非常好的查詢方法。IBMContentManager通過查詢解析器,將用戶的查詢重新處理,并進行優化,然后向底層的數據庫發出查詢語句。這種被稱為XQPE(XQueryPathExpressions)的查詢語言可以完全闡釋所有可能用到的數據模型,并且使用簡單,高效。
在內容管理平臺中,除了對關系型數據庫的元數據進行參量檢索外,對元數據以及文本對象的全文檢索也是非常重要的。所謂全文檢索(FullTextSearch),通常是指對文字型的處理對象,根據數據資料的內容,而不是根據外在特征來實現的信息檢索手段。例如,IBMContentManager可以在文本正文及文本字段屬性上建立全文搜索。全文索引是對字的檢索。另外還有一個概念是智能檢索,或者稱為TokenSearch,這是基于詞的檢索,涉及到分詞、對詞的概念和意圖分析等等。
需要注意的是,全文檢索查詢,尤其是中文智能檢索只是內容管理系統中的一種檢索方式。現在有很多誤導的信息,試圖將“全文檢索”、“中文智能檢索”曲解成內容管理??蛻魧嵤┝诉@種“內容管理”系統后,肯定無法達到預先的期望。因為單純的全文搜索引擎無法完成客戶對內容的管理需求。而且,單純的全文搜索引擎不能有效地與關系型數據庫的結構化息集成,在整合檢索時的效率也是必須注意的問題。
4、內容管理的API
為了更好支持在企業內容管理平臺上快速開發出滿足用戶需求的應用,內容管理平臺必須提供出完整的API以滿足各種客戶端的開發。完整的API支持是區別企業內容管理平臺和一般的內容管理應用重要依據。通過企業內容管理平臺提供的API,廠商可以開發出面向各種不同客戶需求的垂直應用,也可以支持應用開發商和客戶開發自己的內容管理應用。因此,如何設計好API就成為關鍵的問題。做過軟件的朋友可能都有體會,做一個應用不難,但是做一個平臺非常難,其中的一個原因就是需要為使用者提供出完整的API。這些API既要保證體現平臺所有的功能,又要盡量遵循標準。只有遵循業界標準,才可以保證開發人員容易上手,應用容易移植。但是,與關系型數據庫這種成熟的平臺不同,內容管理平臺還處在發展階段,并沒有像關系型數據庫那樣有JDBC和ODBC等成熟的標準。JSR170(ContentRepositoryAPIforJava)、XQuery(XMLQueryLanguage)和JSR225(XQueryAPIforJava)等都是企業內容管理的候選標準。只是目前這些標準還無法完全滿足客戶需求,所以必須基于這些標準進行擴展。
5、工作流
在企業內容管理軟件中,工作流是必須考慮的要素。通常實現工作流的方法有兩個不同層面,一個層面是使用軟件內置的工作流,支持在單一系統內部的工作流。這種工作流簡單易用,使用成本低,而且效率很高。
另一層面則是基于第三方的工作流引擎,為企業搭建企業工作流程管理的總線,實現跨不同系統的企業工作流程管理。
在企業內容管理軟件中,還有很多因素都是需要考慮并值得關注的。例如對于內容的版權保護、數字水印;安全認證和權限管理;捕獲和創建的方式;以及計算機輸出管理、電子記錄的管理(RecordManager)、流媒體服務等等。因為篇幅的關系,這里就不在一一詳述了。
從上面的技術淺析,我們可以看到,內容管理已經從當年的“特殊應用管理內容”到“特定領域的內容管理系統”發展成今天的“通用企業內容管理平臺”了。企業和組織也迫切需要將內部的各種內容進行有序管理、挖掘信息的價值,并支持前端不同的應用。統一性、完整性、集成性、開放性、可擴展性、技術成熟度以及標準支持是進行企業內容管理系統選型的重要因素,也是快速啟動內容管理的垂直應用并使之不斷擴展的基礎。
多層次展示
由于內容管理解決方案種類比較繁多,我們僅從中選擇了幾款主流的軟件給用戶參考。
IBM DB2內容管理解決方案
IBM DB2內容管理家族是一套全面的企業級內容管理集成軟件解決方案,它提供了在Intranet或Internet上立即訪問文檔信息的能力,可以有效地保證所需要的文檔并按照正確的工作流程在正確的時間提供給正確的使用人員。該方案具有實時和無縫訪問數字化、索引化內容的能力,因而公司內外的合法用戶都能獲得最高的信息使用效率,而不是把時間浪費在信息搜索上。
作為IBM企業內容管理系列產品的一個關鍵組成部分,IBM DB2 Content Manager(內容管理器,CM)是下一代企業信息集成基礎設施。其功能支持事務處理、安全性、流程集成和生命周期管理。內容管理器在單一、開放式的體系架構中處理所有類型數字化內容的管理、共享、重用和存檔。內容管理器支持基于HTML和XML的Web內容、圖象、電子辦公文件、視頻和音頻等多媒體數據。為了強化這些功能,內容管理器增加了DB2 Content Manager OnDemand,這是一種電子化報表管理和電子賬單解決方案,能夠大量捕獲計算機的輸出結果。
DB2 Content Manager OnDemand支持高性能的自動化捕獲、索引、歸檔、搜索、讀取、展示和重新制作計算機生成的文檔 /報表,以及其他的企業相關文檔。通過該產品,用戶可以削減紙張、膠片或磁性存儲設備的費用;通過按需讀取和展示來改進信息的管理;自動管理報表的存儲需求,支持硬盤、光學和磁帶存儲設備。
Interwoven 6
Interwoven公司日前最新發布的內容管理平臺Interwoven 6平臺不僅應用涵蓋廣泛,通過Interwoven的旗艦產品TeamSite 6.0內容服務平臺,使內容管理能夠貫穿整個企業;而且其行業解決方案致力于提供行業性的應用,包括銷售、服務、IT和市場機構等多方面商業挑戰的解決方案;在業務拓展領域,基于Interwoven 6可開發滿足企業內容管理相關的內部及外部應用需求。
Interwoven 6是向所有企業現有的數據資源“開放”的內容管理平臺,它能夠“動態”地同時處理編碼和內容,“靈活”地智能濃縮來源于元數據的內容,“迅捷”地利用其特有的專利技術和基于標準的組件。它是定位于為企業需求而設計的內容管理平臺,以TeamSite 6.0內容服務器(TeamSite 6.0 Content Server)為基礎。TeamSite 6.0引進了突破性的用戶體驗ContentCenter,為用戶能夠迅捷簡易地使用而專門設計。ContentCenter使所有的用戶能夠在內容方面做出貢獻和協作,包括商業投資者、商業管理用戶和技術開發者。
Interwoven 6還能提供一個全新的用戶化架構——ContentServices UI Toolkit,使得為ContentCenter契合的用戶化得以解決,如同定制完全客戶化的界面。 Interwoven 6提供行業內第一個基于服務導向架構(Services Oriented Architecture)的內容管理。Interwoven ContentServices SDK 2.0使企業商務應用軟件能夠更加迅捷、靈活地銜接。
微軟Content Management Server
微軟 Content Management Server是一種允許企業快速、高效的建立、部署并維護高度動態化Internet、企業內部網絡及企業外部網絡Web站點的企業級Web內容管理系統。
該產品是用于管理企業級Web內容的全面系統,允許內容提供者創建、管理并發布其自己的內容,同時允許IT部門快速部署具備伸縮能力的動態站點。 通過企業級Web站點針對多種訪問者、設備及目的提供動態內容。相關內容的個性化特性能夠確保為潛在客戶、客戶、企業員工及商務合作伙伴提供積極的用戶體驗,幫助用戶部署企業級可伸縮性動態電子商務Web站點,并實現比其他任何Web內容管理產品都要明顯加快的投資回報。
TRS內容管理解決方案
TRS是國內中文內容管理的推動者,致力于開發領先的內容管理技術基礎設施和應用產品,目標是成為中文內容管理領域技術和市場的領導者。
TRS內容管理解決方案以XML和JAVA為基本標準,其全能信息檢索和中文知識管理技術是TRS內容管理產品的核心競爭優勢,TRS能夠全面滿足內容采集、內容創建、內容傳遞和內容分析完整價值鏈管理的集成化產品。TRS 內容管理解決方案是企業內容管理(ECM)、網站內容管理(WCM)和電子商務內容管理的利器。TRS產品系列包括從數字圖書館資源整合門戶、內容協作平臺、全能內容檢索系統、網絡信息雷達系統等涵蓋企業內容管理應用多個層面。
其中TRS內容檢索服務器突破了傳統全文檢索和網頁搜索引擎的種種局限,是基于知識的智能內容檢索系統。TRS全能內容檢索系統,采用TRS具有先進水平的信息檢索和中文自然語言處理研究成果,具有優秀的檢索效果和查詢性能,是信息檢索的技術和市場領導者之一。
讓非結構化數據“結構化”?
潘永花
咱們且不用說企業,就是個人,我們也有各種各樣的“非結構化數據”,每個人都會擁有大量的Word、Excel、Powerpoint文檔以及各種音頻、視頻文件,還有每天都收到的大量郵件,可這些東西如果不進行及時整理,日積月累之后,我們往往再查找其中對自己有用的信息,就要頗費一番工夫。網絡的迅猛發展給這些信息的傳播制造了優厚條件,隨著企業無紙化辦公水平的提高,它們所擁有的這種非結構化數據更是數不勝數。記者曾經采訪一個銀行的用戶,它們在采用內容管理軟件之前每年花費在紙張上的費用高達1500萬,而在實現公文流轉通過網絡進行,通過內容管理軟件對之進行有效管理之后,1500萬的花費就可以完全節省下來。
雖然我們談了很多內容管理軟件帶來的好處,但企業級內容管理技術目前還不是很成熟。我們知道用來管理結構化數據的關系數據庫從理論到技術上經歷了數年發展,已經相當成熟,而非結構化數據的復雜程度遠遠高于結構化數據,所以內容管理技術還存在很多有待解決的難題,比如,如何很好地解決多種異構數據源的存儲和查詢就是其中的關鍵問題。雖然有人認為將來XML數據庫將能比較好地解決非結構化數據的管理問題,但將現有文檔映射到XML文檔的工作才剛剛開始,XML查詢語言也遠不如SQL成熟,我們曾經目睹的面向對象數據庫的失敗更給XML數據庫敲響了警鐘。將XML以及其他內容管理技術與關系數據庫的結合可能將會是一條主流道路。同時,內容管理軟件應用層面往往不會孤軍奮戰,它還需要與企業門戶、協作軟件、企業應用集成這些技術緊密結合在一起。將非結構化的數據實現“結構化”管理正在走進我們,但要想成為如同關系數據庫一樣成為主流,還是一條漫漫長路。
由于內容管理解決方案種類比較繁多,我們僅從中選擇了幾款主流的軟件給用戶參考。
IBM DB2內容管理解決方案
IBM DB2內容管理家族是一套全面的企業級內容管理集成軟件解決方案,它提供了在Intranet或Internet上立即訪問文檔信息的能力,可以有效地保證所需要的文檔并按照正確的工作流程在正確的時間提供給正確的使用人員。該方案具有實時和無縫訪問數字化、索引化內容的能力,因而公司內外的合法用戶都能獲得最高的信息使用效率,而不是把時間浪費在信息搜索上。
作為IBM企業內容管理系列產品的一個關鍵組成部分,IBM DB2 Content Manager(內容管理器,CM)是下一代企業信息集成基礎設施。其功能支持事務處理、安全性、流程集成和生命周期管理。內容管理器在單一、開放式的體系架構中處理所有類型數字化內容的管理、共享、重用和存檔。內容管理器支持基于HTML和XML的Web內容、圖象、電子辦公文件、視頻和音頻等多媒體數據。為了強化這些功能,內容管理器增加了DB2 Content Manager OnDemand,這是一種電子化報表管理和電子賬單解決方案,能夠大量捕獲計算機的輸出結果。
DB2 Content Manager OnDemand支持高性能的自動化捕獲、索引、歸檔、搜索、讀取、展示和重新制作計算機生成的文檔 /報表,以及其他的企業相關文檔。通過該產品,用戶可以削減紙張、膠片或磁性存儲設備的費用;通過按需讀取和展示來改進信息的管理;自動管理報表的存儲需求,支持硬盤、光學和磁帶存儲設備。
Interwoven 6
Interwoven公司日前最新發布的內容管理平臺Interwoven 6平臺不僅應用涵蓋廣泛,通過Interwoven的旗艦產品TeamSite 6.0內容服務平臺,使內容管理能夠貫穿整個企業;而且其行業解決方案致力于提供行業性的應用,包括銷售、服務、IT和市場機構等多方面商業挑戰的解決方案;在業務拓展領域,基于Interwoven 6可開發滿足企業內容管理相關的內部及外部應用需求。
Interwoven 6是向所有企業現有的數據資源“開放”的內容管理平臺,它能夠“動態”地同時處理編碼和內容,“靈活”地智能濃縮來源于元數據的內容,“迅捷”地利用其特有的專利技術和基于標準的組件。它是定位于為企業需求而設計的內容管理平臺,以TeamSite 6.0內容服務器(TeamSite 6.0 Content Server)為基礎。TeamSite 6.0引進了突破性的用戶體驗ContentCenter,為用戶能夠迅捷簡易地使用而專門設計。ContentCenter使所有的用戶能夠在內容方面做出貢獻和協作,包括商業投資者、商業管理用戶和技術開發者。
Interwoven 6還能提供一個全新的用戶化架構——ContentServices UI Toolkit,使得為ContentCenter契合的用戶化得以解決,如同定制完全客戶化的界面。 Interwoven 6提供行業內第一個基于服務導向架構(Services Oriented Architecture)的內容管理。Interwoven ContentServices SDK 2.0使企業商務應用軟件能夠更加迅捷、靈活地銜接。
微軟Content Management Server
微軟 Content Management Server是一種允許企業快速、高效的建立、部署并維護高度動態化Internet、企業內部網絡及企業外部網絡Web站點的企業級Web內容管理系統。
該產品是用于管理企業級Web內容的全面系統,允許內容提供者創建、管理并發布其自己的內容,同時允許IT部門快速部署具備伸縮能力的動態站點。 通過企業級Web站點針對多種訪問者、設備及目的提供動態內容。相關內容的個性化特性能夠確保為潛在客戶、客戶、企業員工及商務合作伙伴提供積極的用戶體驗,幫助用戶部署企業級可伸縮性動態電子商務Web站點,并實現比其他任何Web內容管理產品都要明顯加快的投資回報。
TRS內容管理解決方案
TRS是國內中文內容管理的推動者,致力于開發領先的內容管理技術基礎設施和應用產品,目標是成為中文內容管理領域技術和市場的領導者。
TRS內容管理解決方案以XML和JAVA為基本標準,其全能信息檢索和中文知識管理技術是TRS內容管理產品的核心競爭優勢,TRS能夠全面滿足內容采集、內容創建、內容傳遞和內容分析完整價值鏈管理的集成化產品。TRS 內容管理解決方案是企業內容管理(ECM)、網站內容管理(WCM)和電子商務內容管理的利器。TRS產品系列包括從數字圖書館資源整合門戶、內容協作平臺、全能內容檢索系統、網絡信息雷達系統等涵蓋企業內容管理應用多個層面。
其中TRS內容檢索服務器突破了傳統全文檢索和網頁搜索引擎的種種局限,是基于知識的智能內容檢索系統。TRS全能內容檢索系統,采用TRS具有先進水平的信息檢索和中文自然語言處理研究成果,具有優秀的檢索效果和查詢性能,是信息檢索的技術和市場領導者之一。
讓非結構化數據“結構化”?
潘永花
咱們且不用說企業,就是個人,我們也有各種各樣的“非結構化數據”,每個人都會擁有大量的Word、Excel、Powerpoint文檔以及各種音頻、視頻文件,還有每天都收到的大量郵件,可這些東西如果不進行及時整理,日積月累之后,我們往往再查找其中對自己有用的信息,就要頗費一番工夫。網絡的迅猛發展給這些信息的傳播制造了優厚條件,隨著企業無紙化辦公水平的提高,它們所擁有的這種非結構化數據更是數不勝數。記者曾經采訪一個銀行的用戶,它們在采用內容管理軟件之前每年花費在紙張上的費用高達1500萬,而在實現公文流轉通過網絡進行,通過內容管理軟件對之進行有效管理之后,1500萬的花費就可以完全節省下來。
雖然我們談了很多內容管理軟件帶來的好處,但企業級內容管理技術目前還不是很成熟。我們知道用來管理結構化數據的關系數據庫從理論到技術上經歷了數年發展,已經相當成熟,而非結構化數據的復雜程度遠遠高于結構化數據,所以內容管理技術還存在很多有待解決的難題,比如,如何很好地解決多種異構數據源的存儲和查詢就是其中的關鍵問題。雖然有人認為將來XML數據庫將能比較好地解決非結構化數據的管理問題,但將現有文檔映射到XML文檔的工作才剛剛開始,XML查詢語言也遠不如SQL成熟,我們曾經目睹的面向對象數據庫的失敗更給XML數據庫敲響了警鐘。將XML以及其他內容管理技術與關系數據庫的結合可能將會是一條主流道路。同時,內容管理軟件應用層面往往不會孤軍奮戰,它還需要與企業門戶、協作軟件、企業應用集成這些技術緊密結合在一起。將非結構化的數據實現“結構化”管理正在走進我們,但要想成為如同關系數據庫一樣成為主流,還是一條漫漫長路。
明確了企業內容管理,認識到平臺的重要性,那么到底何處入手了解、掌握并開發出適合您的企業內容管理應用呢?最好的方式是從成熟商業軟件入手。
一個統一、完整、集成、開放、可擴展的內容管理架構應該包含以下內容:
我們就其中的一些重點技術做詳細的探討。
1、系統架構
對于任何平臺來說,良好的架構對于系統的重要性是不言而喻的,尤其是企業內容管理系統。內容管理平臺軟件需要考慮如何實現靈活高效的數據模型,如何設計各種語言的API接口,如何實現完善的訪問控制管理,以及如何架構系統的拓撲以完成數據遷移、緩存,如何支持PB級的存儲和上千的并發用戶。企業內容管理尤其需要考慮到未來的擴展能力,如何在最大化保護用戶現有投資的情況下,提供無限的可擴展空間。由于企業內容管理牽涉的范圍太廣,使得平臺在選擇技術時,必須使用大量的成熟穩定的技術,而且必須符合業界標準。此外,當這些技術發展時,企業內容管理平臺必須能夠支持這些新的技術以及新的標準。同時還要在技術、軟件、平臺本身升級時保護用戶先有的數據。
作為企業內容管理的廠商通常需要掌握數據庫、應用服務器、存儲等必需的核心技術。然后將這些技術整合在一起,以滿足用戶的需求。比如,下圖中的三角形架構是一種代表性架構,充分利用了各種軟件技術的優勢,設計出了高效、靈活、高擴展的企業內容管理平臺。該體系結構是由一個索引服務器、一個或多個資源管理器和一個或多個客戶程序構成的三角形客戶/服務器模型。
索引服務器(又稱圖書館服務器)負責存儲管理用戶安全控制信息和關于數字對象的元數據信息等。底層基于關系數據庫管理存儲所有的元數據信息、安全權限控制信息、用戶信息,并支持參量檢索、文本檢索、參量/文本混合檢索等多渠道檢索方式。
資源管理器負責存儲管理數字對象,支持從硬盤到磁帶庫、光盤庫的多層級存儲管理,支持從一個資源管理器到多個資源管理器的擴展。通過基于流媒體的媒體資源管理器支持對音頻、視頻信息的流媒體服務。
當用戶想獲取某內容對象時,客戶程序發送查詢請求至索引服務器,然后索引服務器返回搜索結果并將內容對象存儲的具體存儲位置加密形成安全對象令牌。客戶端根據索引服務器發來的安全令牌發出獲取內容對象的請求至資源管理器,最后資源管理器響應并解析請求,并將內容對象直接返回至客戶端。這種方式可以保證“安全盡在控制,信息一站必達”。
在這個三角形架構下,可以支持多個分布式資源管理器,具有很好的擴展性。而客戶對系統的所有操作,包括增加、更新、刪除、提取等等,都通過統一的庫訪問協議完成,從而保證信息的一致性、完整性和安全性。
2、數據模型
數據模型的設計應該是企業內容管理中最有挑戰性的技術實現之一。數據模型的能力直接表現出一個企業內容管理平臺適應用戶需求的能力。在實施企業內容管理的初始階段,我們只能了解很少的一部分需求,如果我們設計數據模型時僅基于這些特定的需求,那么這個應用可能只能適應客戶當時的需求,而無法適應客戶的需求變化。在內容管理中,通常元數據越復雜,內容提升價值的潛力就越大。而豐富元數據的模型不是一蹴而就的,這就要求一個面向客戶內容管理的通用數據模型,以適應客戶不斷變化的需求,提升信息的價值。如下圖這個抽象的內容管理數據模型非常值得借鑒。
在這個模型中,在對一個內容進行描述時,支持多層級的元數據模型,支持對各種復合文檔的精確描述,可以對同一文檔中不同的資源對象實施不同的處理和控制;該模型也可以靈活地描述內容和內容之間的關系以及內容在使用中的工作狀態。而圖形化的建模工具以及支持建模的API可以幫助方便客戶和應用開發商通過不同方式快速建模并進行調整。現在,某些行業已經開始定制行業元數據標準來描述復雜的需求,例如數字圖書館行業和廣電行業開始基于都柏林元數據定制自己行業的多層級元數據標準,并以XML描述。XML與通常的關系型數據庫不同之處在于其數據是有結構的,并且可能在同一個Tag下包含多值。如上圖所示的元數據模型可以方便地支持從XML文件向內容管理數據模型的轉換。在描述不同內容之間的關系時,準許用戶在初始模型建立時或者在使用過程中隨時建立鏈接(Link)、數據庫外鍵和引用屬性(引用屬性是一種可以將一個字段變成指向另一條記錄的指針)。這是一種可以將系統中任意兩個記錄關聯在一起的方法,不管這兩條記錄在數據模型上是否相似,也無論他們是否已經和其他記錄建立了鏈接關系,從而為客戶建立描述內容的組織方式提供了便利的條件。出于性能和穩定考慮,目前基于關系型數據庫還是保存元數據最好的手段。未來的趨勢是越來越加強對XML的支持,包括對XML數據庫的支持。
3、檢索查詢
對于企業內容管理的最終用戶來說,如何高效準確地找到自己所需要的資源是首要課題。尤其是企業內容管理的數據模型逐漸復雜、來源更加多樣化,使得檢索查詢就變得更加重要,同時也變得非常困難。因此企業內容管理系統需要支持標準,支持多渠道復合檢索以及查詢優化。
用戶可以實現在對單一系統的查詢,也可以使用信息集成技術,完成一次檢索對多個數據源的查詢。
從數據模型的分析上得出,企業內容管理系統的元數據可以非常復雜。例如各種基于XML的元數據標準,其定義都極其詳細。舉例來說,廣電標準數據模型規定了廣播電視音像資料編目著錄項目和規則,適用于廣播電視音像資料的編目著錄,將主要用于廣播電視音像資料的收藏、管理、檢索、資料獲取,具有實用、簡單、靈活、易轉換、可擴展等特性。這個數據模型,包括了4級信息,每個級別的信息包括15大屬性,屬性里面又包括多個子屬性,很多屬性則是用多值的方式實現的。這樣的模型創建后,需要一個簡單、強大且基于標準的檢索方式,而查詢中可能會涉及到元數據參量查詢、元數據的全文檢索、文本對象的全文檢索等復合檢索等等,單純使用關系型數據庫的SQL語言很難滿足這種多渠道檢索的需求。對XML查詢的支持是業界普遍采用技術基礎。例如有的產品從XQuery和XPath上設計出了非常好的查詢方法。IBMContentManager通過查詢解析器,將用戶的查詢重新處理,并進行優化,然后向底層的數據庫發出查詢語句。這種被稱為XQPE(XQueryPathExpressions)的查詢語言可以完全闡釋所有可能用到的數據模型,并且使用簡單,高效。
在內容管理平臺中,除了對關系型數據庫的元數據進行參量檢索外,對元數據以及文本對象的全文檢索也是非常重要的。所謂全文檢索(FullTextSearch),通常是指對文字型的處理對象,根據數據資料的內容,而不是根據外在特征來實現的信息檢索手段。例如,IBMContentManager可以在文本正文及文本字段屬性上建立全文搜索。全文索引是對字的檢索。另外還有一個概念是智能檢索,或者稱為TokenSearch,這是基于詞的檢索,涉及到分詞、對詞的概念和意圖分析等等。
需要注意的是,全文檢索查詢,尤其是中文智能檢索只是內容管理系統中的一種檢索方式?,F在有很多誤導的信息,試圖將“全文檢索”、“中文智能檢索”曲解成內容管理。客戶實施了這種“內容管理”系統后,肯定無法達到預先的期望。因為單純的全文搜索引擎無法完成客戶對內容的管理需求。而且,單純的全文搜索引擎不能有效地與關系型數據庫的結構化息集成,在整合檢索時的效率也是必須注意的問題。
4、內容管理的API
為了更好支持在企業內容管理平臺上快速開發出滿足用戶需求的應用,內容管理平臺必須提供出完整的API以滿足各種客戶端的開發。完整的API支持是區別企業內容管理平臺和一般的內容管理應用重要依據。通過企業內容管理平臺提供的API,廠商可以開發出面向各種不同客戶需求的垂直應用,也可以支持應用開發商和客戶開發自己的內容管理應用。因此,如何設計好API就成為關鍵的問題。做過軟件的朋友可能都有體會,做一個應用不難,但是做一個平臺非常難,其中的一個原因就是需要為使用者提供出完整的API。這些API既要保證體現平臺所有的功能,又要盡量遵循標準。只有遵循業界標準,才可以保證開發人員容易上手,應用容易移植。但是,與關系型數據庫這種成熟的平臺不同,內容管理平臺還處在發展階段,并沒有像關系型數據庫那樣有JDBC和ODBC等成熟的標準。JSR170(ContentRepositoryAPIforJava)、XQuery(XMLQueryLanguage)和JSR225(XQueryAPIforJava)等都是企業內容管理的候選標準。只是目前這些標準還無法完全滿足客戶需求,所以必須基于這些標準進行擴展。
5、工作流
在企業內容管理軟件中,工作流是必須考慮的要素。通常實現工作流的方法有兩個不同層面,一個層面是使用軟件內置的工作流,支持在單一系統內部的工作流。這種工作流簡單易用,使用成本低,而且效率很高。
另一層面則是基于第三方的工作流引擎,為企業搭建企業工作流程管理的總線,實現跨不同系統的企業工作流程管理。
在企業內容管理軟件中,還有很多因素都是需要考慮并值得關注的。例如對于內容的版權保護、數字水印;安全認證和權限管理;捕獲和創建的方式;以及計算機輸出管理、電子記錄的管理(RecordManager)、流媒體服務等等。因為篇幅的關系,這里就不在一一詳述了。
從上面的技術淺析,我們可以看到,內容管理已經從當年的“特殊應用管理內容”到“特定領域的內容管理系統”發展成今天的“通用企業內容管理平臺”了。企業和組織也迫切需要將內部的各種內容進行有序管理、挖掘信息的價值,并支持前端不同的應用。統一性、完整性、集成性、開放性、可擴展性、技術成熟度以及標準支持是進行企業內容管理系統選型的重要因素,也是快速啟動內容管理的垂直應用并使之不斷擴展的基礎。
多層次展示
由于內容管理解決方案種類比較繁多,我們僅從中選擇了幾款主流的軟件給用戶參考。
IBM DB2內容管理解決方案
IBM DB2內容管理家族是一套全面的企業級內容管理集成軟件解決方案,它提供了在Intranet或Internet上立即訪問文檔信息的能力,可以有效地保證所需要的文檔并按照正確的工作流程在正確的時間提供給正確的使用人員。該方案具有實時和無縫訪問數字化、索引化內容的能力,因而公司內外的合法用戶都能獲得最高的信息使用效率,而不是把時間浪費在信息搜索上。
作為IBM企業內容管理系列產品的一個關鍵組成部分,IBM DB2 Content Manager(內容管理器,CM)是下一代企業信息集成基礎設施。其功能支持事務處理、安全性、流程集成和生命周期管理。內容管理器在單一、開放式的體系架構中處理所有類型數字化內容的管理、共享、重用和存檔。內容管理器支持基于HTML和XML的Web內容、圖象、電子辦公文件、視頻和音頻等多媒體數據。為了強化這些功能,內容管理器增加了DB2 Content Manager OnDemand,這是一種電子化報表管理和電子賬單解決方案,能夠大量捕獲計算機的輸出結果。
DB2 Content Manager OnDemand支持高性能的自動化捕獲、索引、歸檔、搜索、讀取、展示和重新制作計算機生成的文檔 /報表,以及其他的企業相關文檔。通過該產品,用戶可以削減紙張、膠片或磁性存儲設備的費用;通過按需讀取和展示來改進信息的管理;自動管理報表的存儲需求,支持硬盤、光學和磁帶存儲設備。
Interwoven 6
Interwoven公司日前最新發布的內容管理平臺Interwoven 6平臺不僅應用涵蓋廣泛,通過Interwoven的旗艦產品TeamSite 6.0內容服務平臺,使內容管理能夠貫穿整個企業;而且其行業解決方案致力于提供行業性的應用,包括銷售、服務、IT和市場機構等多方面商業挑戰的解決方案;在業務拓展領域,基于Interwoven 6可開發滿足企業內容管理相關的內部及外部應用需求。
Interwoven 6是向所有企業現有的數據資源“開放”的內容管理平臺,它能夠“動態”地同時處理編碼和內容,“靈活”地智能濃縮來源于元數據的內容,“迅捷”地利用其特有的專利技術和基于標準的組件。它是定位于為企業需求而設計的內容管理平臺,以TeamSite 6.0內容服務器(TeamSite 6.0 Content Server)為基礎。TeamSite 6.0引進了突破性的用戶體驗ContentCenter,為用戶能夠迅捷簡易地使用而專門設計。ContentCenter使所有的用戶能夠在內容方面做出貢獻和協作,包括商業投資者、商業管理用戶和技術開發者。
Interwoven 6還能提供一個全新的用戶化架構——ContentServices UI Toolkit,使得為ContentCenter契合的用戶化得以解決,如同定制完全客戶化的界面。 Interwoven 6提供行業內第一個基于服務導向架構(Services Oriented Architecture)的內容管理。Interwoven ContentServices SDK 2.0使企業商務應用軟件能夠更加迅捷、靈活地銜接。
微軟Content Management Server
微軟 Content Management Server是一種允許企業快速、高效的建立、部署并維護高度動態化Internet、企業內部網絡及企業外部網絡Web站點的企業級Web內容管理系統。
該產品是用于管理企業級Web內容的全面系統,允許內容提供者創建、管理并發布其自己的內容,同時允許IT部門快速部署具備伸縮能力的動態站點。 通過企業級Web站點針對多種訪問者、設備及目的提供動態內容。相關內容的個性化特性能夠確保為潛在客戶、客戶、企業員工及商務合作伙伴提供積極的用戶體驗,幫助用戶部署企業級可伸縮性動態電子商務Web站點,并實現比其他任何Web內容管理產品都要明顯加快的投資回報。
TRS內容管理解決方案
TRS是國內中文內容管理的推動者,致力于開發領先的內容管理技術基礎設施和應用產品,目標是成為中文內容管理領域技術和市場的領導者。
TRS內容管理解決方案以XML和JAVA為基本標準,其全能信息檢索和中文知識管理技術是TRS內容管理產品的核心競爭優勢,TRS能夠全面滿足內容采集、內容創建、內容傳遞和內容分析完整價值鏈管理的集成化產品。TRS 內容管理解決方案是企業內容管理(ECM)、網站內容管理(WCM)和電子商務內容管理的利器。TRS產品系列包括從數字圖書館資源整合門戶、內容協作平臺、全能內容檢索系統、網絡信息雷達系統等涵蓋企業內容管理應用多個層面。
其中TRS內容檢索服務器突破了傳統全文檢索和網頁搜索引擎的種種局限,是基于知識的智能內容檢索系統。TRS全能內容檢索系統,采用TRS具有先進水平的信息檢索和中文自然語言處理研究成果,具有優秀的檢索效果和查詢性能,是信息檢索的技術和市場領導者之一。
讓非結構化數據“結構化”?
潘永花
咱們且不用說企業,就是個人,我們也有各種各樣的“非結構化數據”,每個人都會擁有大量的Word、Excel、Powerpoint文檔以及各種音頻、視頻文件,還有每天都收到的大量郵件,可這些東西如果不進行及時整理,日積月累之后,我們往往再查找其中對自己有用的信息,就要頗費一番工夫。網絡的迅猛發展給這些信息的傳播制造了優厚條件,隨著企業無紙化辦公水平的提高,它們所擁有的這種非結構化數據更是數不勝數。記者曾經采訪一個銀行的用戶,它們在采用內容管理軟件之前每年花費在紙張上的費用高達1500萬,而在實現公文流轉通過網絡進行,通過內容管理軟件對之進行有效管理之后,1500萬的花費就可以完全節省下來。
雖然我們談了很多內容管理軟件帶來的好處,但企業級內容管理技術目前還不是很成熟。我們知道用來管理結構化數據的關系數據庫從理論到技術上經歷了數年發展,已經相當成熟,而非結構化數據的復雜程度遠遠高于結構化數據,所以內容管理技術還存在很多有待解決的難題,比如,如何很好地解決多種異構數據源的存儲和查詢就是其中的關鍵問題。雖然有人認為將來XML數據庫將能比較好地解決非結構化數據的管理問題,但將現有文檔映射到XML文檔的工作才剛剛開始,XML查詢語言也遠不如SQL成熟,我們曾經目睹的面向對象數據庫的失敗更給XML數據庫敲響了警鐘。將XML以及其他內容管理技術與關系數據庫的結合可能將會是一條主流道路。同時,內容管理軟件應用層面往往不會孤軍奮戰,它還需要與企業門戶、協作軟件、企業應用集成這些技術緊密結合在一起。將非結構化的數據實現“結構化”管理正在走進我們,但要想成為如同關系數據庫一樣成為主流,還是一條漫漫長路。
由于內容管理解決方案種類比較繁多,我們僅從中選擇了幾款主流的軟件給用戶參考。
IBM DB2內容管理解決方案
IBM DB2內容管理家族是一套全面的企業級內容管理集成軟件解決方案,它提供了在Intranet或Internet上立即訪問文檔信息的能力,可以有效地保證所需要的文檔并按照正確的工作流程在正確的時間提供給正確的使用人員。該方案具有實時和無縫訪問數字化、索引化內容的能力,因而公司內外的合法用戶都能獲得最高的信息使用效率,而不是把時間浪費在信息搜索上。
作為IBM企業內容管理系列產品的一個關鍵組成部分,IBM DB2 Content Manager(內容管理器,CM)是下一代企業信息集成基礎設施。其功能支持事務處理、安全性、流程集成和生命周期管理。內容管理器在單一、開放式的體系架構中處理所有類型數字化內容的管理、共享、重用和存檔。內容管理器支持基于HTML和XML的Web內容、圖象、電子辦公文件、視頻和音頻等多媒體數據。為了強化這些功能,內容管理器增加了DB2 Content Manager OnDemand,這是一種電子化報表管理和電子賬單解決方案,能夠大量捕獲計算機的輸出結果。
DB2 Content Manager OnDemand支持高性能的自動化捕獲、索引、歸檔、搜索、讀取、展示和重新制作計算機生成的文檔 /報表,以及其他的企業相關文檔。通過該產品,用戶可以削減紙張、膠片或磁性存儲設備的費用;通過按需讀取和展示來改進信息的管理;自動管理報表的存儲需求,支持硬盤、光學和磁帶存儲設備。
Interwoven 6
Interwoven公司日前最新發布的內容管理平臺Interwoven 6平臺不僅應用涵蓋廣泛,通過Interwoven的旗艦產品TeamSite 6.0內容服務平臺,使內容管理能夠貫穿整個企業;而且其行業解決方案致力于提供行業性的應用,包括銷售、服務、IT和市場機構等多方面商業挑戰的解決方案;在業務拓展領域,基于Interwoven 6可開發滿足企業內容管理相關的內部及外部應用需求。
Interwoven 6是向所有企業現有的數據資源“開放”的內容管理平臺,它能夠“動態”地同時處理編碼和內容,“靈活”地智能濃縮來源于元數據的內容,“迅捷”地利用其特有的專利技術和基于標準的組件。它是定位于為企業需求而設計的內容管理平臺,以TeamSite 6.0內容服務器(TeamSite 6.0 Content Server)為基礎。TeamSite 6.0引進了突破性的用戶體驗ContentCenter,為用戶能夠迅捷簡易地使用而專門設計。ContentCenter使所有的用戶能夠在內容方面做出貢獻和協作,包括商業投資者、商業管理用戶和技術開發者。
Interwoven 6還能提供一個全新的用戶化架構——ContentServices UI Toolkit,使得為ContentCenter契合的用戶化得以解決,如同定制完全客戶化的界面。 Interwoven 6提供行業內第一個基于服務導向架構(Services Oriented Architecture)的內容管理。Interwoven ContentServices SDK 2.0使企業商務應用軟件能夠更加迅捷、靈活地銜接。
微軟Content Management Server
微軟 Content Management Server是一種允許企業快速、高效的建立、部署并維護高度動態化Internet、企業內部網絡及企業外部網絡Web站點的企業級Web內容管理系統。
該產品是用于管理企業級Web內容的全面系統,允許內容提供者創建、管理并發布其自己的內容,同時允許IT部門快速部署具備伸縮能力的動態站點。 通過企業級Web站點針對多種訪問者、設備及目的提供動態內容。相關內容的個性化特性能夠確保為潛在客戶、客戶、企業員工及商務合作伙伴提供積極的用戶體驗,幫助用戶部署企業級可伸縮性動態電子商務Web站點,并實現比其他任何Web內容管理產品都要明顯加快的投資回報。
TRS內容管理解決方案
TRS是國內中文內容管理的推動者,致力于開發領先的內容管理技術基礎設施和應用產品,目標是成為中文內容管理領域技術和市場的領導者。
TRS內容管理解決方案以XML和JAVA為基本標準,其全能信息檢索和中文知識管理技術是TRS內容管理產品的核心競爭優勢,TRS能夠全面滿足內容采集、內容創建、內容傳遞和內容分析完整價值鏈管理的集成化產品。TRS 內容管理解決方案是企業內容管理(ECM)、網站內容管理(WCM)和電子商務內容管理的利器。TRS產品系列包括從數字圖書館資源整合門戶、內容協作平臺、全能內容檢索系統、網絡信息雷達系統等涵蓋企業內容管理應用多個層面。
其中TRS內容檢索服務器突破了傳統全文檢索和網頁搜索引擎的種種局限,是基于知識的智能內容檢索系統。TRS全能內容檢索系統,采用TRS具有先進水平的信息檢索和中文自然語言處理研究成果,具有優秀的檢索效果和查詢性能,是信息檢索的技術和市場領導者之一。
讓非結構化數據“結構化”?
潘永花
咱們且不用說企業,就是個人,我們也有各種各樣的“非結構化數據”,每個人都會擁有大量的Word、Excel、Powerpoint文檔以及各種音頻、視頻文件,還有每天都收到的大量郵件,可這些東西如果不進行及時整理,日積月累之后,我們往往再查找其中對自己有用的信息,就要頗費一番工夫。網絡的迅猛發展給這些信息的傳播制造了優厚條件,隨著企業無紙化辦公水平的提高,它們所擁有的這種非結構化數據更是數不勝數。記者曾經采訪一個銀行的用戶,它們在采用內容管理軟件之前每年花費在紙張上的費用高達1500萬,而在實現公文流轉通過網絡進行,通過內容管理軟件對之進行有效管理之后,1500萬的花費就可以完全節省下來。
雖然我們談了很多內容管理軟件帶來的好處,但企業級內容管理技術目前還不是很成熟。我們知道用來管理結構化數據的關系數據庫從理論到技術上經歷了數年發展,已經相當成熟,而非結構化數據的復雜程度遠遠高于結構化數據,所以內容管理技術還存在很多有待解決的難題,比如,如何很好地解決多種異構數據源的存儲和查詢就是其中的關鍵問題。雖然有人認為將來XML數據庫將能比較好地解決非結構化數據的管理問題,但將現有文檔映射到XML文檔的工作才剛剛開始,XML查詢語言也遠不如SQL成熟,我們曾經目睹的面向對象數據庫的失敗更給XML數據庫敲響了警鐘。將XML以及其他內容管理技術與關系數據庫的結合可能將會是一條主流道路。同時,內容管理軟件應用層面往往不會孤軍奮戰,它還需要與企業門戶、協作軟件、企業應用集成這些技術緊密結合在一起。將非結構化的數據實現“結構化”管理正在走進我們,但要想成為如同關系數據庫一樣成為主流,還是一條漫漫長路。
總結
以上是生活随笔為你收集整理的企业内容管理软件的核心技术及应用方向(计世网)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 服务器发布的项目请求摄像头权限,使用 W
- 下一篇: 基于单片机的功放protues_基于Pr