数据挖掘应用现状与产品分析
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘应用现状与产品分析
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據挖掘應用現狀與產品分析??? 高??? 敏?? (新龍科技實業有限公司商業智能部? 廣州? 510180)??? 摘要:數據挖掘技術的研究,極大地推動了相關行業的發展。目前,有關的學術討論異常熱烈。而在產業界,也已經有部分比較成熟的產品問世。本文結合自己從事數據倉庫的實際經驗,分析了數據挖掘的應用現狀,對其產品的主要特性進行了研究和評價,以期望為從事數據挖掘研究、開發、系統集成的有關人員提供有益的參考。??? 關鍵詞:數據挖掘? 知識發現? 商業智能? 客戶關系管理 1 前言??? 數據庫中的知識發現(KDD:Knowledge Discoveryin Database)一詞首次出現在1989年8月舉行的第U屆國際聯合人工智能學術會議上。從1989年至今,KDD的定義隨著人們研究的不斷深入也在不斷地完善,目前比較公認的定義是Fayyad等給出的:KDD是從數據集中識別出有效的、新穎的、潛在的、有用的以及最終可理解模式的高級處理過程LI J。KDD的過程一般包括數據清理、數據集成、數據選擇、數據變換、數據挖掘、模式評估、知識表示。23。其中,數據挖掘(DM:Data Mining)是KDD中的一個很重要的步驟,但在通常的應用中,并不區分二者的概念。??? 數據挖掘的任務是從數據集中發現模式,模式可以有很多種,按功能可分為兩大類:預測型(Predictive)模式和描述型(Descriptive)模式。在實際應用中,往往根據模式的實際作用細分為以下幾種:分類,聚類,回歸,序列,時間序列等。數據控掘的所處理的數據類型也很豐富,包括文本數據,關系數據庫,Web頁面等。數據挖掘的應用領域非常廣泛,比如金融(風險預測)、零售(顧客行為分析)、體育、電信、氣象、電子商務等等。??? 數據挖掘的研究幾乎和它的應用同步進行。早在20世紀80年代初期,就有一些簡單的工具問世。數據挖掘工具可以分為兩類:通用挖掘工具和特定領域的挖掘工具。通用的數據挖掘工具不區分具體數據的含義,采用通用的挖掘算法,處理常見的數據類型。而專用挖掘工具則是針對某個特定領域的問題提供解決方案。在設計算法的時候,往往會充分考慮到數據、需求的特殊性,并作了優化[3]。 2? 通用挖掘產品 2.1? IBM DB2 InteIligent Miner??? Intelligent Miner采用了多種統計方法和挖掘算法,主要有單變量曲線,雙變量統計,線性回歸,因子分析,主要量分析,分類,分群,關聯,相似序列,序列模式,預測等。??? 它能處理的數據類型有結構化數據(如:數據庫表,數據庫視圖,平面文件)和半結構化或非結構化數據(如:顧客信件,在線服務,傳真,電子郵件,網頁等)。??? Intelligent Miner通過其獨有的世界領先技術,例如自動生成典型數據集、發現關聯、發現序列規律、概念性分類和可視化呈現,可以自動實現數據選擇、數據轉換、數據挖掘和結果呈現這一整套數據挖掘操作。若有必要,對結果數據集還可以重復這一過程,直至得到滿意結果為止。根據ID(:的統計,Intelligent Miner目前是數據挖掘領域最先進的產品。它采取客戶/服務器架構,并且它的AH提供了C++類和方法[4]。??? Intelligent Miner可用于行銷、財務、產品管理和客戶聯系管理領域的數據分析人員和業務技術人員。C心bank是美國名列第二的銀行,是首先采用IBM業務智能系統的大型企業之一。 The Bank of Montreal也是成功運用IBM DB2Intelligent Miner的案例之一。??? IBM DB2Intelligent Minerfor Data Version 6提供了一套分析數據庫的挖掘過程、統計函數和查看、解釋挖掘結果的可視化工具。它可以從企業數據集中驗證并析取高價值的商業知識,包括大量交易數據的銷售點,ATM(Automatic Teller Machine),信用卡,呼叫中心,或電子商務應用。分析家和商業技術專家能夠發現那些隱藏的、用其他類型的分析工具無法洞察的模式。Intelligent Miner提供了基本的技術和工具來支持挖掘過程,同時還提供了應用服務支持定制應用的發展。 2.2? DBMiner??? DBMiner是一個通用的聯機分析挖掘(OLAM:()nLine Analysis Mining)系統,用于在大型關系數據庫和數據倉庫中交互地挖掘多層次的知識。其獨特之處在于緊密集成了聯機分析處理(OLAP:OnLine Analysis Processing)和多種數據挖掘功能,包括特征化、關聯、分類、預測和聚類等r22。DBMiner目前最新版本是3.o,其優點為①對關系數據,多維數據的強大的在線分析挖掘功能。②通過OLEDB和RDBMS可以連接到多種數據源。②關聯和時序算法對挖掘大數據集上頻繁的、連續的模式,相關性、依賴分析性能卓越。④對數據源、挖掘任務、挖掘應用的多重集成。⑤革新的傾斜的多維利潤分析技術。⑧支持Microsoft SQL Server,Analysis入rver and Excel,如OLAP,數據聚集,透視表的充分集成。⑦用戶自定義參數和可視化分類,能幫助用戶更好的發現知識。⑧分析關系數據和多維數據,分散的地圖式的觀察界面。⑨發現驅動的oLAP探測器,更容易的導航。 2.3? SAS系列產品??? SAS/STAT(Statistics)提供統計分析功能。??? SAS/ETS(Econometric乙Time Series)為SAS提供具有豐富的計量經濟學和時間序列分析方法的產品,包含方便的各種模型設定手段,多樣的參數估計方法,是研究復雜系統和進行預測的有利工具。??? SAS/INSIGHT是一個功能強大的可視化的數據探索與分析的工具。?? SAS/EM(Enterprise Miner)是一個圖形化界面,菜單驅動的、拖拉式操作的、對用戶非常友好且功能強大的數據挖掘集成環境。其中集成了:數據獲取工具,數據抽樣工具,數據篩選工具,數據變量轉換工具,數據挖掘數據庫,數據挖掘過程,多種形式的回歸工具,為建立決策樹的數據剖分工具,決策樹瀏覽工具,人工神經元網絡,數據挖掘的評價工具等。??? American Healthways領導了健康護理的一場革命。SAS/EM為判斷高危病人提供了一個健壯的數據挖掘和建模解決方案,使得他們可以為病人提供周到的護理和服務。??? AxA Financial使用SAS/EM來幫助他們建立利潤較高的顧客關系策略。 2.4? SPSS系列產品??? C1ementine是SPSS的核心挖掘產品,它提供廠一個可視比的快速建立模型的環境,被譽為第一數據挖掘工具。使用它,企業可以將數據分析和建模技術與待定的商業問題結合起來,找出其他傳統數據挖掘工具可能找不出的答案。組成部分包括數據獲取、探查、整理、建模和報告一——都使用一些有效、易用的按鈕表示,用戶只需用鼠標將這些組件連接起來建立一個“數據流”,可視化的界面使得數據挖掘更加直觀和具有交互性,從而j2T以將用戶的商業知識在每一步中更好的利用。 C1ementine所使用的分析技術包括神經元網絡、關聯規則和規則歸納技術。Clementine支持顧客剖析、時序分析、市場售貨籃分析和欺詐行為偵測。??? SPSS的另一種重要的控掘產品AnswerTree可以幫助用戶確認細分市場及其模式,建立顧客檔案資料,挖掘隱藏市場趨勢。應答樹運用的分析運貿:法則:兩類CHAID、分類和回歸樹、QUES丁。??? DecisionTime 2.0及WhotIF?? 2.0幫助用戶建立準確的預測,并利用此預測制定計劃。 2.5? COGNOS的Scenario,4Thought??? 挖掘算法:多層感知機(MLP:Multi-Layer Processing)神經元網絡技術(4 Thought)和基于CHAID的決策樹算法(Scenario)。??? Scenario和4Thought都護展了Cognos的決策支持能力并提供了一些數據挖掘功能,辦公布的用戶基準中,Scenario表現出良好的結果和對用戶友好的界面,而4Thought在性能和準確率方面具有較好的表現[4]。 2.6? BO的Business Miner?? 1996年12月,美國Business()bjects公司推出了數據挖掘解決方案一——Busincs s Mincr。Business Miner采用了基于直覺決定的樹型技術,提供了簡單易懂的數據組織形式,使用圖形化方式描述數據關系,通過百分比和流程表等簡單易用的用戶界面告訴用戶有關的數據信息。??? Business Miner能對從數據倉庫中傳來的數據自動地進行挖掘分析〕:作,剖析任意層面數據的內在聯系,最終確定商業發展趨勢和規律。 3? 專用挖掘產品??? 由于實際的應用環境干變萬化,目前還沒有一種通用產品能適應各種商業需求,而大量存在的是各種各樣的專用數據挖掘產品。在專用領域中,種類最多的要數各種Web挖掘產品。 3.1? ACCRUE INsight5??? ACCRUE Insight 5是AccNe公司的主要產品,它是一個綜合性的Web分析工具。它能夠對網站的運行狀況有個深入、細致和準確的分析。它的設計是以顧客為中心的,通過分析顧客的行為模式,幫助網站采取措施來提高顧客的忠誠度,從而建立長期的顧客關系。ACCRUE Insight 5利用了多種Web數據收集方法,包括高級網絡收集器,服務器收集器和服務器日志,而不是像很多網站那樣僅僅分析日志文件。高級網絡收集器以其能收集到最大量的數據而著稱,它能夠收集到服務器日志里所得不到的信息,例如按下“停止”鍵,下載的時間等一些對于網站分析有用的信息。但是對于加密的部分或者與它不適用部分則用到另外兩種方法。根據原始數據,Accrue Insight 5運用了一種叫做“服務器收集器”的分析方法,它支持鏡像服務器和負載平衡、路由器和一些其他網絡結構設備,能夠將一些加密的地址轉化為可分析的形式。 3.2? E.PIPHANY Enterprise Insight E.PIPHANY Enterprise lnsight提供了一個獨特的、完全集成的系統,為管理人員、分析人員還有其他商業人員傳遞商業信息。Enterprise lnsight應用套件使用了一個通用的元數據層,定義了所有的數據源,分析性能,信息傳送應用。基于Web的結構使得系統易于配置,易于使用,易于維護。它即可以作為一個獨立的應用軟件使用,也可以作為E.PIPHANY’s E.5系統在市場、銷售、服務領域的解決方案套件。和所有的E.ANY產品一樣,Enterprise lnsight呈現了一個廣泛的、一致的消費者的視圖、一個強有力的觀察,可以使企業的組織從市場、銷售、服務等工作中得到最大的利潤。企業上下的用戶都可以得到深入的商業信息,并且可以立即付諸行動。有了Enterpriselnsight,企業可以和顧客、合作伙伴建立更穩固的關系 。 E.PIPHANY能提供在電子商務中極具競爭價值的顧客信息。Enterprise lnsight for ECommerce提供了分析顧客數據的能力,包括來至網絡的數據和傳統的數據源。它可以讓企業針對所有的顧客數據源,跟蹤他們的網絡行為和引導他們的Web活動。??? Enterprise lnsight for E—Commerce包括“廠一系列預包裝的、易用的報表模板,對Web活動進行復雜的分析。根據領域專家的意見,E.岡PHANY已經驗證了相當多的一系列的關鍵的電子商務的屬性和指標,并且已經建立了大范圍的一個報告套裝。它通過提供關鍵領域的深入分析,比如站點活動,顧客喜好,在線銷售,錯誤報告,標語廣告活動等,回答關鍵的電子商務的問題。 3.3? BIJUE MARTINI??? BLUE MARTINI的數據挖掘模塊提供了強大的分析能力,幫助理解顧客,并且發現隱藏在巨量數據后面的寶石。挖掘能揭示微妙的行為模式,而這些模式能產生知識,驅動所有客戶接觸點的個性化過程。一個在分析和銷售中的封閉循環保證了知識能產生生產性的、產生利潤的和具有競爭優勢的機制。 3.4? 其他挖掘??? 例如AdVanced ScoutTM是和IBM合作完成的數據挖掘的商業應用。它的目的是幫助NBA教練運用商業智能的技術和數據挖掘來驗證隱藏在大量全異的數據里的模式,進而影響一場專業比賽的勝負。通過使用來源于現場數據收集系統的事件數據(EVENT DATA)以及類似于NBA比賽錄像的無結構數據,先進的偵測系統幫助教練進行預賽和賽后分析,甚至實時現場分析,這樣就能更好了解隊員組合是否有效、投籃特性等。 4? 國內的數據挖掘應用??? 目前國內真正應用數據挖掘的公司還不多明天科技有限公司。 4.1? 菲親特一融通公司 比較成功的有菲奈特一融通公司和廣州華工??? 菲奈特一融通在IBM數據挖掘軟件的基礎上開發了商業智能套件B1.O航ce,在B1.O航ce的基礎上又開發了系列的B1.Bank、B1.Taxation、B1.ELec出c Power、B1.Retail、B1.Insurance、B1.Telecom和B1.Ciq。借助IBM巨人的力量,現在是國內最有實力的數據挖掘公司。B1.O比ce能簡單、迅速地為企業構建其專有的決策支持系統,賦予企業管理層一個強有力的武器得以在授權范圍內全面、詳細、及時地了解公司運營狀況,作出合理的決策。B1.Bank是針對銀行業適時推出的一套完整的商業智能解決方案,為銀行提供決策支持并實現信息共享、加強客戶關系管理。B1.Bank包括銀行決策支持系統、客戶關系管理、銀行信息中心等針對不同使用對象的子系統。B1.Bank利用數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)以及Web等核心技術,并采用了數據庫服務器(DB SERVER)、應用服務器(APP SERVER)、用戶端(C/B)三層架構。B1.Taxation稅務決策分析與輔助決策系統是菲奈特—融通公司針對稅務部門開發的分析與輔助決策系統。 4.2? 廣州華工明天科技有限公司 廣州華工明天科技有限公司開發了多功能數據挖掘器(AFDMl.0)。該產品的特點如下:多平臺、企業級的數據挖掘;數據分類和處理功能;多種挖掘算法;串行、并行計算環境;可視化的結果分析工具。它提供了三方面的功能:挖掘、處理、統計。 4.3? 應用經驗探討 本人主要參與的是數據倉庫的開發工作,在國家開發銀行的基礎數據庫系統里,一期工程主要是集中抽取了需要的數據,呈現了全局一致的視圖,采用了豐富靈活的OLAP分析方法,生成報表,給不同層次的使用人員提供了決策的依據。預計在二期工程中加入一定的數據挖掘功能,在系統中嵌入一些挖掘算法和模塊,比如分類和預測等。必須強調的一點是,人們通常把數據挖掘看得過于神秘,認為只要有了一個數據挖掘工具,就能自動挖掘出所需要的信息,這是認識上的一個誤區。經驗證明,要想真正做好數據挖掘,數據挖掘工具只是其中的一個方面,同時還需要對企業業務的深入了解和數據分析經驗。一個企業要想在未來的市場中具有競爭力,必須有一些數據挖掘方面的專家,專門從事數據分析和數據挖掘工作。再同其他部門協調,把挖掘出來的信息供管理者決策參考,最后把挖掘出的知識付諸應用?;蛘?#xff0c;使用專家托管式服務,選擇一個專門從事數據挖掘的公司,深入理解公司業務需求,與、lL冬人同配合完成檸損仟務。而在國內的企業中,決策人員很容易走向兩個極端,一是認為數據挖掘沒有用處,二是開始認為數據挖掘是萬能的。這兩種觀點都是有害的。 5? 結論??? 數據挖掘從誕生到現在不過十多年的時間,在這短短的十幾年里,它吸引了各個行業的研究人員、工業界人士的興趣。目前,它已成為最近幾年對人類生活影響最大的幾項IT技術之一。在產業界,涌現出許多新興的數據挖掘相關產品供應商,數據挖掘的應用已取得初步的成功。隨著人們對信息的重視程度不斷加深,數據挖掘的前途必將是光明的。??? 但是,數據挖掘作為一門新興的科學和技術,它的發展還處于幼年期,要想使之得到廣泛充分地應用,必須面對的挑戰為①建立基礎的數據挖掘理論體系;②提高數據挖掘算法的效率和處理能力;②改善數據挖掘系統的人機界面;④分布式挖掘和實時挖掘;⑤挖掘各種數據類型,包括半結構和無結構數據。??? 參??? 考??? 文??? 獻 1? 鄭緯民,黃? 剛、數據挖掘縱覽[EB/OL],北京:清華大學出版社,1999. 2? Jiawei Han,Micheline Kamber●數據挖掘概念與技術[M].北京:機械工業出版社 3? 鄭緯民,黃? 剛.數據挖掘工具及其選擇[EB/OL].北京:清華大學出版社,1999 4? AlexBerson,Stephen Smith,Kurt Thearling、構建面向CRM的數據挖掘應用[M].北京:人民郵電出版社,2001.8
轉載于:https://blog.51cto.com/dongdong1314/100821
總結
以上是生活随笔為你收集整理的数据挖掘应用现状与产品分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 域客户端的计算机更名
- 下一篇: 如何防御DDoS攻击