【数据挖掘】数据挖掘简介
簡介
??人類正被數據淹沒,卻饑渴于知識。隨著數據庫技術的應用越來越普及,人們正逐步陷入“數據豐富,知識貧乏”的尷尬境地。知識信息的“爆炸”給人類帶來莫大益處,但也帶來不少弊端,造成知識信息的“污染”。面臨浩瀚無際而被污染的數據,人們呼喚從數據汪洋中來一個去粗取精、去偽存真的技術。在這種形勢下,數據挖掘應運而生。數據挖掘就是指從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的,人們事先不知道的,但又是潛在有用的,目標明確、 針對性強、精煉準確的信息和知識的過程。 數據與知識貧乏導致了知識發現和數據挖掘的出現,當人們進入 21 世紀以后,可 以預計知識發現與數據挖掘的研究又將形成一個新的高潮。
??數據挖掘是一門多學科交叉的領域。一方面,數據挖掘以計算技術的發展為首要條件,沒有數據的有效組織,從一堆數據垃圾中發現有用的知識是癡人說夢;沒有大量計算算法的支持,即使是簡單的查詢也會耗時巨大,更不用說發現有用的模式。另一方面,即使數據得到有效的組織,計算算法足夠先進,要想發現數據中隱藏的有用信息,還必須綜合利用統計學、模式識別、人工智能、機器學習、神經網絡等學科的專業知識。比如數據挖掘使用的分析方法,有相當大比重是靠統計學中的多元分析來支撐的,由統計理論衍生出來的。當然,所有這些學科的發展必然會從不同的角度關 注數據分析技術的進展,數據挖掘也為這些學科的發展提供了新的機遇和挑戰。
??數據挖掘是用于數據處理的一種新的思維方法和技術手段,它是在現實生活中各種數據量不斷增長,以及以數據庫技術為核心的信息技術逐漸成熟的背景下產生的。數據挖掘可以幫助用戶發現隱藏在數據庫中的規律和模式,它融合了人工智能、統計、機器學習、模式識別和數據庫等多種學科的理論、方法與技術,通過對數據的歸納、分析和推理,從中發掘出潛在的模式,幫助決策者調整策略,進行正確的決策。
??但是,我們也必須看到,要研究數據挖掘,必須強調所用方法的概念和屬性,而不是機械的應用不同的數據挖掘工具。對方法、模型以及它們怎樣運轉及運轉原理的 深入理解是有效和成功運用數據挖掘技術的先決條件。任何在數據挖掘領域的研究者和實踐者都要意識到這些問題,以便成功地應用一種特定的方法,理解一種方法的 局限性,或者開發新技術。
概念
??我們來從技術和商業的角度給出數據挖掘的定義[14]。 從技術角度,數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道但又是潛在的有用的信息或知識的過程,提取的知識一般表示為概念、規則、規律、模式等形式。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識可接受、可理解、可運用;這些知識是相對的,是有特定前提和約束條件的,在特定的 領域中具有實際的應用價值。 數據挖掘是一門交叉性學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持,它涉及到機器學習、模式識別、歸納推理、統計學、數據庫技術、數據可視化、高性能計算、神經網絡、信息檢索、圖像與信號處 理和空間數據分析等多個領域。 從商業角度,數據挖掘是一種新的商業信息處理技術。其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性知識,即從一個數據庫中發現相關商業模式。 數據挖掘是利用統計學和機器學習等技術,探求那些符合市場、客戶行為的模式。如今數據挖掘已經可以使挖掘技術自動化,將數據挖掘與商業數據倉庫相結合,以適當的形式將挖掘結果展示給企業經營管理人員。對于數據挖掘的應用不僅依靠良好的算法建立模型,而且更重要的是解決如何將數據挖掘技術集成到信息技術應用環境中。
??同時,還要有數據挖掘分析人員參與,因為數據挖掘技術不具備人所特有的經驗和直 觀,不能區分哪些挖掘出的模式在現實中是有意義的,哪些是無意義的。 因此,數據挖掘可以描述為:按企業既定業務目標,對企業數據進行探索和分析, 揭示隱藏的、未知的或驗證已知的規律性,且進一步將其模型化的數據處理方法。 而常用的一些數據挖掘的定義,還有: 數據挖掘是一個確定數據中有效的,新的,可能有用的并且終能被理解的模式 的重要過程。 數據挖掘是一個從大型數據庫中提取以前未知的,可理解的,可執行的信息并用 它來進行關鍵的商業決策的過程。 數據挖掘是用在知識發現過程以辨識存在于數據中的未知關系和模式的一些方 法。 數據挖掘是發現數據中有益模式的過程。 數據挖掘是為那些未知的信息模式而研究數據集的一個決策支持過程。 數據挖掘的另一個稱呼是數據庫中的知識發現。何謂知識?從廣義上理解,數據、 信息也是知識的表現形式,但是人們更把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息管理,查詢優化,決策支持和過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員投身到數據 挖掘這一新興的研究領域,形成許多新的技術熱點。
應用
??數據挖掘已經在商業、企業、政府、科研及體育等多種不同類型的組織機構和領域中獲得 了非常廣泛的應用。 但是,我們也必須看到,要研究數據挖掘,必須強調所用方法的概念和屬性,而不是機械的應用不同的數據挖掘工具。對方法、模型以及它們怎樣運轉及運轉原理的 深入理解是有效和成功運用數據挖掘技術的先決條件。任何在數據挖掘領域的研究者和實踐者都要意識到這些問題,以便成功地應用一種特定的方法,理解一種方法的 局限性,或者開發新技術。
參考資料:
- 【學術論文】半監督學習及其應用研究
總結
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习】什么是机器学习?(下)
- 下一篇: 【图数据库】史上超全面的Neo4j使用指