数据挖掘简介
?
???????由于數(shù)據(jù)挖掘是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語名稱。其中,最常用的術(shù)語是"知識發(fā)現(xiàn)"和"數(shù)據(jù)挖掘"。相對來講,數(shù)據(jù)挖掘主要流行于統(tǒng)計界(最早出現(xiàn)于統(tǒng)計文獻中)、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界;而知識發(fā)現(xiàn)則主要流行于人工智能和機器學(xué)習(xí)界。
??????數(shù)據(jù)挖掘可粗略地理解為三部曲:數(shù)據(jù)準(zhǔn)備(data?preparation)、數(shù)據(jù)挖掘,以及結(jié)果的解釋評估(interpretation?and?evaluation)。?
??????根據(jù)數(shù)據(jù)挖掘的任務(wù)分,有如下幾種:分類或預(yù)測模型數(shù)據(jù)挖掘、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等。
??????根據(jù)數(shù)據(jù)挖掘的對象分,有如下若干種數(shù)據(jù)源:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)(legacy)數(shù)據(jù)庫,以及Web數(shù)據(jù)源。
??????根據(jù)數(shù)據(jù)挖掘的方法分,可粗分為:統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法等)、以及模糊集、粗糙集、支持向量機等。機器學(xué)習(xí)中,可細分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例的推理CBR、遺傳算法、貝葉斯信念網(wǎng)絡(luò)等。神經(jīng)網(wǎng)絡(luò)方法,可細分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競爭學(xué)習(xí)等)等。數(shù)據(jù)庫方法主要是基于可視化的多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。?
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
- 上一篇: USB鼠标失灵的解决办法
- 下一篇: 常用计算机文章搜索方法总结