数据挖掘入坑
數(shù)據(jù)挖掘入坑
0x01什么是數(shù)據(jù)挖掘
1.定義:從數(shù)據(jù)中獲取知識(shí)。
2.實(shí)例:
1.比如你要想知道某輛車(chē)從啟動(dòng)到速度穩(wěn)定行駛的距離,那么你會(huì)先統(tǒng)計(jì)從啟動(dòng)到穩(wěn)定耗費(fèi)的時(shí)間、穩(wěn)定后的速度、加速度等參數(shù);然后運(yùn)用牛頓第二定律(或者其他物理學(xué)公式)建立模型;最后根據(jù)該車(chē)多次實(shí)驗(yàn)的結(jié)果列出方程組從而計(jì)算出模型的各個(gè)參數(shù)。通過(guò)該過(guò)程,你就相當(dāng)于學(xué)習(xí)到了一個(gè)知識(shí) — 某輛車(chē)從啟動(dòng)到速度穩(wěn)定行駛的具體模型。此后往該模型輸入車(chē)的啟動(dòng)參數(shù)便可自動(dòng)計(jì)算出該車(chē)達(dá)到穩(wěn)定速度前行駛的距離。
2.然而,在數(shù)據(jù)挖掘的思想中,知識(shí)的學(xué)習(xí)是不需要通過(guò)具體問(wèn)題的專(zhuān)業(yè)知識(shí)建模。如果之前已經(jīng)記錄下了100輛型號(hào)性能相似的車(chē)從啟動(dòng)到速度穩(wěn)定行駛的距離,那么我就能夠?qū)@100個(gè)數(shù)據(jù)求均值,從而得到結(jié)果。顯然,這一過(guò)程是是直接面向數(shù)據(jù)的,或者說(shuō)我們是直接從數(shù)據(jù)開(kāi)發(fā)模型的。
3.這其實(shí)是模擬了人的原始學(xué)習(xí)過(guò)程 — 比如你要預(yù)測(cè)一個(gè)人跑100米要多久時(shí)間,你肯定是根據(jù)之前了解的他(研究對(duì)象)這樣體型的人跑100米用的多少時(shí)間做一個(gè)估計(jì),而不會(huì)使用牛頓定律來(lái)算。
4.以上就是首要原則模型(first-principle models),是科學(xué)工程領(lǐng)域最為經(jīng)典的模型。
3.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘:
機(jī)器學(xué)習(xí)偏向于底層,更側(cè)重算法和優(yōu)化方面。
數(shù)據(jù)挖掘面向模型。
4.算法:
a. 關(guān)聯(lián)規(guī)則挖掘 (Apriori, FPTree, etc.)
b. 分類(lèi) (C4.5, KNN, Logistic Regression, SVM, etc.)
c. 聚類(lèi) (Kmeans, DBScan, Spectral Clustering, etc.)
d. 降維 (PCA, LDA, etc.)
e. 推薦系統(tǒng) (基于內(nèi)容的推薦,協(xié)同過(guò)濾,如矩陣分解等)
參考資料:
領(lǐng)域簡(jiǎn)介
計(jì)算機(jī)的潛意識(shí)
數(shù)據(jù)挖掘概述-By幕晨
zhihu如何學(xué)習(xí)數(shù)據(jù)挖掘
10大算法一覽表
學(xué)習(xí)資料
Coursera吳恩達(dá)
Google的課程
Microsoft的數(shù)據(jù)挖掘
深度學(xué)習(xí)公開(kāi)課匯總-CSDN
數(shù)據(jù)全棧
fengjunchen-學(xué)習(xí)資料
宏倫養(yǎng)成
python之用
shareditor
轉(zhuǎn)載于:https://www.cnblogs.com/gwj1314/p/9444883.html
與50位技術(shù)專(zhuān)家面對(duì)面20年技術(shù)見(jiàn)證,附贈(zèng)技術(shù)全景圖總結(jié)
- 上一篇: Android Studio提示忽略大小
- 下一篇: Redis java使用