入坑-DM导论-第一章绪论笔记
//本學(xué)習(xí)筆記只是記錄,并未有深入思考。
1.什么是數(shù)據(jù)挖掘?
?數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中發(fā)現(xiàn)必不可少的一部分。
?數(shù)據(jù)預(yù)處理主要包括(可能是最耗時(shí)的步驟):
1.融合來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù)
2.清洗數(shù)據(jù)以消除噪聲和重復(fù)的觀測(cè)值
3.選擇與當(dāng)前數(shù)據(jù)挖掘任務(wù)相關(guān)的記錄和特征。
2.數(shù)據(jù)挖掘要解決的問(wèn)題
1.可伸縮性:面對(duì)海量數(shù)據(jù),算法必須是可伸縮的。例如:當(dāng)藥不能處理的數(shù)據(jù)放入內(nèi)存的時(shí)候,需要非內(nèi)存算法;使用抽樣技術(shù)或者開發(fā)并行和分布算法也可提高伸縮性。
2.高維性:具有成百上千的屬性的數(shù)據(jù)集也很常見,比如基因特征;并且由于維度的增加,算法計(jì)算復(fù)雜度將會(huì)迅速升高。
3.異種數(shù)據(jù)和復(fù)雜數(shù)據(jù):即非傳統(tǒng)的數(shù)據(jù)類型:如包含半結(jié)構(gòu)化的文本和超鏈接的Web頁(yè)面,
4.數(shù)據(jù)所有權(quán)與分布:數(shù)據(jù)在地理上分屬于多個(gè)站點(diǎn)和機(jī)構(gòu),需要開發(fā)分布式數(shù)據(jù)挖掘技術(shù),
5.非傳統(tǒng)分析:傳統(tǒng)的統(tǒng)計(jì)方法基于假設(shè)-檢驗(yàn)?zāi)J?#xff0c;但目前的數(shù)據(jù)分析需要的假設(shè)量太大,那么需要自動(dòng)地產(chǎn)生假設(shè)和評(píng)估。
圖中給出了數(shù)據(jù)挖掘和其他學(xué)科的關(guān)系。
1.3數(shù)據(jù)挖掘任務(wù)
?預(yù)測(cè)任務(wù):根據(jù)其他屬性的值,預(yù)測(cè)特定屬性的值。
描述任務(wù):導(dǎo)出數(shù)據(jù)中潛在能夠描述關(guān)系的模式(相關(guān)、趨勢(shì)、聚類、軌跡和異常),這通常是探查性的,需要進(jìn)行驗(yàn)證和解釋。?
根據(jù)數(shù)據(jù)類型可以分為:
分類:對(duì)離散型數(shù)據(jù)
回歸:對(duì)連續(xù)型數(shù)據(jù)
2.分析方式概括
預(yù)測(cè)任務(wù):比如對(duì)鳶尾花進(jìn)行分類。
關(guān)聯(lián)分析:用于發(fā)現(xiàn)數(shù)據(jù)中強(qiáng)關(guān)聯(lián)的特征;比如找出功能相關(guān)的基因組,發(fā)現(xiàn)購(gòu)物者同時(shí)購(gòu)買的商品等。
聚類分析:發(fā)現(xiàn)緊密相關(guān)的觀測(cè)值組群,對(duì)顧客進(jìn)行分組。
異常檢測(cè):識(shí)別特征顯著不同于其他特征的觀測(cè)值;檢測(cè)欺詐軟件、網(wǎng)絡(luò)攻擊等;
?
轉(zhuǎn)載于:https://www.cnblogs.com/BlueBlueSea/p/9545381.html
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的入坑-DM导论-第一章绪论笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: #研发解决方案#数据移山:接入、迁移、同
- 下一篇: 线性插值法的原理和python代码实现