python数据分析与挖掘 | 挖掘建模
寫在前面:挖掘建模的涉及內(nèi)容繁多,本文會概括的講述一下挖掘建模的內(nèi)容,便于大家學習與理解。
經(jīng)過數(shù)據(jù)探索與數(shù)據(jù)預處理,得到了可以直接建模的數(shù)據(jù)。根據(jù)挖掘目標和數(shù)據(jù)形式可以建立模型,包括:分類與預測、聚類分析、關(guān)聯(lián)規(guī)則、時序模式和偏差檢測等。
分類與預測
分類和預測是預測問題的兩種主要類型,分類主要是預測分類標號(離散屬性),而預測主要是建立連續(xù)值函數(shù)模型,預測給定自變量對應的因變量的值。
分類
分類是構(gòu)造一個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本映射到預先定義好的類別。分類模型建立在已有類標記的數(shù)據(jù)集上,模型在已有樣本上的準確率可以方便的計算,所以分類屬于有監(jiān)督的學習。
分類算法分兩步:第一步是學習,通過歸納分析訓練樣本集來建立分類模型得到分類規(guī)則;第二步是分類,先用已知的測試樣本集評估分類規(guī)則的準確率,如果可以接受,則用該模型對未知標號的待測樣本集進行預測。
預測
預測是指建立兩種或兩種以上變量間相互依賴的函數(shù)模型,然后進行預測或控制。
預測模型也分兩步,第一步是通過訓練集建立預測屬性的函數(shù)模型;第二步在模型通過檢驗后進行預測或控制。
常用分類與預測算法
| 算法名稱 | 算法描述 |
| 回歸分析 | 回歸分析是確定預測屬性與其他變量間相互依賴的定量關(guān)系最常用的統(tǒng)計學方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型 |
| 決策樹 | 決策樹采用自頂向下的遞歸方式,在內(nèi)部節(jié)點進行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點向下分支,最終得到的葉節(jié)點是學習劃分的類 |
| 人工神經(jīng)網(wǎng)絡(luò) | 人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型 |
| 貝葉斯網(wǎng)絡(luò) | 貝葉斯網(wǎng)絡(luò)又稱信度網(wǎng)絡(luò),是Bayes方法的擴展,是目前不確定知識表達和推理領(lǐng)域最有效的理論模型之一 |
| 支持向量機 | 支持向量機是一種通過某種非線性映射,把低維的非線性可分轉(zhuǎn)化為高維的線性可分,在高維空間進行線性分析的算法 |
聚類分析
與分類不同,聚類分析是在沒有給定劃分類別的情況下,根據(jù)數(shù)據(jù)相似度進行樣本分組的一種方法。與分類模型需要使用有類標記樣本構(gòu)成的訓練數(shù)據(jù)不同,聚類模型可以建立在無類標記的數(shù)據(jù)上,是一種非監(jiān)督的學習方法。
聚類的輸入是一組未被標記的樣本,聚類根據(jù)數(shù)據(jù)自身的距離或相似度將其劃分為若干組,劃分的原則是組內(nèi)距離最小化而組間(外部)距離最大化。
常用聚類方法
| 類別 | 主要算法 |
| 劃分(分裂)方法 | K-Means算法(K-平均)、K-MEDOIDS算法(K-中心點)、CLARANS算法(基于選擇的算法) |
| 層次分析方法 | BIRCH算法(平衡迭代規(guī)約和聚類)、CURE算法(代表點聚類)、CHAMELEON算法(動態(tài)模型) |
| 基于密度的方法 | DBSCAN算法(基于高密度連接區(qū)域)、DENCLUE算法(密度分布函數(shù))、OPTICS算法(對象排序識別) |
| 基于網(wǎng)絡(luò)的方法 | STING算法(統(tǒng)計信息網(wǎng)絡(luò))、CLIOUE算法(聚類高維空間)、WAVE-CLUSTER算法(小波變換) |
| 基于模型的方法 | 統(tǒng)計學方法、神經(jīng)網(wǎng)絡(luò)方法 |
常用聚類分析算法
| 算法名稱 | 算法描述 |
| K-Means | K-均值聚類也稱為快速聚類法,在最小化誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預定的類數(shù)K。該算法原理簡單并便于處理大量數(shù)據(jù) |
| K-中心點 | K-均值算法對孤立點的敏感性,K-中心點算法不采用簇中對象的平均值作為簇中心,而選用簇中離平均值最近的對象作為簇中心 |
| 系統(tǒng)聚類 | 系統(tǒng)聚類也稱為多層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu),且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。該聚類方法只適合在小數(shù)據(jù)量的時候使用,數(shù)據(jù)量大的時候速度會非常慢 |
關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘中最活躍的研究方法之一,目的是在一個數(shù)據(jù)集中找出各項之間的關(guān)聯(lián)關(guān)系,而這種關(guān)系并沒有在數(shù)據(jù)中直接表示出來。
比如一個常見的例子,在美國,一般都是男士下班后順便去買尿布,而他們通常會順帶買啤酒,那么超市就把啤酒擺放在靠近嬰兒尿布的位置,滿足了客戶的體驗,更提高了業(yè)績。就是通過大量的歷史數(shù)據(jù)的分析,得到這兩種商品之前的密切關(guān)聯(lián),因而做出上面的決策。
常用關(guān)聯(lián)規(guī)則算法
| 算法名稱 | 算法描述 |
| Apriori | 關(guān)聯(lián)規(guī)則最常用也是最經(jīng)典的挖掘頻繁項集的算法,其核心思想是通過連接產(chǎn)生候選項及其支持度然后通過剪枝生成頻繁項集 |
| FP-Tree | 針對Apriori算法的固有的多次掃描事務數(shù)據(jù)集的缺陷,提出的不產(chǎn)生候選頻繁項集的方法。Apriori和FP-Tree都是尋找頻繁項集的算法 |
| Eclat算法 | Eclat算法是一種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,在概念格理論的基礎(chǔ)上利用基于前綴的等價關(guān)系將搜索空間劃分為較小的子空間 |
| 灰色關(guān)聯(lián)法 | 分析和確定各因素之間的影響程度或是若干子因素對主因素的貢獻度而進行的一種分析方法 |
時序模式
對于時間序列,首先要進行預處理,拿到一個觀測值序列,首先要對它的純隨機性和平穩(wěn)性進行檢驗。根據(jù)檢驗結(jié)果可以將序列分為不同的類型,對不同類型的序列會采取不同的分析方法??偟膩碚f,時間序列分析,就是給定一個已被觀測了的時間序列,預測該序列的未來值。
常用的時間序列模型有:平滑法、趨勢擬合法、組合模式、AR模型、MA模型、ARMA模型、ARIMA模型等。
離群點檢測
離群點檢測是數(shù)據(jù)挖掘中重要的一部分,它的任務是發(fā)現(xiàn)與大部分其他對象顯著不同的對象。大部分數(shù)據(jù)挖掘方法都將這種差異信息視為噪聲而丟棄,然而在一些應用中,罕見的數(shù)據(jù)可能蘊含著更大的研究價值。因為離群點的屬性值明顯偏離期望的或常見的屬性值,所以離群點檢測也稱偏差檢測。
離群點檢測已經(jīng)被廣泛應用于電信和信用卡的詐騙檢測、貸款審批、電子商務、網(wǎng)絡(luò)入侵和天氣預報等領(lǐng)域。
離群點分類
數(shù)據(jù)范圍:全局離群點和局部離群點
從整體來看,某些對象沒有離群特征,但是從局部來看,卻顯示了一定的離群性。
數(shù)據(jù)類型:數(shù)值型離群點和分類型離群點
這是以數(shù)據(jù)集的屬性類型進行劃分的。
屬性個數(shù):一維離群點和多維離群點
一個對象可能有一個或多個屬性。
離群點檢測方法
| 離群點檢測方法 | 方法描述 |
| 基于統(tǒng)計 | 大部分的基于統(tǒng)計的離群點檢測方法是構(gòu)建一個概率分布模型,并計算對象符合該模型的概率,把具有低概率的對象視為離群點 |
| 基于鄰近度 | 通??梢栽跀?shù)據(jù)對象之間定義鄰近性度量,把遠離大部分點的對象視為離群點 |
| 基于密度 | 考慮數(shù)據(jù)集可能存在不同密度區(qū)域這一事實,從基于密度的觀點分析,離群點是在低密度區(qū)域中的對象。一個對象的離群點得分是該對象周圍密度的逆 |
| 基于聚類 | 一種利用聚類檢測離群點的方法是丟棄遠離其他簇的小簇;另一種更系統(tǒng)的方法,首先聚類所有對象,然后評估對象屬于簇的程度 |
END
來和小伙伴們一起向上生長呀~~~
掃描下方二維碼,添加小詹微信,可領(lǐng)取千元大禮包并申請加入 Python學習交流群,群內(nèi)僅供學術(shù)交流,日?;?#xff0c;如果是想發(fā)推文、廣告、砍價小程序的敬請繞道!一定記得備注「交流學習」,我會盡快通過好友申請哦!
(添加人數(shù)較多,請耐心等待)
總結(jié)
以上是生活随笔為你收集整理的python数据分析与挖掘 | 挖掘建模的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为、阿里员工在听的英语资源,即将过期,
- 下一篇: 揭秘微信「看一看」如何精准挖掘你感兴趣的