python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...
常用數據挖掘算法總結及Python實現 高清完整版PDF
第一部分數據挖掘與機器學習數學基礎
第一章機器學習的統計基礎
1.1概率論
l概率論基本概念
樣本空間
我們將隨機實驗E的一切可能基本結果組成的集合稱為E的樣本空間,記為S。樣本空間的元素,即
E的每一個可能的結果,稱為樣本點。樣本空間又叫基本事件空間。
例:拍拍貸用戶的學歷S=“研究生或以上’,本科,大專’,“高中,“中專,初中及以下},A={研
究生或以上’,“本科,“大專”}
事件
事件A是樣本空間的了集,可分為四種類型
空事件:樣木空間的空子集
原了事件:僅包含·個元素的樣本空間
混合事件:包含多個元素的樣木空間
樣本空間本身也是·個事件
集合
1.集合A的補集記做A
2.集合A和B的交集A⌒B
3.集合A和B的合集A∪B
4.如果A⌒B=,那么A和B互斥
5.如果442…An是采樣空間S的子集,如果A1∪A2∪…An=S,那么這種情
況稱作完全窮盡
概率論定義
概率用來描述一件事的不確定性。假設A是投硬幣的一個結果(比如正面朝上),如果重復投硬幣很
多次,直到A出現的機會逼近個極限p。那么可以說出現A的概率是p
對于事件A和B,聯合概率P(AB表示事件A和B同時發生的概率
number of favorable outcomes
P(A)
total number of possible outcomes
概率定律
事件的概率:PA)滿足:P(A)≥0;Ps)=1:對丁一連串的互斥事件:A)=∑/A)
條件概率
發生事件A的情況下,發生B的概率稱作條件概率P(BA)
P(B A
P(B∩A
P(A)
·獨立性
事件發生和其它事件無關。
如果P(BAP(B,我們稱B和A統計獨立,當且僅當:P(4nB)=P(4)PB)
如果A和B統計獨立,那么B與A也統計獨立
總概率
P(A)=P(A∩B)+P(A∩B)=P(AB)P(B)+P(AB)P(B)
貝葉斯理論
P(BIA=P(A B)P(B)
P(A)
P(B):B的先驗概率,非條件概率,或者邊際概率
P(AB):給定B條件下的A的條件概率,也被稱作“似然”
P(A):A的邊際概率,也作為B的后驗概率的歸·化常量
P(B|A):B的后驗概率
2隨機變量,期望,方差
隨機變量ⅹ是隨機試驗的數值型結果
相關概念:
觀測值:其中·個結果成為觀測值
數據:多個觀測值集合為數據
總體:所有的結果稱為總休
有兩種類型的隨機變量
離交量:值數目可數
對于離散型隨機變量,我們關心每個特定數值出現的概率eg.客戶的婚姻情況
連綏交量:數值在一定范圍內
對于連續性變量,某·個特定值出現的概率為0,我們只關心區間的概率
Eg各戶的投資金額
概率分布
隨機變量的分布就是它所有可能的輸出以及它們的概率集合
概率密度函數
隨機變量的概率密度函數描述該隨機變量在某個取值發生的可能性
離散變量:P(X-x)p(x)
P(<
連續變量:
累積分布函數
x處的累積分布函數是負無窮到ⅹ點的概率密度函數的累加和
期望
期望是指所有可能值的加權和。其權重對于離散值而言就是該值出現的概率,而對于連續值而言就是
共密度函數。
離散情況:
連續情況:
E(x)=∑xD(x)
E()=「xp(x)dkx
方差
用來描述該隨機變量值和平均值的郾散程度
離散情況
連續情況
陽a()=∑(x-D()p(x)
a()=∫(x-B()p(
3常用概率分布
離散分布:伯努利分布(二項分布)
口概率度數
P(X=X)
均值
E(r)
方差
Varr)=p(1-p)
連續分布
正態分布是最常用的一種連續分布。密度函數的特點是:關于均值μ對稱,并在μ處取最大值,
在正(負)無窮遠處取值為0,圖像是一條位于x軸上方的鐘形曲線。期望值μ決定了分布的位置,
標準差σ決定了分布的幅度。當μ=0,^2=1時,稱為標準正態分布,記為N(O,1)
口概率密度函數
10
=0.d2=02
=0.2=1.0
P=-2.02=05
翅望
E(r)
口方差
d l
4統計量估計和中心極限定理
從一個數據集(樣本)估計它的分布情況
◇統計直方圖:直觀地顯示了數據的分布
描述性指標:
衡量據中趨勢
期望值的估計:氵∑X
最大值/最小值:2500萬用戶的最大最小借款金額
中值:按照借款金額排序,最中間的值
眾數:出現次數最多的借款金額
衡量變化性
范圍:最大最小的借款金額之差
(x-x)
方差的佔計:
兩個重要定理
大數定律
中心極限定理
100
90
All heads
80
70
大數定律(趨勢
60
50
40
30
中心極限定理(分布)
10
All Tails
Increasing number of coin tosses
大數定理
大數定理措述的是一組獨立冋分布隨杋變量的均值的極限。在這些隨機變量個數趨于無窮時,其均值
依概率收斂于這些隨機變量的數學期望
指明樣本均值的收斂趨勢
◆中心極限定理
設隨機變量Ⅺ1,X2,n相互獨立,服從同·分布,且具有數學期望和方差
E(H)=p,la(X,)=a2>0
則隨機變量的均值=x1+漸進地服從正態分布,并且期望和方差分別為
E(k1)=A,ar(X)=a2>0
指明樣本均值的分布與樣本量的關系
1.2假設檢驗
L假設檢驗概述
·作用:檢查觀察到的樣本究競是否支持對總體的假設,幫助進行決策
概率論
假設檢驗
數據估計
數據決策
假設檢驗在數據分析中的應用
◇理解分析建模的結果
需要讀懂相關性分析,歸回等建模的結果
coef std err
t
P>tI
[95.09 Conf. Int.
Const
-.3337
⊙.650
.513
.659
3.130
2.462
1.2591
.495
2.543
.126
0.872
3.390
.⊙456
⊙.081
-0.563
⊙.630
-0.394
.303
☆ AB Test
什么是假設檢驗
假設檢驗是數理統計學中根據一定假設條件由樣木推斷總體的一科方法
對總體做假設
出樣本做檢驗
假設檢驗的要素
令原假設( Null Hypothesis)
令備擇假設( Alternative Hypothesis):即與原假設相悖的陳述
◇檢驗統計量:用采樣數據基于原假設計算岀的統計量,用來檢驗原假設和備擇假設
◆拒絕域:在該區問,拒絕原假設,而趨向于備擇假設
錯誤類型
類型I:在給定原假設是正確的情況下拒絕原假設的概率( False positive)
a=P( reject Ho| Ho truc)拒真
類型I:在給定備擇假設是正確的情況下接受原假設的概率( False negative)
β=P( accept H| Hi truc)取偽
·P- value
比觀測值更極端的情況出現的概率,衡量樣本數據相對于原假設的置信強,也稱作觀測的顯著性水平
P-val
P(Z≥
用于做拒絕決定:
如果p- value 3 a.不拒絕原假設
F-al
如果p-vlue
拒絕域
單邊檢測I
Critical Value(s)
H0:u≥3
H1:μ<3
單邊檢測Il
拒絕域
H0:≤3
H1:>3
雙邊檢測
Ho:μ=3
≠3
2如何選擇合適的檢驗
兩組檢驗類型
參數檢測:假定數據遵從某些特定的分布(例如:高斯分布),對總體參數進行佔計或檢驗
例如:z檢測,t檢測, ANOVA, chi-Square等
非參數檢測:并沒有假定數據遵從某種分布。往往直接對分布的某種特性(如對稱性,分位數人小)
做檢驗。
例如 Kolmogorov- Smirnov檢測, Wilcoxon檢測,Mann- Whitney檢測, Kruskal- Wallis檢測等
一個樣本和多個樣本
單個樣本檢驗:僅僅基于·個采樣樣本,通常基于均值、方差和分布的假設
例如,正態分布檢驗,z檢驗,t檢驗
多個樣本檢驗:目標是比較多個組別的均值方差是不是相等。
例如:∧NOMⅥA檢驗, Kruskal- Wallis檢驗(hi- square檢驗等等。
3假設檢驗
正態性檢驗
評估個數據集{x1,…,xn}服從正態分布的可
能性
Ho:ixl,., xn)-N(u, a2)
I1:{x1,,xn}服從仁意分布
2-0 plot(圖形檢驗):
用圖形的方法來比較兩個概率分布:把他們的相應百分位數畫在張圖里,圖中任意點(x2y),
x利Y坐標分別是這兩個分布的百分位數。如果這兩個分布很相似, Q-Q plot上的點會近似地位于
對角線y=x附近
Kolmogorov- Smirnov(非參數檢驗)
以樣本數據的累計頻數分布與特定理論分布比較,拿
若兩者間的差距很小,則推論該樣本取自某特定分布。只8
對連續分布適用
Z檢驗
原假設下的統計量近似為態分布。
-該正態分布方差已知,或可以從大樣本里佔計出來(近似Z檢驗)
H0:
NO,1)
H1:μ≠
Critical region
Critical region
檢驗統計量:
a/2
Acceptance
a/2
region
(r
0
拒絕H:2>Z/2orZ
T檢驗
-數據嚴格遵從正態分布
不要求方差已知,可以從數據中佔算
尤其適用于評估小樣本相對總體的差異
較Z檢驗復雜
大樣本與Z檢驗結果相似
Critical region
H1:μ≠μo
Ical region
a/2
檢驗統計量:
7≈(X-)
x2,n-1
an n-I
拒絕Ho:T>1/2orT
檢驗步驟
1)根據問題,判定感興趣的參數
2)給定原假設,F
3)給定備擇假設I
4)選擇·個置信水平α
5)選擇合適的假設檢驗
6)推導出拒絕域
7)計算需要的統計變量
8)決定拒絕或接收原假設H
4.AB Test
假設檢驗的一個重要應用;
多個方案并行測試——大多數情況是兩個方案
每個方案從有一個變量不同—必須是單變量
以某種規則優勝劣汰—規則不同可能結果完全不同。
13抽樣
l抽樣概述
2抽樣方法
3應用案例
總結
以上是生活随笔為你收集整理的python数据挖掘 百度云,常用数据挖掘算法总结及Python实现高清完整版PDF_python数据挖掘,python数据分析常用算法...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “鸣鹤时一闻”下一句是什么
- 下一篇: 《从过旧宫诗》第四句是什么