【数据挖掘知识点二】概率基础
知識點:概率基礎
1)隨機現象
根據客觀現象的特征,將其分類兩類:一類是確定性現象,在一定條件下必然出現(或不出現)某種結果的現象;另一類是隨機現象,在給定的條件下不能確切預言其結果的現象,可在相同條件下重復進行觀察或試驗,而每次觀察或試驗的結果不止一個,且事先無法預知確切的結果。在不確定的現象中,還有一種無法重復觀察或試驗的情況,如無法確定2050年會不會爆發世界大戰,這種一次性不可重復的現象稱為不確定現象。
概率研究的對象是隨機現象。雖然隨機現象每次的結果具有偶然性,但在大量觀察或多次重復試驗后其結果常常會呈現出某種規律性。
2)隨機事件
對隨機現象進行觀測也稱作隨機試驗。隨機試驗的每一種結果或隨機現象的每一種表現都稱作隨機事件,一般用大寫字母A、B、C,….表示。
基本事件:不能再被分解為兩個或兩個以上的事件。基本事件是隨機試驗的最基本結果,每次試驗必出現一個基本事件,任何兩個基本事件都不會同時出現。
復合事件:由兩個或兩個以上基本事件所組成的事件。
一項隨機試驗的所有基本事件的集合,稱作該隨機試驗的基本事件空間。必然事件是每次試驗都一定出現的事件,記作Ω。任何一次試驗都不可能出現的事件稱為不可能事件,記作Φ。
事件的關系有包含和相等,事件的運算有和(并)、差、交(積)、逆。
包含:關系式A?B表示若A出現則B也出現,反之則未必;
相等:關系A=B表示事件A和B同時出現或都不出現;
和(并):運算式A+B或A∪B表示A和B中至少出現一個;
差:運算式A-B或A\B表示事件A出現但B不出現;
交(積):運算式A∩B表示事件A和B同時出現;
逆事件: 表示A不出現,是A的對立事件;
不相容:若AB=Φ,則A與B不可能同時出現,稱A和B不相容。
3)概率概念和性質
對于一個隨機事件來說,它在一次試驗中可能發生,也可能不發生。既然有可能性,就有可能性大小的問題。事件A在隨機試驗中出現可能性大小的數值度量,稱做概率。事件A的概率以P(A)表示。
在相同條件下,重復進行同一隨機試驗,A是這個試驗的一個結果(事件)。設試驗次數為n,在n次重復試驗中A出現的次數為nA,則事件A的頻率為:nA/n=Pn(A)。當試驗次數n較小時,頻率的數值有較大的波動,但n充分大時,頻率數值的波動明顯減弱,并且隨著n的增長,頻率會趨于穩定在某個常數p附近。
隨機試驗的頻率具有隨試驗次數增加而趨向穩定的性質,而頻率的穩定值可以用來反映事件發生的可能性大小。因此,可以說頻率的穩定值p是事件A發生的概率, 即P(A)=p。要注意區別頻率和概率,雖然二者都是事件出現可能性大小的度量,但頻率是試驗值,依賴于試驗的次數,即使試驗次數相同,頻率也可能取值不同,頻率具有隨機性;而概率則是獨立于試驗而客觀存在的理論值,其大小取決于事件本身固有的規律性。當然在實際應用中,常常通過大量重復試驗得到事件發生的頻率,且以它作為概率的近似值或估計值。頻率是試驗值,隨機的;概率是理論值,規律的。
設事件A的概率為P(A),則具有如下性質:
非負性,即0≤P(A)≤1;
規范性,對于必然事件Ω,有P(Ω)=1;
對于隨機事件Ai(i=1,2,…),只要它們兩兩互不相容,則有:?
4)概率的估計和計算
概率的直接計算有兩種場合:古典型概率和幾何型概率,古典型概率用事件個數比率計算,而幾何型概率則是用幾何度量比率。
也可以用頻率直接估計概率。
也可以使主觀概率,如專家估計。
概率的計算公式:
概率的加法法則:任意兩個事件P(A+B)=P(A)+P(B)-P(AB),不相容事件P(A+B) =P(A)+P(B)。
條件概率:P(A|B)=P(AB)/P(B),在事件B發生的條件下,事件A發生的條件概率。
概率的乘法公式:P(AB)=P(B)P(A|B)=P(A)P(B|A)。
事件的獨立性:對于兩個事件A和B,假若事件B的發生對事件A發生的概率產生影響,即P(A|B)≠P(A),則稱事件A與B之間統計相依;假若事件B的發生并不影響事件A發生的概率,稱事件A與B之間統計獨立,即:P(AB)=P(B)P(A)。
聯合概率:若事件兩兩獨立,則P(ABC)=P(A)P(B)P(C),可推廣到n個事件。
5)隨機變量及其分布
隨機變量就是其取值帶有隨機性的變量。在給定的條件下,這種變量取何值事先不能確定,只能由隨機試驗的結果來定,并且隨試驗的結果而變。隨機變量分類離散型和連續型。
隨機變量的概率分布:隨機變量的一切可能值的集合(值域),及其相應的概率稱做隨機變量的概率分布。隨機變量的統計性質由它的概率分布來表征,分為離散型隨機變量分布和連續性隨機變量分布兩類。
離散型隨機變量分布定義:離散型隨機變量X的每一個可能的取值xi和隨機變量取該值的概率p(xi)之間所確立的對應關系。p(xi)(i=1,2,…)稱作隨機變量X的概率分布或概率函數,滿足p(xi)≥0,且各值和為1。
連續性隨機變量分布定義:連續型隨機變量X在某一數值區間[a,b]內取值的概率等于豎立在該區間上的,以密度曲線為上底的曲邊梯形的面積,寫作:
總結
以上是生活随笔為你收集整理的【数据挖掘知识点二】概率基础的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【正一专栏】老夫老妻了,你还会说我爱你吗
- 下一篇: 【正一专栏】儿时的夏天——似水流年