协方差、相关系数---通俗解释
一、協方差的意義
學過概率統計的孩子都知道,統計里最基本的概念就是樣本的均值,方差,或者再加個標準差。首先我們給你一個含有n個樣本的集合,依次給出這些概念的公式描述,這些高中學過數學的孩子都應該知道吧,一帶而過。
均值:
標準差:
方差:
很顯然,均值描述的是樣本集合的中間點,它告訴我們的信息是很有限的,
而標準差給我們描述的則是樣本集合的各個樣本點到均值的距離之平均。以這兩個集合為例,[0,8,12,20]和[8,9,11,12],兩個集合的均值都是10,但顯然兩個集合差別是很大的,計算兩者的標準差,前者是8.3,后者是1.8,顯然后者較為集中,故其標準差小一些,標準差描述的就是這種“散布度”。之所以除以n-1而不是除以n,是因為這樣能使我們以較小的樣本集更好的逼近總體的標準差,即統計上所謂的“無偏估計”。
而方差則僅僅是標準差的平方。
?
?
為什么需要協方差?
上面幾個統計量看似已經描述的差不多了,但我們應該注意到,標準差和方差一般是用來描述一維數據的,但現實生活我們常常遇到含有多維數據的數據集,最簡單的大家上學時免不了要統計多個學科的考試成績。面對這樣的數據集,我們當然可以按照每一維獨立的計算其方差,但是通常我們還想了解更多,比如,一個男孩子的猥瑣程度跟他受女孩子歡迎程度是否存在一些聯系啊,嘿嘿~協方差就是這樣一種用來度量兩個隨機變量關系的統計量,我們可以仿照方差的定義:
來度量各個維度偏離其均值的程度,標準差可以這么來定義:
協方差的結果有什么意義呢?如果結果為正值,則說明兩者是正相關的(從協方差可以引出“相關系數”的定義),也就是說一個人越猥瑣就越受女孩子歡迎,嘿嘿,那必須的~結果為負值就說明負相關的,越猥瑣女孩子越討厭,可能嗎?如果為0,也是就是統計上說的“相互獨立”。
從協方差的定義上我們也可以看出一些顯而易見的性質,如:
二、相關系數通俗解釋
相關系數的幾何解釋:如果空間想象能力稍好一些,很容易想想到這里的相關系數是什么意思?不就是兩個向量夾角的余弦么,也即?是兩個向量X和Y的夾角。這種解釋不僅僅限于統計的定義,對于隨機變量來說也可以有這樣的解釋,不過把隨機變量看成向量的時候,對應的空間是隨機變量在平移不變下的等價類組成的,而在這個空間中標準差是向量的模,而協方差是向量的內積。根據平面上的經驗我們知道,兩個向量的夾角余弦的絕對值越大表明兩個向量越接近共線,這也解釋了相關系數的含義:兩組數據的相關系數絕對值越大,表明兩者的線性關系越明顯。
?
參考:
1.? http://blog.sina.com.cn/s/blog_79c1d4a90100y0n4.html
2.? http://blog.csdn.net/goodshot/article/details/8611178
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的协方差、相关系数---通俗解释的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AndroidOrientation S
- 下一篇: 卡尔曼滤波---实例讲解