读书笔记2014年第1本:《赤裸裸的统计学》
嚴格的說這本書是在2013年12月去新疆的飛機上開始看的,前面幾章講得比較淺顯,幾乎沒有什么公式,后面讀起來就有點不太容易了,里面的一些統(tǒng)計的例子挺有意思,第9、10、12章涉及到一些概念和公式,就需要慢慢理解了,總體看來這本書還是非常適合統(tǒng)計學入門,擁抱大數(shù)據(jù)時代!
第1章 統(tǒng)計學是大數(shù)據(jù)時代最炙手可熱的學問
學習統(tǒng)計學的意義是什么?用我自己的話來說,可以讓我們不被淹沒在浩瀚的數(shù)據(jù)海洋中,而在其中找出反映其本質的規(guī)律或相關性來。
在未來10年內統(tǒng)計學家將會成為“性感的職業(yè)”。
作者列舉了一些例子來說明統(tǒng)計學的用處:棒球運動員的擊球率,學生的平均成績,用小概率事件來識別考試作弊,吸煙與癌癥有相關性嗎,哪些人最有可能是恐怖分子?
統(tǒng)計學更像是偵探們做的事,數(shù)據(jù)里隱藏著線索和模型,沿著這些線索和模型,我們最終能夠得到有意義的結論。
統(tǒng)計分析可以找到2個變量之間的相關關系,但不代表兩者有因果關系。
ACTION:看看電影《犯罪現(xiàn)場調查:回歸分析》
ACTION:看《統(tǒng)計數(shù)字會撒謊》
第2章 描述統(tǒng)計學
這一章從簡單的平均數(shù)(mean)的概念講起,然后說到中位數(shù)(meadian)、百分位數(shù),再介紹標準差(sd,standard deviation)、方差(var,variance)。對于任何一組數(shù)據(jù)來說,只要知道了平均數(shù)和標準差,我們就能進行簡單的統(tǒng)計學分析,得出一些可以依賴的結論。
平均數(shù)很容易受到異常值的干擾;中位數(shù)對異常值并不敏感。
需要指出的是書中的標準差公式的分母是N,而如果統(tǒng)計數(shù)據(jù)是樣本時,分母就要用N-1。
對于表2-2中的第一組數(shù)字,用R語言分析一下:
a<-c(74,66,68,69,73,70)
sd(a)
會得到3.03315,而不是書中的2.8。
第3章 統(tǒng)計數(shù)字會撒謊
馬克吐溫的一句名言:“謊言有三種:謊言、該死的謊言,以及統(tǒng)計學”
小心統(tǒng)計陷阱。即使最為精確的計算或測量都應該檢查一下是否符合常識。
平均數(shù)和中位數(shù)同樣會被心術不正的人利用。
“某一政策將使9200萬人享受減稅待遇,人均減稅超過1000元。”小心這里的“人均”,少數(shù)的富翁會大幅減稅,會拉高平均值,而大多數(shù)人僅僅減稅100元。
統(tǒng)計的時間跨度較大時,要考慮“通貨膨脹”這個重要因素。
紐約州的“記分卡”制度,對接受心臟搭橋手術的病人的死亡率進行統(tǒng)計,并向公眾公開,以便讓公眾選擇醫(yī)生時有一個參考。但這樣一個“好”政策,卻導致了更多病人的死亡。因為,降低死亡率的最簡單易行的辦法就是拒絕為那些病情嚴重的病人動手術。
第4章 相關性與相關系數(shù)
相關系數(shù)為一個-1到1之間的數(shù),負數(shù)表示負相關,0.8-1.0:極強相關,0.6-0.8:強相關,0.4-0.6:中等程度相關,0.2-0.4:弱相關,0.0-0.2:極弱相關或無相關。
這一章后面第79頁的例子,我用R語言算了一下:
height <- c(74, 66, 68, 69, 73, 70, 60, 63, 67, 70, 70, 70, 75, 62, 74)
weight <- c(193, 133, 155, 147, 175, 128, 100, 128, 170, 182, 178, 118, 227, 115, 211)
畫散點圖:
plot(height, weight)
計算相關性(這里是用的皮爾遜Pearson相關系數(shù))
cor(height, weight)
得到結果:0.8260258
可以用cor.test得到更詳細的信息:
cor.test(height, weight)
結果:
??????? Pearson's product-moment correlation
data:? height and weight
t = 5.2841, df = 13, p-value = 0.0001479
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5439174 0.9403758
sample estimates:
????? cor
0.8260258
?
第5章 概率與期望值
提到了三個概念:概率、期望值和大數(shù)定理。
從統(tǒng)計學角度,購買保險是一項“糟糕的投資”,因為平均來看,你支付給保險公司的錢永遠要比得到的賠付多,所以只需為那些無法輕松承受的意外上保險。
第6章 蒙提?霍爾悖論
講了一個選1、2、3號門中大獎的有趣的概率問題,你對概率的本能理解可能會將你引入歧途。
第7章 黑天鵝事件
從美國金融行業(yè)風險價值VaR模型的崩潰,談到一些常見的與概率有關的錯誤。
想當然地認為事件之間不存在聯(lián)系。兩個飛機引擎發(fā)生故障可能并不是彼此獨立的事件。一個家庭中發(fā)生多起嬰兒猝死案,可能不一定謀殺,而可能與基因有關。
對兩件事件的統(tǒng)計獨立一無所知。“賭徒謬論”。連扔了8次正面,下次正面的概率仍為50%。投籃里沒有“手感”之說。
檢方謬誤的DNA的例子沒看懂。
統(tǒng)計性歧視。男女的保險費不一樣,是來源于統(tǒng)計模型。
第8章 數(shù)據(jù)與偏見
書中說了許多種偏見,但更有用的是“選擇性偏見”,要想得到一個簡單隨機抽樣的樣本并不容易。其它幾種偏見我沒有什么感覺:發(fā)表性偏見、記憶性偏見、幸存者偏見、健康用戶偏見。
第9章 中心極限定理
樣本<—>總體。一個大型樣本的正確抽樣與其所代表的群體存在著相似關系。
樣本平均值是符合正態(tài)分布的。
書中第164頁給出的標準誤差公式是錯誤的,不知道是翻譯的錯誤還是印刷的問題,少了一個除號,應該是:SE = s / sqrt(n)
正好有一份孩子全年級數(shù)學成績,全年級平均大概為94分,用R語言試試中心極限定理,可以看出樣本的平均值是分布在94兩旁。
(對于小型樣本,得不到正態(tài)分布,而是t分布)
?
# 讀入成績單
score <- read.table("scores.txt", header=TRUE)
?
# 試驗100次,每次隨機抽取60名學生
mean.samples <- NULL
for(i in 1:100)
??? mean.samples <- c(mean.samples, mean(sample(score$math,60)))
?
hist(score$math)
hist(mean.samples)
?
第10章 統(tǒng)計推斷與假設檢驗
統(tǒng)計學無法確鑿地證明任何東西,統(tǒng)計推斷的力量在于:先發(fā)現(xiàn)一些規(guī)律和結果,然后再利用概率來證明這些結果的背后最有可能的原因。
零假設(也稱為虛無假設,Null Hypothesis),零假設的內容一般是希望證明其錯誤的假設。
如果能夠證明某個零假設不成立,那么其對立假設(又稱為備擇假設Alternative Hypothesis)肯定為真。
書中關于亞特蘭大統(tǒng)考作弊丑聞、自閉癥腦量的2個例子值得看看。
置信區(qū)間在一個標準差內為68%,兩個標準差內為95,三個標準差內為99.7%。
第11章 民意測驗與誤差幅度
民間測驗一般都會得到一些百分比結果。關于百分比的標準誤差 = sqrt( p * (1-p) / n),p為某種觀點的比例。
里面關于美國大選民意測驗的例子,對我們沒有什么意義,民意測驗的真正挑戰(zhàn)有兩個:設計并選取正確的樣本(人群的選取、問題的選擇、受訪者會不會是在說假話,或是敷衍了事);用恰當?shù)姆绞綇脑摌颖局蝎@取合適的信息。
?
第12章 回歸分析與線性關系
回歸分析能夠在控制其他因素的前提下,對某個具體變量與某個特定結果之間的關系進行量化。
在R語言中l(wèi)m可以輕松地進行線性關系的擬合,我把整個年級的物理與數(shù)學成績進行線性回歸分析:
phy.math <- lm(phy ~ math, score)
plot( phy.math )
得出了幾幅專業(yè)的圖形,可惜我暫時還看不明白。
一個經(jīng)驗法則:當回歸系數(shù)至少是標準誤差的兩倍或以上的時候,該系數(shù)極有可能具有統(tǒng)計學意義。(還不太明白)
本章的最后給出一個挺有意思的統(tǒng)計結論:對政府部分的男性或女性來說,對工作缺乏控制力和話語權會導致心臟病。
第13章 致命的回歸錯誤
回歸分析的7個常見錯誤:
1)用線性擬合來分析非線性關系
2)相關關系并不等于因果關系
3)因果倒置
4)遺漏了重要的解釋變量
5)存在高度相關的兩個解釋變量
6)脫離數(shù)據(jù)進行推斷。忘記了前提條件或適用范圍,而亂套公式。
7)數(shù)據(jù)礦(變量過多)。假如變量過多,尤其當無關變量過多的時候,回歸分析的結果就會被沖淡或稀釋。
第14章 項目評估與“反現(xiàn)實”
精心設計出一組實驗并不太容易。
本文轉自申龍斌的程序人生博客園博文,原文鏈接:http://www.cnblogs.com/speeding/p/3534408.html,如需轉載請自行聯(lián)系原作者
http://www.cnblogs.com/speeding/?
總結
以上是生活随笔為你收集整理的读书笔记2014年第1本:《赤裸裸的统计学》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux CentOS 修改服务器主机
- 下一篇: Ext1.X的CheckboxSelec