【生信】统计学基础知识
【生信】統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)
本文圖片來(lái)源網(wǎng)絡(luò)或?qū)W術(shù)論文,文字部分來(lái)源網(wǎng)絡(luò)與學(xué)術(shù)論文,僅供學(xué)習(xí)使用。
本文參考統(tǒng)計(jì)學(xué)知識(shí)大梳理_lovenankai的專欄-CSDN博客
目錄
【生信】統(tǒng)計(jì)學(xué)基礎(chǔ)知識(shí)
1、首先建立思維模式
2、如何處理“一維”數(shù)據(jù)
?小結(jié)——對(duì)于“一維”數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)方法分析的思路如下:
3、如何處理“二維”數(shù)據(jù)
1、對(duì)于一個(gè)事件的情況
?2、對(duì)于一個(gè)分布
? 3、對(duì)于多個(gè)事件的情況
小結(jié)——對(duì)于“二維”事件的處理方法:
4、“小樣本”預(yù)測(cè)“大總體”
step1:抽取樣本
step2:預(yù)測(cè)總體(點(diǎn)估計(jì)預(yù)測(cè),區(qū)間估計(jì)預(yù)測(cè))
step3:驗(yàn)證結(jié)果(假設(shè)檢驗(yàn))
小結(jié)——對(duì)于小樣本預(yù)測(cè)大總體的方法:
1、首先建立思維模式
當(dāng)我們開(kāi)始處理數(shù)據(jù)時(shí),首先需要明確統(tǒng)計(jì)學(xué)中的研究對(duì)象,可以將對(duì)象分別看做“一維”和“二維”的。拿到具體的研究對(duì)象后,接下來(lái)確定屬于一維/二維數(shù)據(jù),然后分支檢索需要用到的知識(shí)。
所謂“一維”和“二維”就是:
一維數(shù)據(jù)就是擺在面前的一組/一批/一堆數(shù)據(jù),統(tǒng)計(jì)學(xué)將這類數(shù)據(jù)作為研究對(duì)象。
二維數(shù)據(jù)就是當(dāng)我們研究某個(gè)事件時(shí)(即在數(shù)據(jù)的基礎(chǔ)上加上時(shí)間軸因素),考慮過(guò)去、未來(lái)的發(fā)生幾率和可能性,這類問(wèn)題是概率論的研究范疇。
?
2、如何處理“一維”數(shù)據(jù)
對(duì)于一維數(shù)據(jù)采用統(tǒng)計(jì)學(xué)方法:
集中趨勢(shì)量度:即為這批數(shù)據(jù)找到它們的“代表”。
集中趨勢(shì)量度(平均數(shù))能讓我們知道數(shù)據(jù)集典型值——數(shù)據(jù)中心所在處,但若要給數(shù)據(jù)下具體的結(jié)論,則還是缺少足夠的信息。通過(guò)分析各種距和差,來(lái)判斷數(shù)據(jù)集離平均值的波動(dòng)程度。
分散程度(或變異性的量度):全距,迷你距,四分位數(shù),標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)分
?幾個(gè)數(shù)值的計(jì)算方法:
(1)均值:均值是最常用的平均數(shù)之一。
(2)中位數(shù):又稱中點(diǎn)數(shù),中值。是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù)。
(3)眾數(shù):樣本觀測(cè)值在頻數(shù)分布表中頻數(shù)最多的那一組的組中值。
(4)全距(極差):一組數(shù)據(jù)中最大值與最小值之差。可以用于度量數(shù)據(jù)的分散程度。
(5)迷你距(四分位距):不再度量整個(gè)數(shù)據(jù)集的全距,而是度量中央部分?jǐn)?shù)據(jù)集的全距,通過(guò)迷你距可以有效忽略異常值的存在。而通過(guò)一個(gè)統(tǒng)一的方法來(lái)對(duì)數(shù)據(jù)集進(jìn)行劃分,將有助于我們確保多批數(shù)據(jù)集處理時(shí)所有都是以相同的方式忽略了異常值。
四分位距一定程度上反應(yīng)了數(shù)據(jù)的分散程度,但是卻無(wú)法精準(zhǔn)的告訴我們,這些數(shù)值具體出現(xiàn)的頻率
計(jì)算方法:所有觀測(cè)值從小到大排序后四等分,處于三個(gè)分割點(diǎn)位置的數(shù)值就是四分位數(shù):Q1,Q2和Q3。
迷你距= 上四分位數(shù) - 下四分位數(shù)
我們度量每批數(shù)據(jù)中數(shù)值的“變異”程度時(shí),可以通過(guò)觀察每個(gè)數(shù)據(jù)與均值的距離來(lái)確定,各個(gè)數(shù)值與均值距離越小,變異性越小數(shù)據(jù)越集中,距離越大數(shù)據(jù)約分散,變異性越大。方差和標(biāo)準(zhǔn)差就是用于表征數(shù)據(jù)變異程度的概念。
(6)方差:數(shù)值與均值的距離的平方數(shù)的平均值。
(7)標(biāo)準(zhǔn)差:標(biāo)準(zhǔn)差為方差的開(kāi)方。
?(8)標(biāo)準(zhǔn)分:表征距離均值的標(biāo)準(zhǔn)差的個(gè)數(shù)。當(dāng)比較均值和標(biāo)準(zhǔn)差各不相同的數(shù)據(jù)集時(shí),我們可以把這些數(shù)值視為來(lái)自同一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集,然后進(jìn)行比較。標(biāo)準(zhǔn)分將把每一個(gè)數(shù)據(jù)集轉(zhuǎn)化為通用的分布形態(tài),進(jìn)行比較。標(biāo)準(zhǔn)分可以把正態(tài)分布變?yōu)闃?biāo)準(zhǔn)正態(tài)分布。
通過(guò)標(biāo)準(zhǔn)分使多批數(shù)據(jù)集轉(zhuǎn)化成一種統(tǒng)一通用的分布,進(jìn)而可以對(duì)不同數(shù)據(jù)集的數(shù)據(jù)進(jìn)行比較,而這些不同數(shù)據(jù)集特性可以互不相同,比如各均值和標(biāo)準(zhǔn)差各不相同。
?小結(jié)——對(duì)于“一維”數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)方法分析的思路如下:
描述一批數(shù)據(jù),通過(guò)集中趨勢(shì)分析,找出其“代表值” ;通過(guò)分散和變異性的描述,查看這批數(shù)據(jù)的分散程度。
集中趨勢(shì)參數(shù):均值,中位數(shù),眾數(shù)
分散性和變異性參數(shù)?:??全距,四分位距,方差,標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)分
3、如何處理“二維”數(shù)據(jù)
對(duì)于二維數(shù)據(jù)(即事件)采用概率論方法:
?
1、對(duì)于一個(gè)事件的情況
首先明確幾個(gè)關(guān)于事件的概念:
(1)事件:有概率可言的一件事情,一個(gè)事情可能會(huì)發(fā)生很多結(jié)果,結(jié)果和結(jié)果之間要完全窮盡,相互獨(dú)立。
(2)概率:每一種結(jié)果發(fā)生的可能性。所有結(jié)果的可能性相加等于1,也就是必然。
(3)概率分布:我們把事件和事件所對(duì)應(yīng)的概率組織起來(lái),就是這個(gè)事件的概率分布。概率分布可以是圖象,也可以是表格。
(4)期望:表征了綜合考慮事情的各種結(jié)果和結(jié)果對(duì)應(yīng)的概率后這個(gè)事情的綜合影響值。(一個(gè)事件的期望,就是代表這個(gè)事件的“代表值”,類似于統(tǒng)計(jì)里面的均值)
(5)方差:表征了事件不同結(jié)果之間的差異或分散程度。方差=E (x2)-E (x)2
均勻分布的方差與期望:
?
?2、對(duì)于一個(gè)分布
現(xiàn)實(shí)情況中,當(dāng)某些事件,滿足某些特定的條件,那么我們可以直接根據(jù)這些條件,來(lái)套用一些固定的公式,來(lái)求解這些事件的分布,期望以及方差。
區(qū)分離散/連續(xù)數(shù)據(jù):判別一個(gè)數(shù)據(jù)是連續(xù)還是離散最本質(zhì)的因素在于,一個(gè)數(shù)據(jù)組中數(shù)據(jù)總體的量級(jí)和數(shù)據(jù)粒度之間的差異。差異越大越趨近于連續(xù)型數(shù)據(jù),差異越小越趨近于離散型數(shù)據(jù)。
(1)離散型分布:離散數(shù)據(jù)的概率分布,就是離散分布。這三類離散型的分布,在“0-1事件”中可以采用,就是一個(gè)事只有成功和失敗兩種狀態(tài)。
(2)連續(xù)型分布:連續(xù)型分布本質(zhì)上就是求連續(xù)的一個(gè)數(shù)據(jù)段概率分布。
最典型的是正態(tài)分布 。
正態(tài)分布概率的求法:確定分布和范圍 ,求出均值和方差;?利用標(biāo)準(zhǔn)分將正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布 。最后查表找概率
?連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)是一對(duì)相對(duì)的概念,那么這就意味著在某種“邊界”條件下,離散型分布和連續(xù)型分布之間是可以相互轉(zhuǎn)化的。進(jìn)而簡(jiǎn)化概率分布的計(jì)算。
? 3、對(duì)于多個(gè)事件的情況
多個(gè)事件就要探討事件和事件之間的關(guān)系。采用“概率樹(shù)”和“貝葉斯定理”的方法。
對(duì)立事件:如果一個(gè)事件,A’包含所有A不包含的可能性,那么我們稱A’和A是互為對(duì)立事件
窮盡事件:如何A和B為窮盡事件,那么A和B的并集為1
互斥事件:如何A和B為互斥事件,那么A和B沒(méi)有任何交集
獨(dú)立事件:如果A件事的結(jié)果不會(huì)影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件。
相關(guān)事件:如果A件事的結(jié)果會(huì)影響B(tài)事件結(jié)果的概率分布那么A和B互為獨(dú)立事件。
條件概率:條件概率是指事件A在另外一個(gè)事件B已經(jīng)發(fā)生條件下的發(fā)生概率。 條件概率表示為:P(A|B)。
貝葉斯公式 :設(shè)B1,B2,…Bn…是一完備事件組,則對(duì)任一事件A,P(A)>0,有
當(dāng)我們知道A發(fā)生的前提下B發(fā)生的概率,可以用貝葉斯公式來(lái)推算出B發(fā)生條件下A發(fā)生的概率。
?
小結(jié)——對(duì)于“二維”事件的處理方法:
1.? 事件,概率,概率分布之間的關(guān)系
2.? 期望,方差的意義
3. 連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)之間的區(qū)別和聯(lián)系
4. 幾何分布,二項(xiàng)分布,泊松分布,正態(tài)分布,標(biāo)準(zhǔn)正態(tài)分布
5. 離散分布和正態(tài)分布可以轉(zhuǎn)化
6. 多個(gè)事件之間的關(guān)系,相關(guān)事件和獨(dú)立事件,條件概率和貝葉斯公式
?
4、“小樣本”預(yù)測(cè)“大總體”
現(xiàn)實(shí)生活中,總體的數(shù)量如果過(guò)于龐大我們無(wú)法獲取總體中每個(gè)數(shù)據(jù)的數(shù)值,進(jìn)行對(duì)總體的特征提取進(jìn)而完成分析工作。
?step1:抽取樣本
step2:預(yù)測(cè)總體(點(diǎn)估計(jì)預(yù)測(cè),區(qū)間估計(jì)預(yù)測(cè))
step3:驗(yàn)證結(jié)果(假設(shè)檢驗(yàn))
接下來(lái)詳細(xì)闡述step2-3的具體方法:
1、step2預(yù)測(cè)總體——點(diǎn)估計(jì)量的幾場(chǎng)景
場(chǎng)景1:?樣本無(wú)偏的情況下,已知樣本,預(yù)測(cè)總體的均值,方差。
樣本的均值 = 總體的估算均值(總體均值的點(diǎn)估計(jì)量)? ≈ 總體實(shí)際均值(誤差是否可接受)
?
總體方差? ? ?估計(jì)總體方差
?
?
場(chǎng)景2:已知總體,研究抽取樣本的概率分布
比例抽樣分布:考慮從同一個(gè)總體中取得所有大小為n的可能樣本,由這些樣本的比例形成一個(gè)分布,這就是“比例抽樣分布”。樣本的比例就是隨機(jī)變量。
舉個(gè)栗子:已知所有的糖球(總體)中紅色糖球比例為0.25。從總體中隨機(jī)抽n個(gè)糖球,我們可以求用比例抽樣分布求出這n個(gè)糖球中對(duì)應(yīng)紅球各種可能比例的概率。
樣本均值分布:考慮同一個(gè)總體中所有大小為n的可能樣本,然后用這個(gè)樣本的均值形成分布,該分布就是“樣本均值分布” ,樣本的均值就是隨機(jī)變量。
?
?中心極限定理:如果從一個(gè)非正態(tài)總體X中抽出一個(gè)樣本,且樣本極大(至少大于30),則圖片.png的分布近似正態(tài)分布。
2、step2預(yù)測(cè)總體——區(qū)間估計(jì)量的幾場(chǎng)景
3、step3驗(yàn)證???????結(jié)果
?兩類錯(cuò)誤---即使我們進(jìn)行了“假設(shè)檢驗(yàn)”依然無(wú)法保證決策是百分百正確的,會(huì)出現(xiàn)兩類錯(cuò)誤
?
小結(jié)——對(duì)于小樣本預(yù)測(cè)大總體的方法:
1.? 無(wú)偏抽樣
2.? 點(diǎn)估計(jì)量預(yù)測(cè)(已知樣本預(yù)測(cè)總體,已知總體預(yù)測(cè)樣本)
3. 區(qū)間估計(jì)量預(yù)測(cè)(求置信區(qū)間)
4. 假設(shè)檢驗(yàn)
總結(jié)
以上是生活随笔為你收集整理的【生信】统计学基础知识的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: android生命周期_Android开
- 下一篇: -9 逆序输出一个整数的各位数字_lee