核密度(Kde)
密度估計的問題
由給定樣本集合求解隨機變量的分布密度函數問題是概率統(tǒng)計學的基本問題之一。解決這一問題的方法包括參數估計和非參數估計。
參數估計
參數估計又可分為參數回歸分析和參數判別分析。在參數回歸分析中,人們假定數據分布符合某種特定的性態(tài),如線性、可化線性或指數性態(tài)等,然后在目標函數族中尋找特定的解,即確定回歸模型中的未知參數。在參數判別分析中,人們需要假定作為判別依據的、隨機取值的數據樣本在各個可能的類別中都服從特定的分布。
經驗和理論說明,參數模型的這種基本假定與實際的物理模型之間常常存在較大的差距,這些方法并非總能取得令人滿意的結果。
核密度估計(kde)在某種意義上是一種將高斯思想的混合帶到邏輯極端的算法:它使用由每個點一個高斯分量組成的混合,從而產生一個本質上非參數的密度估計
核函數
這里的核函數有uniform,triangular, biweight, triweight, Epanechnikov,normal等。這些核函數的圖像大致如下圖:
sklearn簡單 實現(xiàn)
from sklearn.neighbors import kde import numpy as npX = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) kde總結
- 上一篇: 额外篇 | basemap(下)
- 下一篇: 股票与债券的区别