三人表决器逻辑表达式与非_机器学习 | 关于参数模型与非参数模型研究
關(guān)注并標(biāo)星索信達(dá)
每天打卡閱讀
更快走進(jìn)金融人工智能世界
━━━━━━
我們是索信達(dá)集團(tuán)旗下的金融人工智能實(shí)驗(yàn)室團(tuán)隊(duì),微信公眾號(hào)(datamargin)將不定期推送原創(chuàng)AI科學(xué)文章。我們的作品都是由實(shí)戰(zhàn)經(jīng)驗(yàn)豐富的AI科學(xué)技術(shù)人員或資深顧問精心準(zhǔn)備,志在分享結(jié)合實(shí)際業(yè)務(wù)的理論應(yīng)用和心得體會(huì)。
文 | 索 信 達(dá) Yvonne Yang
引言
在大數(shù)據(jù)時(shí)代,我們常常面臨成萬上億的數(shù)據(jù),伴隨著的是高維度的變量,當(dāng)今很多學(xué)術(shù)和技術(shù)領(lǐng)域都致力于解決針對(duì)大數(shù)據(jù)的模型構(gòu)造,例如神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)。但對(duì)于金融和商業(yè)領(lǐng)域,變量是如何影響響應(yīng)變量的(可解釋性)、模型是否可靠等因素尤為重要,特別是當(dāng)我們的數(shù)據(jù)集只包含了屈指可數(shù)的幾個(gè)變量,那么特征變量的選取應(yīng)更嚴(yán)謹(jǐn),變量與響應(yīng)變量間關(guān)系的量化也是重要的指標(biāo),此時(shí)可以運(yùn)用更為精細(xì)的模型探索方法。廣義線性模型和廣義加性模型分別由線性模型和加性模型推廣而來,能更廣泛地應(yīng)用于不同分布的數(shù)據(jù),并輔以似然比檢驗(yàn)逐步優(yōu)化模型。本文將從參數(shù)模型和非參數(shù)模型的角度,以廣義線性模型和廣義加性模型為例,配以相應(yīng)的案例,對(duì)模型探索以及優(yōu)化方法進(jìn)行簡(jiǎn)要介紹。1. 參數(shù)回歸模型1.1 傳統(tǒng)線性模型
統(tǒng)計(jì)學(xué)中,參數(shù)模型是一類可以通過結(jié)構(gòu)化表達(dá)式和參數(shù)集表示的模型。為確定兩種或兩種以上變量之間的定量關(guān)系,我們希望通過手中已有的數(shù)據(jù)去“擬合”出一個(gè)“線性方程”,眾所周知的經(jīng)典線性回歸模型(Linear Regression Model)就屬于參數(shù)模型,
它要求響應(yīng)變量y是實(shí)值的且連續(xù)的,用于我們通常所說的“回歸問題”。
1.2 廣義線性模型
1.2.1 模型介紹
日常生活中的許多問題的數(shù)據(jù)形式并不符合“連續(xù)”這個(gè)要求,并且面臨很多“分類問題“,即該把某對(duì)象預(yù)測(cè)為屬于哪一類,這時(shí)傳統(tǒng)的線性回歸模型便顯得約束過于強(qiáng)而導(dǎo)致應(yīng)用范圍的狹窄。此外,對(duì)于一些較為特殊的分布,如偏態(tài)分布和常為重尾分布的金融數(shù)據(jù),該如何選擇模型呢?廣義線性模型(Generalized Linear Model)應(yīng)運(yùn)而生,它將線性回歸的思想推廣到探索多種形式的響應(yīng)變量和回歸變量之間的關(guān)系。其向量形式為:
其中
被稱為連接函數(shù)(link function),滿足平滑(簡(jiǎn)單來說,圖像光滑)且可逆(反函數(shù)存在的函數(shù)是可逆的)的條件,
為給定樣本下Y的分布。
可以看到,當(dāng)y為連續(xù)變量并且我們選擇
作為y|x 的分布,連接函數(shù)取恒等函數(shù)
時(shí),它恰好是傳統(tǒng)的線性回歸模型;邏輯回歸也是其特例,連接函數(shù)為
;而當(dāng)y為離散值且選擇分布為
,連接函數(shù)為
時(shí),模型變?yōu)?#xff1a;
恰好是泊松回歸模型。可以見得,以上常見模型都是廣義線性模型的一種特殊形式,廣義線性模型通過連接函數(shù)將模型變得更靈活而具有普適性。
1.2.2 分布選擇
分布的選擇依賴于給定樣本中y值的分布,y的分布觀察可利用直方圖和核密度估計(jì)(kernel density estimator)。特別的,對(duì)于均值與方差相差甚遠(yuǎn)的離散響應(yīng)變量y,選擇Poisson分布不再是一個(gè)明智的選擇(因?yàn)榉腜oisson分布的隨機(jī)變量均值與方差應(yīng)相等),因此可嘗試用負(fù)二項(xiàng)分布。
圖1. 幾種常見分布
1.2.3 連接函數(shù)
對(duì)于連接函數(shù)的選擇,此處引入指數(shù)族分布的概念:概率密度函數(shù)(p.d.f.)或者概率質(zhì)量函數(shù)(p.m.f.)能化成如下形式的分布,被稱為指數(shù)族分布,
其中
是自然參數(shù),
是尺度參數(shù),且滿足條件:
以下給出一些常見的指數(shù)族分布及其標(biāo)準(zhǔn)連接函數(shù)(canonical link function):
為簡(jiǎn)化得到系數(shù)
的數(shù)學(xué)計(jì)算,通常我們選擇標(biāo)準(zhǔn)連接函數(shù),特別地,對(duì)于要求y值大于0的響應(yīng)變量,可以選擇連接函數(shù)
,以保證預(yù)測(cè)值仍然滿足大于0。
1.2.4 模型優(yōu)化之似然比檢驗(yàn)
對(duì)于參數(shù)不顯著的項(xiàng)(例如X1),說明其對(duì)于目標(biāo)變量的影響不顯著,可是去掉之后模型是否顯著變好,有時(shí)用肉眼無法甄別,此時(shí)可借助似然比檢驗(yàn)。我們希望檢驗(yàn)一個(gè)更“小”的模型是否可行,此處假設(shè)設(shè)定為 :
原假設(shè):
備擇假設(shè):
若
,p值小于顯著性水平時(shí),拒絕原假設(shè),認(rèn)為X1去掉模型效果將顯著變差。1.3 示例
例如在一個(gè)案例中(數(shù)據(jù)來自:https://www.kaggle.com/mirichoi0218/insurance),我們要探索保險(xiǎn)公司給付的保費(fèi)(charges)與年齡、性別、bmi、地區(qū)、抽煙習(xí)慣、小孩數(shù)量之間的函數(shù)關(guān)系,目標(biāo)變量charges為連續(xù)變量,下圖為核密度估計(jì)曲線,發(fā)現(xiàn)其近似Gamma分布,因此可選擇Gamma分布與其標(biāo)準(zhǔn)連接函數(shù)
.
圖2: 目標(biāo)變量charges分布
圖3: gamma分布圖(來自:Wikipedia)
對(duì)于上圖中的數(shù)據(jù)集,當(dāng)模型優(yōu)化至此步,發(fā)現(xiàn)不顯著項(xiàng)(p值大于0.05)大部分與region(地域)有關(guān)(如左圖所示)。去掉region這一項(xiàng)后,重新擬合模型,在參數(shù)顯著性上有所提升,然而AIC略微上升(如右圖所示):
圖4: 模型結(jié)果輸出-優(yōu)化前(左)優(yōu)化后(右)
看起來小小犧牲AIC能換來參數(shù)顯著性的提高,那么把地域特征去除真的能達(dá)到優(yōu)化模型的效果嗎?我們希望檢驗(yàn)一個(gè)更“小”的模型是否可行,當(dāng)顯著性水平設(shè)為
時(shí),根據(jù)如下輸出結(jié)果,p值為0.3989,不拒絕原假設(shè),認(rèn)為“地區(qū)(region)”可從模型中移除,至此模型優(yōu)化結(jié)束。似然比檢驗(yàn)?zāi)芨陀^地告訴我們某一特征能否從模型中移除。
圖5: 似然比檢驗(yàn)結(jié)果
2.非參數(shù)回歸模型
2.1 非參數(shù)模型
參數(shù)模型與非參數(shù)模型的區(qū)別在于:參數(shù)模型預(yù)先設(shè)定了模型的形式,后通過最小化score function求得參數(shù),而非參數(shù)模型不對(duì)隨機(jī)變量預(yù)先假設(shè)任何模型形式,預(yù)測(cè)器的構(gòu)建都依賴于數(shù)據(jù),可以自由地從數(shù)據(jù)中學(xué)習(xí)出模型,具有極大的靈活性。在構(gòu)造目標(biāo)函數(shù)時(shí),非參的方法尋找合適的訓(xùn)練數(shù)據(jù),同時(shí)保留一些對(duì)數(shù)據(jù)的泛化能力, 因此,這些非參方法能夠擬合大多數(shù)的函數(shù)形式。例如K近鄰算法就是典型的非參模型,對(duì)于一個(gè)新的數(shù)據(jù)實(shí)例x,該算法尋找離x最鄰近的K個(gè)樣本,以“多數(shù)取勝”策略來確定x的類別。
受限于先驗(yàn)?zāi)P偷男问?#xff0c;參數(shù)模型有時(shí)無法全面地捕捉到數(shù)據(jù)樣本的特征,且有時(shí)模型形式難以預(yù)先確定。對(duì)于回歸問題而言,常用的非參數(shù)回歸方法有局部多項(xiàng)式回歸(polynomial regression)和樣條回歸(spline regression)。對(duì)于p個(gè)變量的回歸問題,非參數(shù)方法能得到最終的回歸方程
,或向量表示為
.
2.2 從加性模型到廣義加性模型
非參數(shù)回歸的模型形式自由,完全由數(shù)據(jù)驅(qū)動(dòng),適應(yīng)力強(qiáng),但也有顯著的缺點(diǎn),例如“高維詛咒”:當(dāng)維數(shù)較高時(shí),前述的兩種非參數(shù)回歸方法開始變得不穩(wěn)定且收斂減慢,同時(shí)最終的回歸方程解釋性和可視化能力弱。解決維度問題的一種方法是利用加性模型(Additive Model):
其中
為單變量非參數(shù)方程。該方法相當(dāng)于將1個(gè)p維變量的方程轉(zhuǎn)換成了p個(gè)單變量方程。
相似地,通過連接函數(shù)
,可推廣到廣義加性模型(Generalized additive model):
2.3 示例
采用廣義加性模型,能克服非參數(shù)模型常有的解釋性弱和可視化能力差的問題,可以研究單個(gè)變量的非參數(shù)項(xiàng)。例如探究房?jī)r(jià)與10個(gè)變量的關(guān)系,采用樣條函數(shù)平滑每一個(gè)變量,變量顯著性如下圖所示:
圖6:GAM模型擬合結(jié)果
通過繪制部分預(yù)測(cè)圖,可以探索單個(gè)變量的效應(yīng),其中每幅圖橫軸為單一變量取值,縱軸為對(duì)應(yīng)的
:
圖7: 部分預(yù)測(cè)圖
3. 半?yún)?shù)模型
3.1 模型介紹
在非參數(shù)模型模型優(yōu)化的過程中,有些變量呈現(xiàn)出強(qiáng)烈的線性性,對(duì)該變量
應(yīng)用線性項(xiàng)
替代非線性項(xiàng)放入模型中。此時(shí)得到的是“半?yún)?shù)模型”,它同時(shí)含有線性項(xiàng)和非線性項(xiàng),作為非參數(shù)模型和參數(shù)模型之間的一類模型,半?yún)?shù)模型既繼承了非參數(shù)模型的靈活性,又繼承了參數(shù)模型的可解釋性,可以進(jìn)一步改善非參數(shù)模型的缺陷。半?yún)?shù)模型常具有以下的形式:
其中
為線性項(xiàng) ,
為非線性項(xiàng)。
3.2 示例
在2.3示例中,非參數(shù)模型擬合后發(fā)現(xiàn)x5和x9的非參數(shù)項(xiàng)不夠顯著,進(jìn)一步觀察部分預(yù)測(cè)圖發(fā)現(xiàn)變量x5對(duì)模型響應(yīng)變量沒有貢獻(xiàn)(因?yàn)槠淇v軸刻度始終都在0附近),變量x8和x9表現(xiàn)出線性性(因?yàn)槠洳糠诸A(yù)測(cè)圖近似直線),而其他變量表現(xiàn)出非線性性。據(jù)此移除變量x5,并將x8和x9的項(xiàng)替換為線性項(xiàng),優(yōu)化得到一個(gè)半?yún)⒛P?#xff0c;所有項(xiàng)都是顯著的,結(jié)果如下所示:
圖8: 優(yōu)化后參數(shù)顯著性
4. 小結(jié)
傳統(tǒng)的參數(shù)模型(如線性回歸)只能處理一些簡(jiǎn)單的變量間呈現(xiàn)特定關(guān)系的數(shù)據(jù),當(dāng)面臨的問題更復(fù)雜的時(shí)候,變量關(guān)系說不清道不明,參數(shù)模型不一定能達(dá)到目標(biāo)效果。非參數(shù)模型可以規(guī)避上述問題,具有更好的靈活性,并可通過廣義加性模型獲得更好的性能。此外,半?yún)?shù)模型是介于參數(shù)模型和非參數(shù)模型之間的一類,常由非參模型優(yōu)化得來,兼具靈活性和可解釋性。
對(duì)于樣本量足夠大而變量數(shù)量不大的數(shù)據(jù)集,或者對(duì)一些需要追蹤指標(biāo)變化原因的場(chǎng)景,這些統(tǒng)計(jì)模型及其優(yōu)化方法或許能派上用場(chǎng)。其通過分布選擇與連接函數(shù)推廣到更具有普適性的模型,并能利用統(tǒng)計(jì)方法去檢測(cè)變量的選擇是否具有合理性。無論是廣義線性模型和廣義加性模型,都能學(xué)習(xí)到一個(gè)既定的模型,通過變量參數(shù)或者部分預(yù)測(cè)圖去發(fā)現(xiàn)變量如何影響響應(yīng)變量,同時(shí)對(duì)于新的數(shù)據(jù)集可以產(chǎn)生相應(yīng)的預(yù)測(cè)值。
注:本文使用的分析工具為R語言, 有興趣的讀者可自行了解。
總結(jié)
以上是生活随笔為你收集整理的三人表决器逻辑表达式与非_机器学习 | 关于参数模型与非参数模型研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring 扫描所有_SpringBo
- 下一篇: 爬虫404如何跳过_网站改版之后的一次思