股票多因子模型的回归验
轉(zhuǎn) 股票多因子模型的回歸檢驗(yàn)
作者:石川,量信投資創(chuàng)始合伙人,清華大學(xué)學(xué)士、碩士,麻省理工學(xué)院博士;精通各種概率模型和統(tǒng)計(jì)方法,擅長不確定性隨機(jī)系統(tǒng)的建模及優(yōu)化。知乎專欄:https://zhuanlan.zhihu.com/mitcshi。
**摘要:**收益率均值和因子暴露在截面上的關(guān)系就是多因子模型研究的問題。本文討論一些平時在使用多因子模型時遇到的常見問題,如截面回歸 vs 時序回歸、使用 portfolio returns 和宏觀經(jīng)濟(jì)指標(biāo)作為因子有什么不同、以及因子暴露應(yīng)該如何確定等。
引言:
這是迄今為止我寫的最重要的文章,沒有之一。
本文的題目是股票多因子模型的回歸檢驗(yàn)。說它重要,是因?yàn)樵诙嘁蜃幽P捅挥糜谫Y產(chǎn)定價(選股)越來越普及的今天,很多人不一定搞清楚了多因子模型中常見的時間序列回歸、截面回歸之間到底有什么區(qū)別,以及它們在本質(zhì)上又是何其相似;不一定搞清楚在使用多因子模型給資產(chǎn)定價時,需要關(guān)注的 statistical tests 目標(biāo)到底是什么;不一定搞清楚在回歸殘差存在時序或截面相關(guān)性時,模型參數(shù)的 standard errors 可能完全是不準(zhǔn)確的以至于給出錯誤的推斷……
本文旨在討論一些平時在使用多因子模型時可能遇到的各種困惑(比如什么時候用截面回歸、什么時候用時序回歸;使用 portfolio returns 作為因子和其他比如宏觀經(jīng)濟(jì)指標(biāo)作為因子有什么不同等)。由于篇幅有限,我會把寫作重點(diǎn)放在對核心概念的解讀上。此外,在本文中還會涉及對 Barra 模型的一些思考。
文章的最后一節(jié)將會安利寫作時使用的主要參考文獻(xiàn)(下文中對于時序和截面回歸的講解、以及對 Fama-MacBeth 回歸的說明來自 John Cochrane 的經(jīng)典教材 Asset Pricing 以及他在芝加哥大學(xué)的同名網(wǎng)上課程的相關(guān)部分),感興趣的小伙伴在閱讀本文后可以進(jìn)一步參考。
最后一個小建議:請?jiān)谝粋€能靜下心來思考的心境下和環(huán)境中閱讀此文。
1.多因子模型的回歸測試
多因子模型是 Asset Pricing(資產(chǎn)定價)的一種常見方法(其他的方法還包括 consumption-based model 等)。一個多因子模型(假設(shè) K 個因子)的表達(dá)式如下:
其中 R_i 代表股票 i 的超額收益;β_i 為股票 i 的 K × 1 階因子暴露(factor exposure,也稱因子載荷 factor loading)向量;λ 為 K × 1 階因子收益率均值向量;E[.] 為數(shù)學(xué)求期望公式。
多因子模型研究的核心問題是股票的(超額)收益率期望在截面上(即不同的股票之間)為什么會有差異?—— 根據(jù)模型,如果一支股票在因子上的暴露(β_i)高,則它的期望收益(E[R_i])也應(yīng)該更高。
“ The central economic question is why average returns vary across assets; expected returns of an asset should be high if that asset has high betas or risk exposure to factors that carry high risk premia.”
雖然本文才剛開始,不過讓我們停一停,take a break。我想再強(qiáng)調(diào)一下上面這句話:多因子模型研究的是個股收益率均值在截面上(cross-sectional)的差異。我們不關(guān)心個股的收益率 R_i 在時間序列上是如何隨著每期因子收益率來波動的(這是 model of variance),我們只關(guān)心 R_i 的期望E[R_i] 在截面上和對應(yīng)的 β_i 之間的關(guān)系(這是 model of the mean)。
我們選擇的因子代表了收益率的一種結(jié)構(gòu)。一旦結(jié)構(gòu)給定后,個股(或者任何一個投資組合)的預(yù)期收益率就完全由它在這些因子上的暴露決定了 —— 暴露高,預(yù)期收益率就高;預(yù)期收益率是因子暴露的線性函數(shù)。怎樣找到最好的因子結(jié)構(gòu) —— 即哪些因子使得個股在截面上的預(yù)期收益率區(qū)分度高 —— 就是因子模型研究的問題。
仍然晦澀?用下面這個圖解釋一下(因?yàn)橐鰣D,所以假設(shè)單因子,比如 CAPM 模型)。下圖中橫坐標(biāo)為 β_i,縱坐標(biāo)為 E[R_i],每個點(diǎn)代表一支股票。根據(jù)因子模型,每個股票的預(yù)期收益率 E[R_i] 和 β_i 成正比。圖中這條直線就代表 E[R_i] = β_i × λ,它的斜率 λ 就是因子的預(yù)期收益。由于所有的股票收益率都僅僅是樣本數(shù)據(jù),因此即便 E[R_i] = β_i × λ 完美滿足,在每個樣本內(nèi),E[R_i] 和 β_i × λ 之間也有殘差,正如圖中的 α_i 所示。
因?yàn)橐还灿?N 支股票,因此這張圖中的直線反映的是 N 個 E[R_i] 和 N 個對應(yīng)的 β_i 在截面上的關(guān)系 —— 正如前文反復(fù)強(qiáng)調(diào)的,多因子模型反映的是收益率均值和因子暴露在截面上的關(guān)系。
我們最熟悉的因子模型無疑是 CAPM,它因?yàn)橹挥幸粋€市場因子所以是多因子模型的一個特例。人們最早的猜測是市場因子的收益率和個股在該因子上的 β 就可以解釋截面上不同股票收益率之間的區(qū)別。但大量的實(shí)證結(jié)果顯示如果我們把個股的 E[R_i] 和它們針對市場因子的 β_i 畫出來,則實(shí)際的斜率較模型的結(jié)果來說太小了,說明僅僅用單一市場因子無法很好的解釋 E[R_i] 在截面上的差別。
這之后,Black、Jensen 以及 Scholes 提出了 Black CAPM,它在 CAPM 的基礎(chǔ)上又加入了一個因子,使得這個雙因子模型更好的解釋 E[R_i] 在截面上的差別。再后來,Fama 和 French 提出了大名鼎鼎的三因子模型,它在市場因子的基礎(chǔ)上加入 HML 和 SMB 兩個因子。這些努力都是為了能夠更好的解釋我們在股票收益率數(shù)據(jù)中觀察到的 E[R_i] 在截面上的差別。
拿來一個多因子模型,應(yīng)該怎么定量的評估它能否很好的解釋 E[R_i] 呢?我們應(yīng)該關(guān)注三點(diǎn):Estimate(估計(jì))、Standard Errors(標(biāo)準(zhǔn)誤)、以及?Test(檢驗(yàn)),見下表。
對于截面關(guān)系式 E[R_i] = β_i’λ + α_i,我們使用回歸分析(既可以通過時序回歸、也可以是截面回歸,后面會具體講)確定參數(shù) α、β、λ 的估計(jì)值和標(biāo)準(zhǔn)誤。只有有了準(zhǔn)確的(無偏且相合)估計(jì)值和正確的標(biāo)準(zhǔn)誤,才能評價因子是否有效(比如正確計(jì)算因子收益率 λ 的置信區(qū)間,從而判斷這個因子是否有風(fēng)險溢價)。下文會談到,由于殘差 α 在截面以及時序(特別是截面)上有相關(guān)性,因此在標(biāo)準(zhǔn)誤的計(jì)算上必須格外小心。
在上述截面關(guān)系式中,α_i 代表了個股 i 的定價錯誤(pricing error)。如果我們能夠在統(tǒng)計(jì)上證明所有股票的 α_i 都很接近零,那么這個多因子模型就是很好的模型 —— 這些因子能夠較好的解釋個股截面預(yù)期收益率的差別。因此,多因子模型的回歸檢驗(yàn)中的重中之重、也是我們唯一關(guān)注的 test,就是所有這些 α_i 聯(lián)合起來是否在統(tǒng)計(jì)上足夠接近零。
“ We want to know whether all the pricing errors are jointly equal to zero.”
根據(jù)上述說明,多因子模型的回歸檢驗(yàn)可以簡單總結(jié)成以下幾點(diǎn):
1. 挑選因子,計(jì)算個股在這些因子上的暴露 β_i;
2. 找到個股(超額)收益率均值 E[R_i] 和因子暴露 β_i 在截面上的關(guān)系;
3. 計(jì)算每個個股的定價錯誤 α_i,聯(lián)合檢驗(yàn)這些 α_i 是否在統(tǒng)計(jì)上為零。
無論我們用什么因子(基本面因子、宏觀經(jīng)濟(jì)因子、技術(shù)面因子);無論在確定截面關(guān)系時我們采用時序回歸還是截面回歸;對多因子模型的最終評判都轉(zhuǎn)化成一個核心問題 —— 這些 α_i 聯(lián)合起來是否在統(tǒng)計(jì)上為零。
下面先來看看如何通過時間序列回歸找到截面關(guān)系。
2.時間序列回歸
如果模型中的因子是 portfolio returns(即使用投資組合收益率作為因子),那么可以通過**時間序列回歸(time-series regression)**來分析 E[R_i] 和 β_i 在截面上的關(guān)系。
例如,Fama and French (1993) 提出了影響深遠(yuǎn)的三因子模型,它里面的三個因子,即市場、HML、SMB 都是投資組合的收益率。其中 HML 和 SMB 是通過 BP 和市值將股票排序然后做多一部分并同時做空一部分來構(gòu)建的投資組合。以 HML 為例,它代表著 high book-to-market ratio 公司相對于 low book-to-market ratio 公司的超額收益。該因子叫做 HML 因子而非 BP 因子,其意義也是強(qiáng)調(diào)因子本身是一個投資組合的收益率,而非 BP。Fama 和 French 用這三個投資組合的收益率來解釋個股或者其他投資組合在截面上的收益率。順便提一句,關(guān)于三因子模型的重要性以及其作用,Fama and French (1996) 給出了非常詳盡的解讀,非常值得一讀。
令 f_t 表示 t 期因子向量(不同投資組合的收益率);使用 f_t 對每支個股 i 的收益率 R_it 做時間序列回歸:
上述時間序列回歸中,回歸方程右側(cè)的 regressors 是因子收益率 f_t,左側(cè)的變量是 R_it,回歸得到的系數(shù)是個股 i 在因子上的暴露 β_i,截距 α_i,以及隨機(jī)的殘差 ε_it。
將上述時間序列回歸結(jié)果在時序上取均值可得(下式中 E_T[.] 中下標(biāo) T 表示在時序上取均值):
上式正是個股期望收益率和因子暴露在截面上的關(guān)系式。當(dāng)因子本身是投資組合時,我們只需要在時序上做回歸得到因子暴露和截距。雖然只做了時序回歸,但是通過在時序上取均值就可以從時序回歸中得出 E[R_i] 和 β_i 在截面上的關(guān)系。比較上面兩個關(guān)系式不難發(fā)現(xiàn),時間序列回歸中的截距 α_i 恰恰就是截面關(guān)系式中的個股 i 的定價錯誤。
Black, Jensen and Scholes (1972) 基于如上的論述給出了時序回歸法中求解因子預(yù)期收益率的簡單方法 ——?因子收益率 f_t 在時序上的均值就是因子的預(yù)期收益率:
下面仍然以單因子這種最簡單的情況來畫圖看看通過上述時間序列回歸得到的預(yù)期收益率和 β_i 的截面關(guān)系長什么樣子。圖中的紅色直線為 E[R_i] = β_iE[f],當(dāng) β_i = 0 時,E[R_i] = 0;此外,如果我們用給因子模型解釋因子投資組合自己,由于因子組合的 β_i = 1,因此有 E[R_i] = E[f]。以上論述說明時間序列回歸得到的 E[R_i] = β_iE[f] 這條直線一定會經(jīng)過 (0, 0) 和 (1, E[f]) 兩點(diǎn)。
圖中所有藍(lán)黑色的點(diǎn)代表著個股;紅色的點(diǎn)代表著因子投資組合。時間回歸再按時間求均值而得到的因子模型 E[R_i] = β_iE[f] 就是經(jīng)過原點(diǎn)和紅點(diǎn)的那條紅色直線。所有藍(lán)黑色點(diǎn)(個股)到這條紅線的距離就是個股的定價錯誤 α_i,這條時序回歸得到的直線并不是以最小化 α_i 的平方和為目的求出的,這是時序回歸和下一節(jié)要介紹的截面回歸的最大差別(截面回歸是以最小化 α_i 的平方和為目標(biāo)的)。
得到了回歸模型的參數(shù),下一步就是計(jì)算各種參數(shù)的標(biāo)準(zhǔn)誤、以及檢驗(yàn)我們唯一關(guān)注的問題:所有股票的錯誤定價 α_i 聯(lián)合起來是否在統(tǒng)計(jì)上為零。
在時間序列回歸殘差 ε_it 不相關(guān)且方差相同(homoskedastic)時,時序回歸參數(shù)的標(biāo)準(zhǔn)誤可以由 OLS(ordinary least square)的標(biāo)準(zhǔn)公式給出。此外,如果 ε_it 滿足 IID Normal,Gibbons, Ross and Shanken (1989) 給出了 α_i 的檢驗(yàn)統(tǒng)計(jì)量(又稱為 GRS test statistic):
然而,一旦 ε_it 之間存在相關(guān)性或者異方差性,傳統(tǒng) OLS 的標(biāo)準(zhǔn)誤公式就是錯誤的,且上述 α_i 的檢驗(yàn)統(tǒng)計(jì)量也是有問題的。在這種情況下,就要請出大殺器 Generalized Method of Momentums(GMM)。它由 Lars Peter Hansen 于 1982 年提出(Hansen 1982),GMM 可以解決 OLS 中殘差的相關(guān)性和異方差性的問題,得到準(zhǔn)確的估計(jì)以及標(biāo)準(zhǔn)誤。GMM 是 Hansen 于 2013 獲得諾貝爾經(jīng)濟(jì)學(xué)獎的原因之一,足見其在計(jì)量經(jīng)濟(jì)學(xué)中的重要性。具體如何使用 GMM 超出本文的范疇,感興趣的讀者可以參考本文最后一節(jié)安利的參考文獻(xiàn)。
以上就是通過時間序列回歸得到多因子模型的過程。最重要的三點(diǎn)總結(jié)如下:
1. 因子必須是 portfolio returns,才可只進(jìn)行時間序列回歸而無需進(jìn)一步的截面回歸;時序回歸得到了投資品在這些因子上的暴露 β_i;時序回歸中得到的 α_i(截距項(xiàng))就是截面關(guān)系上個股的定價錯誤。
2. 將時序回歸結(jié)果在時間上取均值,就得到個股收益率和因子暴露在截面上的關(guān)系。該關(guān)系的確定不以最小化 α_i 的平方和為目標(biāo)。
3. 在時序回歸殘差 ε_it 滿足 IID Normal 的條件下,可以通過 GRS test 來檢驗(yàn) α_i;否則則可以通過 GMM 來檢驗(yàn) α_i。
3.截面回歸
下面來看看截面回歸(cross-sectional regression)。截面回歸的最大好處是,因子可以不是 portfolio returns。比如因子可以是 GDP、CPI、利率這些宏觀經(jīng)濟(jì)指標(biāo)。顯然,它們的因子取值不是收益率,因子收益率需要通過截面回歸得到。但是在那之前,我們必須先通過時間序列回歸得到個股在不同因子上的暴露。因此,截面回歸的第一步仍然是時序回歸,以確定因子暴露。
有的小伙伴可能會問,那些因子取值(比如 GDP 的取值、CPI 的取值)不能直接當(dāng)作 β_i 嗎?答案是否定的。首先這沒有意義,因?yàn)闀r序上我們關(guān)注的是這些因子的變化對個股收益率變化的解釋程度(model of variance),這由個股收益率對這些因子的敏感程度,即時序回歸的系數(shù) β_i,而非因子本身的大小決定。第二,行業(yè)不同、基本面存在差異的公司受宏觀經(jīng)濟(jì)的影響也不同,因此它們在同樣宏觀經(jīng)濟(jì)指標(biāo)上的暴露勢必不同。
一般的,假設(shè)因子不是 portfolio returns,首先進(jìn)行時序回歸確定 β_i:
上式和前一節(jié)時序回歸中的表達(dá)式幾乎一樣,唯一的例外是這里的截距項(xiàng)我特意用了 a_i,而非 α_i,這是因?yàn)槿绻蜃颖旧聿皇峭顿Y組合收益率,則該截距并不是稍后我們通過截面回歸得到的個股的定價錯誤。
得到 β_i 后,進(jìn)行第二步 —— **截面回歸,從而確定每個因子的預(yù)期收益率。**在截面回歸時,回歸表達(dá)式的右側(cè) regressors 是 β_i,左側(cè)是個股的預(yù)期收益率(即在整個 T 期的收益率均值)E[R_i]。因此,截面回歸的表達(dá)式為:
回歸的目標(biāo)是找到因子預(yù)期收益率 λ,和代表股票定價錯誤的殘差 α_i。仍以單因子為例說明通過截面回歸得到的個股收益率均值和因子暴露的關(guān)系(下圖)。假設(shè)在截面回歸時采用 OLS。此外,定價理論暗示除 α_i 之外,截面收益率均值應(yīng)該僅由 β_i 決定,因此一般來說截面回歸沒有截距項(xiàng)(當(dāng)然我們也可以加上)。在這樣的假定下,截面回歸 OLS 將通過原點(diǎn)并最小化所有個股殘差 α_i 的平方和。
當(dāng)殘差 α_i 滿足 IID 時,回歸測試的 estimate、standard errors、以及我們關(guān)注的 α_i 的檢驗(yàn)分別為:
雖然上面給出了 OLS 截面回歸下各種關(guān)注變量的表達(dá)式,但不幸的是,這并沒有太多用。這是因?yàn)樵?strong>截面上個股的殘差存在明顯的相關(guān)性。這種相關(guān)性雖然不會影響 OLS 的估計(jì),但是會使 OLS 給出的標(biāo)準(zhǔn)誤存在巨大的誤差(低估)。為此,可以使用?GLS(generalized least squares)取代 OLS。GLS 考慮了殘差的協(xié)方差因此可以得到準(zhǔn)確的標(biāo)準(zhǔn)誤。但是,由于必須估計(jì)殘差的協(xié)方差矩陣,在現(xiàn)實(shí)中使用 GLS 存在巨大的障礙。如果有上千支股票,那么協(xié)方差矩陣中有太多的參數(shù)需要估計(jì),不切實(shí)際。
怎么辦呢?再次請出大殺器 —— GMM,它可以輕松的求出我們需要的各種量(Hansen 功不可沒啊)。另外值得一提的是,在截面回歸時用到的 β_i 并不是已知、真實(shí)的,而是從時間序列回歸得出的估計(jì)值,它們稱為 generated regressors,存在誤差。Shanken (1992) 給出了解決該問題的修正方法,稱為 Shanken correction。利用 Shanken correction 和 GMM,就可以檢驗(yàn) α_i 是否為零了。
好了,又到了我們小結(jié)的時候了:
1. 截面回歸不要求因子是 portfolio returns,應(yīng)用更加廣泛(當(dāng)然因子也可以是 portfolio returns)。但是截面回歸的第一步仍然是通過時間序列回歸得到的是投資品在因子上的暴露 β_i。第二步才是截面回歸。因此截面回歸又稱為 two-pass regression estimate。
2. 得到 β_i 后,使用個股的平均收益率 E[R_i] 和 β_i 進(jìn)行截面回歸(一共 N 個點(diǎn),每個點(diǎn)對應(yīng)一對兒 E[R_i] 和 β_i),回歸得到因子的期望收益率 λ 和個股的殘差 α_i。常見的回歸方法是 OLS —— 以最小化殘差平方和為目標(biāo),或 GLS —— 考慮殘差之間的相關(guān)性。
3. 由于 β_i 是估計(jì)值,且 α_i 的協(xié)方差矩陣難以估計(jì),更方便的辦法是使用大殺器 GMM 得到準(zhǔn)確的估計(jì)以及檢驗(yàn) α_i 是否為零。
4.時序回歸 vs 截面回歸
前面兩節(jié)分別介紹了時序回歸和截面回歸。有意思的一點(diǎn)是,當(dāng)因子是投資組合時,我們既可以使用時序回歸又可以使用截面回歸。那么它們二者的區(qū)別是什么呢?
下圖以單因子為例,直觀的比較了二者的區(qū)別。在時序回歸中,我們僅僅在時序上對每支個股做一次回歸,然后通過在在時序上取均值(E_T[.])來得到隱含的截面關(guān)系,因此時序回歸的 E[R_i] = β_iλ 必然經(jīng)過原點(diǎn)和作為因子投資組合的平均收益率所對應(yīng)的點(diǎn) (1, E_T[f])。反觀截面回歸,它利用時序回歸得到的 β_i 和股票在時序上的均值 E[R_i] 進(jìn)行了第二次回歸。以 OLS 為例,這個截面回歸將要最小化所有個股殘差 α_i 的平方和。
和時序回歸得到的最終 E[R_i] = β_iλ 關(guān)系式相比,截面回歸利用了所有個股的數(shù)據(jù)。從某種意義上來說,這更合理。對于時序回歸,因子的平均收益率就是該因子組合在 T 期收益率上的均值:λ = E_T[f]。而對于截面回歸來說,因子收益率通過 OLS 或 GLS 確定,取值和 E_T[f] 不同。這是二者最大的區(qū)別。
此外,當(dāng)多個因子同時進(jìn)行截面回歸時,根據(jù) Barra 純因子模型的理論,得到的因子收益率是純因子組合的收益率 —— 即截面回歸后得到的因子組合中個股的權(quán)重與最初構(gòu)建因子時使用的個股權(quán)重會有所不同。純因子組合較其他因子組合有一定的優(yōu)勢,這有助于更好的評判因子的風(fēng)險溢價。
時序回歸和截面回歸有時也被同時使用來檢驗(yàn)?zāi)P?#xff08;選擇的因子)是否有意義。考慮下面這個例子。假如我們選了一個因子,E[R_i] 和 β_i 在截面上的關(guān)系如圖中那些藍(lán)黑色圓點(diǎn)表示。如果我們進(jìn)行時序回歸(圖中紅線),會得到一個正的因子預(yù)期收益率;而如果我們進(jìn)行帶有截距項(xiàng) γ 的截面回歸,即 E[R_i] = γ + β_iλ + α_i),則會得到完全不同的結(jié)果(圖中藍(lán)線):負(fù)的因子預(yù)期收益率。兩個模型的背離說明因子的選擇有問題,需要進(jìn)一步考察。
5.Fama-MacBeth 回歸
1973 年,Fama 和 MacBeth 提出了 Fama-MacBeth Regression(Fama and MacBeth 1973),目的是為了檢驗(yàn) CAPM。Fama-MacBeth 也是一個兩步截面回歸檢驗(yàn)方法;它非常巧妙排除了殘差在截面上的相關(guān)性對標(biāo)準(zhǔn)誤的影響,在業(yè)界被廣泛使用。這篇文章也是計(jì)量經(jīng)濟(jì)學(xué)領(lǐng)域被引用量最高的文章之一。
Fama-MacBeth 回歸的第一步仍然是通過時間序列回歸得到個股收益率在因子上的暴露 β_i,這一步和本文第三節(jié)截面回歸中的第一步一致。
在第二步截面回歸中,Fama-MacBeth 在每個時間 t 上進(jìn)行了一次截面回歸,這是 Fama-MachBeth 和上面的截面回歸最大的不同:
比較一下上式和本文第三節(jié)截面回歸中的表達(dá)式。在一般的截面回歸中,我們首先在時序上對 R_it, t = 1, 2,…,T 取均值,得到個股的平均收益率 E[R_i]。之后用 E[R_i] 和 β_i, i = 1, 2, …, N 在截面上做回歸,因此這里只做了一次截面回歸。
而 Fama-MacBeth 截面回歸時在每個 t 做一次獨(dú)立的截面回歸(如果有 T = 500 期數(shù)據(jù),這就意味著進(jìn)行 500 次截面回歸),然后把這 T 次截面回歸得到的參數(shù)取均值作為回歸的 estimate:
**上述方法的巧妙之處在于它把 T 期的回歸結(jié)果當(dāng)作 T 個獨(dú)立的樣本。**參數(shù)的standard errors 刻畫的是樣本統(tǒng)計(jì)量在不同樣本間是如何變化的。在傳統(tǒng)的截面回歸中,我們只進(jìn)行一次回歸,得到 λ 和 α 的一個樣本估計(jì)。而在 Fama-MacBeth 截面回歸中,我們把T期樣本點(diǎn)獨(dú)立處理,得到 T 個 λ 和 α 的樣本估計(jì)。由此便能很容易且正確的求出 λ 和 α 的標(biāo)準(zhǔn)誤:
此外,通過 T 個 α 的估計(jì)值,很容易求出殘差的協(xié)方差矩陣并由此檢驗(yàn)個股的定價錯誤是否聯(lián)合為零。從上面的描述不難看出,Fama-MacBeth 截面回歸和傳統(tǒng)截面回歸的區(qū)別是:
Fama-MacBeth 截面回歸先在不同的 t 上分別用 R_it 和做回歸,再把回歸的結(jié)果 λ_t 和 α_it 在時序上取均值得到 λ = E[λ_t] 和 α = E[α_it];
傳統(tǒng)截面回歸是先把 R_it 在時序上取均值得到 E[R_it] 然后再進(jìn)行一次截面回歸,直接得到 λ 和 α。
所以簡單來說,Fama-MacBeth 先回歸再均值;而傳統(tǒng)截面回歸先均值再回歸。當(dāng)截面回歸中的 regressor,即 β_i,在所有 T 期上不變時,上述兩種截面回歸得到的 estimate 是一致的(Fama-MacBeth 在處理殘差的截面相關(guān)性上仍然有優(yōu)勢)。
在 Fama and MacBeth (1973) 中,作者在時序回歸求解 β_i 時采用了滾動窗口,因此 β_i 在不同的 t 是會發(fā)生變化的。如果我們用所有樣本數(shù)據(jù)來一次估計(jì) β_i,那么它們在所有 T 期的取值相同。
由上面的介紹可知,Fama-MacBeth 回歸的最大優(yōu)點(diǎn)是它排除了殘差截面相關(guān)性對標(biāo)準(zhǔn)誤的影響。股票的殘差收益率在截面上具有很高的相關(guān)性,因此該修正對于準(zhǔn)確計(jì)算標(biāo)準(zhǔn)誤至關(guān)重要。下面來說說它的不足。
首先,Fama-MacBeth 回歸對于殘差在時序上的相關(guān)性無能為力。如果殘差在時序上存在相關(guān)性,則需要對Fama-MacBeth 回歸得到的標(biāo)準(zhǔn)誤進(jìn)一步修正。Petersen (2009) 分析了不同的回歸技術(shù)在分析面板數(shù)據(jù)(panel data)時由于忽略殘差的時序或截面相關(guān)性而導(dǎo)致不準(zhǔn)確的標(biāo)準(zhǔn)誤(低估了其真實(shí)值)。這篇文章非常值得一讀。其次,上文提到,在截面回歸中用到的 β_i 并不是已知的,而是通過時間序列得到的估計(jì)值(generated regressors),因此存在誤差。Fama-MacBeth 回歸對此也無能為力,需要 Shanken correction。
如今我們有了 GMM 這樣的大殺器,能夠方便的處理殘差的各種相關(guān)性。但不要忘記,Fama-MacBeth 回歸比 GMM 早提出了近 10 年!在沒有 GMM 或其他更先進(jìn)方法的年代,Fama-MacBeth 回歸通過在截面回歸時“先回歸、再均值”的思路巧妙的排除了殘差截面相關(guān)性的影響,得到了學(xué)術(shù)界的廣泛認(rèn)可,影響深遠(yuǎn)。時至今日,在計(jì)量經(jīng)濟(jì)學(xué)做面板分析的文章中,仍有約 1/3 的文章采用 Fama-MacBeth 回歸(Petersen 2009)。
Fama-MacBeth 回歸的要點(diǎn)總結(jié)如下:
1. Fama-MacBeth 回歸也是一種截面回歸,因子可以是 portfolio returns,也可以是別的指標(biāo)。和普通截面回歸一樣,它的第一步也是通過時間序列回歸得到的是投資品在因子上的暴露 β_i。
2. 得到 β_i 后,在每期(共 T 期)的截面上使用個股的收益率 R_it 和 β_i 進(jìn)行截面回歸,回歸得到該期因子的收益率 λ_t 和個股的殘差 α_it。通過 T 次截面回歸、得到 T 個的估計(jì)后,將它們?nèi)【档玫揭蜃邮找媛示?λ = E[λ_t] 和個股殘差均值 α = E[α_it]。
3. Fama-MacBeth 回歸排除了殘差截面相關(guān)性對標(biāo)準(zhǔn)誤的影響,但是對時序相關(guān)性無能為力。
6.對 Barra 模型的思考
本節(jié)是開放性的討論,陳述對 Barra 模型的一些思考。Barra 模型和本文第二、三節(jié)介紹的時序和截面回歸都有所不同。
Barra 的多因子模型考慮了行業(yè)因子和來自基本面和技術(shù)面的風(fēng)格因子。Barra 的模型也是截面回歸模型。但是和本文中介紹的模型不同之處是:在 Barra 模型中,因子暴露并非來自時間序列回歸,而是直接來自基本面或者技術(shù)面數(shù)據(jù)本身。我查閱了前后幾代 Barra 的文檔,比如 Grinold and Kahn (1994),Menchero et al. (2011),Orr et al. (2012),得到的都是上述結(jié)論。
舉個例子,比如我們熟悉的 Book-to-Market ratio。在 Fama-French 三因子模型中,BP 被用來構(gòu)建了一個 HML 投資組合,而這個投資組合的收益率作為因子,個股在這個因子上的暴露由時間序列回歸確定,與個股實(shí)際的 BP 無關(guān)。而在 Barra 模型中,BP 直接被用來當(dāng)作因子,個股在因子上的暴露就是使用財(cái)報中 Book value 和股價計(jì)算出來的比例經(jīng)過必要的標(biāo)準(zhǔn)化確定的。
有了因子暴露后,Barra 和傳統(tǒng)截面回歸一樣,是通過截面回歸來確定每個因子的收益率(純因子模型)。所以**,Barra 模型(業(yè)界代表)和學(xué)術(shù)界流行的因子模型最大的不同就是因子暴露 β 的確定。**
對于風(fēng)格因子來說(行業(yè)因子我們一會兒另說),這兩種確定 β 的方法在我看來各有千秋。時間序列回歸得到的 β,它的變化注定是緩慢的,且回歸中也有大量的噪聲。直接用基本面或者技術(shù)面數(shù)據(jù)作為 β,可以更快的捕捉公司的變化。
然而,使用基本面或者技術(shù)面數(shù)據(jù)直接作為 β 則必須進(jìn)行標(biāo)準(zhǔn)化(原始數(shù)據(jù)拿來直接當(dāng)作因子暴露會有很大問題)。我在本文反復(fù)強(qiáng)調(diào)了因子模型是分析個股平均收益率在截面上隨 β 的變化,即預(yù)期收益率的大小完全由股票在因子上的暴露大小決定。試想一下,如果我們用不經(jīng)過標(biāo)準(zhǔn)化的市值作為因子暴露,如果公司 A 的市值是 B 的市值的 100 倍,那難道我們能說市值因子的收益率對 A 的收益率的影響是對 B 的收益率的影響的 100 倍嗎?顯然是不能的。所以對于市值因子,常見的是首先取對數(shù),然后再進(jìn)行標(biāo)準(zhǔn)化。對于其他的風(fēng)格因子,也需要采用相應(yīng)的標(biāo)準(zhǔn)化處理。在 Barra 的文檔中對如何標(biāo)準(zhǔn)化因子暴露有詳細(xì)的說明。
對于行業(yè)因子,Barra 將因子暴露處理成 binary 變量 —— 比如工商銀行在銀行業(yè)的暴露是 1,在其他行業(yè)的暴露為 0(對于業(yè)務(wù)涉及不同行業(yè)的大公司,Barra 允許該公司以不同權(quán)重屬于多個行業(yè))。我認(rèn)為這個處理值得考量。假如某個公司屬于行業(yè) X,但是它的收益率和行業(yè) Y 更相關(guān),那么從建模的角度是不是把該公司算作行業(yè) Y 更有道理?對于行業(yè)因子暴露,可以嘗試使用個股的收益率和行業(yè)的收益率做時間序列回歸,將回歸系數(shù)當(dāng)作行業(yè)因子的暴露。我不清楚 Barra 是否嘗試過上述方法,但這是一個值得思考的問題。
7.結(jié)語
首先,感謝你看到這里。我知道文章很長,我寫的也很痛苦,但我覺著它很重要。
本文介紹了股票多因子模型的回歸檢驗(yàn)。希望你看完后能夠?qū)ΤR姷臅r序回歸、截面回歸、Fama-MacBeth 回歸、以及 Barra 模型等有更深的理解;對如何確定因子暴露,如何計(jì)算因子收益率,以及回歸檢驗(yàn)的終極目標(biāo)是什么(所有殘差 α_i 是否在統(tǒng)計(jì)上為零)有清晰的認(rèn)識。
作為你看到這里的感謝和鼓勵,我放個彩蛋 ——?檢驗(yàn) is NOT everything!
考慮下面兩個因子模型,圖中每個點(diǎn)代表一個股票。圖中給出了它們殘差 α_i 的置信區(qū)間。按照統(tǒng)計(jì)檢驗(yàn)的思路,左圖中大部分殘差的置信區(qū)間都和那條截面回歸關(guān)系式?jīng)]有交集,說明我們要拒絕原假設(shè),即 α_i 統(tǒng)計(jì)上不為零;右圖中大部分殘差的置信區(qū)間和截面回歸關(guān)系式相交,我們接受原假設(shè)。但顯然,左邊的模型更好的反映出股票收益率和因子暴露在截面上的關(guān)系;而右邊的模型表現(xiàn)出的關(guān)系則非常弱(從這些點(diǎn)看不出 E[R_i] 隨 β_i 的增大而增大)。所以,從 economic sense 來說,顯然左邊的模型更好。
最后再來一點(diǎn)點(diǎn)評價。從投資的角度,我們希望因子本身有清晰合理的解釋,但是從多因子模型的角度來說,只要這些因子收益率均值能在截面上解釋個股的預(yù)期收益率,那這個模型就是好模型(所以在因子選股時,我們會重點(diǎn)關(guān)注因子的 IC 和 IR 這些指標(biāo))。因子開發(fā)屬于 empirical work,HML、SMB 是從 real stock return 中挖掘出來的,它們在解釋截面收益率均值時有很好的效果。至于 HML,SMB 為什么有效、背后的含義是什么,搞清楚它們能提升我們使用因子的信心,但是對于評價一個因子模型的好壞并不重要。
好了,這回真的寫完了!最后就是來安利我寫作本文時最重要的參考文獻(xiàn):芝加哥大學(xué) Booth 商學(xué)院的 John Cochrane 教授的著作 Asset Pricing(Cochrane 2005)。該書曾獲得 Paul A. Samuelson Award for Outstanding Scholarly Writing on Lifelong Financial Security,足見其地位。它值得任何對資產(chǎn)定價感興趣的人認(rèn)真讀、仔細(xì)讀、反復(fù)讀。
除了這本書外,對我?guī)椭薮蟮氖?UChicago Online 發(fā)布到網(wǎng)上的 Cochrane 教授的 Asset Pricing 這門課程。感興趣的朋友可以搜來看一看(大概要翻墻)。Cochrane 教授講的非常生動、到位,聽完再結(jié)合他的書一看,那收獲自然是大大的。
在介紹 Asset Pricing 這門課的時候,Cochrane 教授談到:
“
The math in real, academic, finance is not actually that hard. Understanding how to use the equations, and see what they really mean about the world... that's hard, and that's what I hope will be uniquely rewarding about this class.
譯:在現(xiàn)實(shí)和學(xué)術(shù)中,金融中的數(shù)學(xué)其實(shí)并不難。難的是理解如何使用這些方程,以及它們對這個世界的真正意義。這是我希望這門課能帶給你獨(dú)特收獲的地方。”
我也真心希望本文在你使用多因子模型的道路上起到一點(diǎn)點(diǎn)幫助。
參考文獻(xiàn)
Black, F., M. C. Jensen, and M. Scholes (1972). The Capital Asset Pricing Model: Some empirical Tests. In Michael Jensen, Ed., Studies in the Theory of Capital Markets, Praeger, New York NY.
Cochrane, J. H (2005). Asset Pricing (revised edition). Princeton University Press.
Fama, E. F. and K. R. French (1993). Common Risk Factors in the Returns on Stocks and Bonds. Journal of Financial Economics, Vol. 33(1), 3 – 56.
Fama, E. F. and K. R. French (1996). Multifactor Explanations of Asset Pricing Anomalies. The Journal of Finance, Vol. 51(1), 55 – 84.
Fama, E. F. and J. D. MacBeth (1973). Risk, Return, and Equilibrium: Empirical Tests. The Journal of Political Economy, Vol. 81(3), 607 – 636.
Gibbons, M. R., S. A. Ross, and J. Shanken (1989). A Test of the Efficiency of a Given Portfolio. Econometrica, Vol. 57(5), 1121 – 1152.
Grinold R. and R. N. Kahn (1994). Multiple-Factor Models of Portfolio Risk. In A Practitioners Guide to Factor Models.
Hansen, L. P. (1982). Large Sample Properties of Generalized Method of Moments Estimators. Econometrica, Vol. 50(4), 1029 – 1054.
Menchero, J., D. J. Orr, and J. Wang (2011). The Barra US Equity Model (USE4). MSCI Barra Research Notes.
Orr, D. J., I. Mashtaler, and A. Nagy (2012). The Barra China Equity Model (CNE5), Empirical Notes. MSCI.
Petersen, M. A. (2009). Estimating Standard Errors in Finance Panel Data Sets: Comparing Approaches. The Review of Financial Studies, Vol. 22(1), 435 – 480.
Shanken, J. (1992). On the Estimation of Beta-Pricing Models. The Review of Financial Studies, Vol. 5(1), 1 – 33.
來源:量信投資 ? ? 作者:石川 ? ?已獲得轉(zhuǎn)載授權(quán)。
==============================================================
推薦閱讀:
| 多因子選股之有效因子 | https://www.myquant.cn/community/topic/690 |
| 多因子策略之冗余因子 | https://www.myquant.cn/community/topic/695 |
| 多因子選股之策略的實(shí)現(xiàn) | https://www.myquant.cn/community/topic/708/2 |
?
總結(jié)
以上是生活随笔為你收集整理的股票多因子模型的回归验的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 西门子1200系列PLC的CANopen
- 下一篇: 【FPGA混动】基于FPGA的混沌系统开