生活随笔
收集整理的這篇文章主要介紹了
多因子模型水平测试题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
from:https://zhuanlan.zhihu.com/p/20343666
本試題由李騰、陳燁、鄧岳、
@陳志崗
整理,歡迎補充!
1 試卷說明
測試目標:多因子模型是量化股票組合投資領域的基本工具,介紹性的資料很多。但學習這些資料之后,甚至一些老手也很難判斷自己掌握到什么程度,或是在哪些方面有所缺失。因此,我們幾位從業者合力整理了這份多因子模型水平測試題。以問題的方式激發思考,希望能夠給從業者提供一個深度學習多因子模型的參考方向。列表中的很多問題我們也不知道最好的答案是什么,提示僅供參考。
題目說明:多因子模型假設大量股票的未來收益率中的可預測部分由少數幾個因子決定。由于同時影響大量股票,所以這些因子被稱為共同因子。只影響單只或少數幾只股票的特異因子,不在本試題的討論范圍內。多因子模型可用于收益預測、風險預測和業績歸因。業內對三種用途的多因子模型是否應具有統一的因子組并無定論。因此下面題目中很多問題,如無特殊說明,請針對三種用途分別作答。本試題側重于多因子模型本身的理論和實踐,因此對組合構建/優化、交易技術、歷史回測技術等低相關主題不做深入探討。
2 試題
因子
A股市場驅動因子能分為哪幾大類?【按信息源分:技術、基本面、情緒等】常見的因子類別?【行業、技術、基本面、分析師預測、大數據】除了最常用的回歸法,還有沒有其他方法可以進行單因子測試?各自優劣是什么?注:下面問題均針對回歸法?!救绻梅纸M法,可以看到非線性的關系】單因子測試是否需要糾正版塊、市值偏離等問題?如何糾正?【在版塊偏離方面,可以設置行業虛擬變量。在市值偏離方面,可以取因子對市值回歸的殘差,但這種處理不一定有必要?】行業歸屬因子是否應選擇動態變化的數據?【是,否則在回歸過程中用到未來信息】混業經營的上市公司,其行業因子有哪些處理方式?利弊?行業因子采用GICS、證監會、申萬、中信等第三方數據更好?還是利用相關性、聚類分析等算法來動態確定更好?各自利弊?規模因子(Size,也叫市值因子)為什么在中國具有如此重大的影響?選擇長期暴露小盤股有哪些利弊?市值因子應該怎么取?取市值本身、市值對數、市值平方根有什么區別,哪種更好?你認為流通市值和市值哪個信號更強?換手率應該怎么計算?如遇長時間停牌,如何處理?若某一因子包含長期平均數據(比如5年平均凈利潤),而中間有數據缺失的片段(比如最近5年中有2年的年報缺失),應該如何處理?現有兩種參考方法:設為空值,或取現有數據的平均值充作長期均值。哪種更好?還是無所謂?財務數據應該在哪個時點進行更新?比如月頻的多因子模型,年報公布時間可能為3月或4月,是在3月底的時候即時更新那些已出的數據,還是在4月底統一更新使用?【有先有后,隨時公布隨時更新,或許更有時效性】有哪些指標可以用來衡量單因子測試的結果?【t絕對值均值,|t|>2占比,t序列方差,beta均值,beta方差等】依據單因子測試結果,如何對因子的有效程度進行排序?或者說,如何用單一指標衡量因子有效性?【參考:abs(mean(t))/std(t),也許有更優解】所謂的“alpha因子”和“風險因子”,應該怎么進行區分?你理解中有效且有邏輯的因子應該包括哪些?有邏輯但效果較差的因子應該包括哪些?如果采用某種方法組合出一個古怪的因子解釋力很強,但是看不出因子的經濟意義,你該怎么辦?如何打磨舊的因子,提高其有效性?構建因子的新信息源如何尋找?有哪些思路?現在常用的因子都是易于量化的因子,對于基本面因子、事件驅動因子、市場情緒因子等不易量化的因子,有無合適的處理方法?
模型擬合
擬合多因子模型的綜合目標是什么?如何選擇樣本空間?例如對初上市股票、ST股票、指數成分股變動、停牌股票等異常情況的處理方法。如何選取因子組?有什么可以參考的經典理論?【提示:BarraUSE3 Handbook】從選擇因子到多因子策略回測,一般有哪幾個環節?哪些可以省去,哪些不能?【單因子測試(似乎可以省略),合并因子(貌似不能省略,因為不合并相似因子無法消除共線性),預測個股收益率、成本、跟蹤誤差等,再進行約束優化問題求解】每一期的因子暴露度,如果不進行離群值、缺失值以及標準化處理,會有什么后果?如果選擇進行處理,又會帶來哪些需要注意的模型扭曲?離群值處理方法有那幾種?一種比較常用的辦法是將離開均值N倍標準差距離以外的離群值拉回N倍標準差的位置上,這時候N一般取值多少?【離群值處理還可以用中位數去極值等辦法,對題干所述方法,有把N取成2,2.5,3,5的,也許可以通過理論+實踐驗證一下哪種取值更好】缺失值的處理方法有哪幾種?現提供三種參考方式:一是把空置設為NaN,回歸涉及NaN項時用程序自動忽略;二是把所有含NaN項的個股從當期票池中剔除;三是把所有NaN(在標準化后)設為零(或中位數)。它們有什么區別?哪種好?或者有沒有更好的?標準化的方法有哪些?標準化后數據近似呈現何種分布規律?各種標準化方法的利弊?【除了減去均值、再除以標準差,還可以取排序序數等】帶權重的標準化,權重怎么設置?是否需要和回歸時的個股權重保持一致?標準化、離群值處理、缺失值處理,三個環節如何確立先后順序?因子之間或多或少具有一些相關性,若把所有因子進行正交化處理,會發生什么情況?這樣做或不這樣做的理由是什么?如何選擇截面回歸的頻率?依據是什么?回歸模型涉及的個股收益率怎么計算?最簡單的(又能保證一定精確度的)方法是什么?【可以用復權收盤價。精確結果應該是利用市場價格和分股、配股等影響收益的因素結合計算】回歸模型是否需要加入截距項(即常數項)?在什么情況下可以取,什么情況下不能取?【有行業因子時不能加入截距項,因為行業因子之和為全1向量,再加截距項就會導致回歸系數不唯一確定】回歸時用OLS和WLS的區別在哪里?使用WLS的依據是什么?【Barra文檔里提到兩點:一是市場更關注那些流通市值更大的股票;二是對消除異方差有幫助,并且支出sqrt(流通市值)是對異方差的一個較好的估計,可以用作回歸權重】如何評估或衡量多因子模型的效果?如何判斷現有因子是否足夠解釋收益率?【R^2可以輔助判斷,也許有更好的標準?】中國股票市場多因子模型的R^2通常在什么量級?為了提高R^2,盡可能多地加入各種因子,會導致什么問題?如果一個因子與現有因子組均低相關,而且能夠顯著提高R^2,那么什么樣的理由可能會使我們選擇不加入這個因子?【因子收益率不穩定】對于回歸法因子測試,能否直接用不同截面的數據疊加在一起進行回歸(即面板回歸)?可能產生的后果是什么?【牛熊市數據可能分層了,掩蓋真正的規律】進行多元回歸時,如何檢驗共線性、異方差問題?如何解決?無風險資產在各個市場應該如何選擇?中國市場有哪些選擇?各自的利弊(例如歷史長度、數據完整性、代表性等)?計算beta值的基準(benchmark)如何選擇?不同選擇對整個模型影響有哪些方面?似乎研究者已經慣于用線性模型來解釋收益率,為什么不用更復雜的模型?(或者已經存在什么非線性的結果?)擬合多因子模型時,數據挖掘問題有多嚴重?怎樣降低過擬合的程度?
收益預測
在多因子回歸中,預測的目標是什么?收益率?對行業的超額收益率?對市場的超額收益率?還是其他的?用于收益預測的多因子模型,在擬合時應側重考慮哪些方面?因子收益率如何預測?有哪些方法?是否有必要進行因子擇時? 國外的文獻對這方面的研究成果如何?構建選股模型時,通常會對許多因子進行降維、合并,這樣做的主要意義是什么?【國信、中信的多因子報告里都有相關介紹】對將要合并的幾個因子,如何分配它們的權重?請對靜態、動態賦值各一例,它們各自的優劣是什么?【提示:靜態比如簡單平均,動態比如IC加權平均,參見安信或中信多因子報告。簡單平均的好處是邏輯簡潔便于計算,動態平均能更多地利用市場信息】已知過去若干期的(合并后)因子暴露度,根據以上測試結果,如何預測下期收益率?用IC(橫截面相關性)衡量預測有效性有什么缺陷?未來1日收益率預測的IC通常在什么水平?未來1月的呢?不同時間尺度之間是否有固定的轉換關系?預測時間尺度如何選擇?未來1天、1周、1月、3月還是更長?【看你擁有的信息/因子在哪個時間尺度上最有效】如何將多因子模型的預測與其它預測(例如定性研究對少數股票的預測)整合?【Black-Litterman模型】
風險預測
用于風險預測的多因子模型,在擬合時應側重考慮哪些方面?是否有必要預測收益的波動率?如何預測收益的波動率?是否要在優化中使用波動率?多因子模型預測出的協方差矩陣是否會有發生高度接近奇異的情況?設我們稱風險預測模型中的因子為“風險因子”,稱收益預測模型中的因子為“alpha因子”。如果一個alpha因子也入選了風險因子,會對組合優化結果產生什么影響?如果在風險模型中特意剔除所有alpha因子,會對組合優化結果產生什么影響?BARRA的多因子風險預測模型主要在哪些細節上做了精細處理?BARRA在不同市場上的多因子風險預測模型之間的細微差異,反映了各個市場的哪些特點?用日數據vs用月數據估計協方差矩陣,各適用于什么需求?用日內(例如分鐘級)數據來估計協方差陣的好處與壞處是什么?怎樣衡量或評估風險預測模型的有效性?
業績歸因
用于業績歸因的多因子模型,在擬合時應側重考慮哪些方面?有人認為,與用于預測的多因子模型相比,用于業績歸因的多因子模型,對因子之間的低共線性要求更高,請解釋可能的原因?業績歸因將組合收益分解為若干個因子上的收益和一個特異收益。一位有技術的定性投資經理(基于實地調研和對某些行業、公司的洞察力)的歸因結果應該是什么樣子?一位利用多因子模型量化選股的投資經理的歸因結果應該是什么樣子?在對一個已知策略邏輯大體思路的投資組合進行業績歸因時,采用標準的因子組vs采用針對性的因子組各有什么利弊?【采用標準因子組便于與其它組合橫比;采用針對性因子組便于與自身策略邏輯縱比】多因子業績歸因系統輸出的結果中,特異收益(specificreturn,即不可被因子解釋的收益)如果顯著地偏正或偏負,怎樣解釋?怎樣調試歸因系統來消除偏離?純多頭組合業績歸因時,以總頭寸或者主動頭寸(=總頭寸-基準頭寸)為分析對象,各有什么利弊?如果不知道組合持股明細,只知道組合每日收益率,怎樣對它進行多因子業績歸因?誤差會放大多少?多因子業績歸因模型怎樣與Brinson業績歸因模型整合使用?
組合構建
利用多因子模型進行選股,求解每期股票權重的問題本質上是一個帶約束的最優化問題,請闡述優化目標和約束條件各是什么?組合優化有哪些常見方法?各要注意什么問題?股票組合中個股權重上限的設計有什么技巧?大約應設置在什么范圍?【個股權重不能太大,否則只會集中買入每個行業預期收益最高的股票;也不能太小,否則可能出現某個行業內所有股票都持倉至上限也無法達到行業中性。參考值:2%~3%,應根據實際情況調整取值】是否要根據個股的交易量來限制個股權重的上限?如何預估市場沖擊?是否可以(大概)控制每個版塊的持倉個股數?如何做?【參考方法:股權重上限為它所處行業在滬深300(或其他基準)中占比除以希望持倉的個股數】建立選股模型時,如何控制行業中性、市值中性(或其他條件)?建立選股模型時,如何處理交易成本、股票停牌等問題?如何計買入、賣出價?純多頭約束對組合構建的影響不止是少了一半的獲利機會,這句話怎樣理解?純多頭股票組合策略應選擇怎樣的指數作為基準?滬深300、中證500、中證800?各有什么利弊?應該每日調整頭寸,還是更低的頻率,例如每月,抑或每次財報集中發布之后?多因子模型回測過程中,是否應對個股特別設立平倉與開倉條件(即對多因子的結果進行修正)?如何做?
實盤
新策略從提出到開發,再到上線的流程中,歷史回測(back-test)、實時模擬(paper-trading)和實盤交易(real-money)的關鍵差異何在,各自的優劣何在?如何檢測你的模型是否已經失效? 模型因子是否需要定期重選?實盤中一個歷史回測、實時模擬業績都很好的策略發生了異?;爻?#xff0c;問題可能出在什么地方?應急預案是什么?如何設計數據庫表結構來記錄實盤交易流水和每日資產明細?在實盤交易中,模型給出的交易指令常常不能被精確地執行,如何評估其影響?
數據
基本信息、行情、基本面等基礎數據庫的表結構應該怎樣設計?出于怎樣的考慮?選擇Mysql、SQL及其它數據庫管理系統的利弊?常見的數據來源有哪些,數據提供商有哪些,各有哪些優劣?用網頁抓取生成的數據源的利弊?如何支持多數據源?每個數據具有三個關鍵日期,數據日期、公告日期、錄入日期。對于不同類型的數據項,上述三個關鍵日期之間的時滯情況不同,請對不同情況分別舉例。數據庫應怎樣設計以全息保存三種關鍵日期,并使歷史回測結果更加逼真?行業分類數據選用哪家的好?發現一只股票的某個財務數據異常,怎樣找到真值?如何記錄基礎數據的勘誤歷史?怎么進行數據清洗?擁有哪些異常行為的股票應該列入黑名單?
程序
分析程序用MATLAB、Python、R、C++等語言各自的利弊?哪種背景和需求的人應該選擇哪種語言?10年歷史回測,數據量大約是多少,運算量大約是多少?怎樣的內存不會溢出?面向過程的架構vs面向對象架構來實現多因子模型各有什么利弊?
綜合
股票市場是否存在alpha,怎樣驗證?傳統的基本面投資方法與多因子模型都是為了得到股票組合,他們的異同是什么?多因子回歸模型與CAPM理論和APT理論的關系是什么?一般的選股模型可以達到多少年化收益率和夏普比率?在多因子模型的構造過程中,最核心的一個環節是什么?【我認為是預測收益率,也許有人認為是風險(跟蹤誤差)控制】不同交易頻率的組合投資策略——日內(高頻、中頻、低頻)、日頻、中期、長期,其對應的多因子模型有哪些不同?為什么同樣的策略,不同的執行者之間會存在無法抹去的誤差(為什么你無法復制另一個人的研究報告成果)?一般來說,多因子模型對數據敏感性很強,那么它的結果還有參考意義嗎?多因子模型作為一個如此成熟的策略,為什么還有前仆后繼的研究者?基于多因子模型的策略收益沒有吸引力,從業者眾多,是夕陽產業嗎?年輕人學習多因子模型是否值得?機器學習、人工智能的工具可以應用到多因子模型的哪些地方?
3 評分標準
市場上,達到“訓練有素”級別的人已經為數不多,通常為大型投資研究機構入行5年以上的從業者;“專家”級別的人更少,僅憑資歷以不能達到,還需要“天賦+勤奮+際遇”,少數機構投研核心1-2位;“大師”級別的人在全球范圍屈指可數。
總結
以上是生活随笔為你收集整理的多因子模型水平测试题的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。