DeepEye:一个基于深度学习的程序化交易识别与分类方法
DeepEye:一個基于深度學習的程序化交易識別與分類方法
徐廣斌,張偉
上海證券交易所資本市場研究所,上海 200120?
上海證券交易所產品創新中心,上海 200120?
?
摘要:基于滬市A股交易數據,對A股市場程序化交易行為進行系統分析,構建程序化交易識別及分類特征指標體系,結合深度學習技術提出A股市場程序化交易的智能識別與分類方法——DeepEye,該方法可對程序化交易進行識別并分類。在真實交易行為數據集上的實驗表明,所提出的方法在識別和分類上取得了較高的準確率,驗證了將深度學習用于證券市場行為監管的可行性和有效性。該方法已輔助用于資本市場投資者畫像及市場一線行為監管。模型和算法的未來研究方向。
關鍵詞:投資者行為 ; 程序化交易 ; 行為監管 ; 深度學習 ; 分類
論文引用格式:
徐廣斌, 張偉. DeepEye:一個基于深度學習的程序化交易識別與分類方法. 大數據[J], 2018, 4(5): 94-102
XU G B, ZHANG W. DeepEye:a deep learning-based method of recognition and classification of program trading. Big Data Research[J], 2018, 4(5): 94-102
1 引言
程序化交易是指通過既定程序或特定軟件,自動生成或執行交易指令的交易行為。程序化交易操作策略復雜,運行高度自動化,對證券市場正常的交易秩序和交易安全造成了巨大的威脅。如眾所周知的美國股市“5·6閃崩”、騎士資本等事件,均是由程序化交易誘發或直接造成的。我國證券市場上程序化交易發展較晚,但光大證券“8·16”等事故也充分反映出其可能造成的嚴重影響。因此近年來,加強程序化交易監管已成為市場諸方的一個共識。
2015年中國證券監督管理委員會和上海證券交易所、深圳證券交易所就程序化交易監管規則公開征求意見,其中首次提出A股程序化交易的量化標準(下文簡稱推薦規則)。推薦規則采取了“一刀切”式固定閾值方法來認定程序化交易,存在被技術性規避的局限。另一方面,程序化交易具有專業性和復雜性的特點,種類十分多樣。從訂單功能上可將程序化交易大致分為:減少沖擊類,如冰山訂單、隱藏訂單等算法;靜默加減倉類,如大宗交易、保證成交量加權平均價格(guaranteed VWAP)算法等;交易執行類,如交易量加權平均價格(volume weighted average price,VWAP)、時間加權平均價格(time-weighted average price,TWAP)等算法;快速執行類,如市場直通(direct market access,DMA)及攻擊算法等。從交易模式上則可分為做市策略、執行類策略(如訂單拆分)、套利策略和方向性策略等。根據筆者近幾年對滬市A股市場的研究,從整體上看,程序化交易對二級市場的流動性起到了積極的貢獻作用,但不同類別的程序化交易對市場的影響作用差異顯著,特別是在股市發生異常波動時,部分程序化交易會迅速消耗流動性,因此采用單一標準監管不同種類的策略,在科學性上顯然有待商榷。
此外,由于境內外市場程序化交易發展差異巨大,境外的策略種類、認定標準和監管措施難以直接借鑒到國內市場,因此,如果不構建起A股市場的程序化交易識別和分類方法,要形成符合具體市場實際且行之有效的交易監管措施是十分困難的。
但是,前述的現有方法大多依據投資目的對程序化交易進行分類,在無法事前獲知投資者意圖的前提下,市場監管者要依據交易數據反推交易類型是很困難的。近來部分研究從對市場定價影響的角度,探索通過分析訂單流特征來對訂單所屬的投資者進行分類,如高頻交易者、噪聲交易者、基本面投資者和投機者等;也有相關研究從投資者的交易記錄中匯總出一些指標,再經過分類、聚類算法對投資者進行劃分,然而這些方法的效果依賴于指標構建的好壞;從用戶行為數據分析的角度看,有研究對用戶行為數據進行建模,如網站點擊記錄等,但這類數據涉及的屬性相對簡單、單一。整體而言,直接根據交易數據對A股程序化交易類型進行細分的相關研究迄今還比較缺乏。
鑒于深度學習在音視頻、文本、圖像等傳統領域的表現,本文在系統分析證券交易行為數據的基礎上構建了程序化交易特征指標體系,提出利用深度學習對A股程序化交易進行智能識別和分類的方法——DeepEye。本文提出的算法提取每日交易的基本的統計特征,并利用深度學習技術自行發掘深層次特征,簡化了特征工程,同時避免了由專家設計指標時引入的偏差,提升了模型效果。
2 基于深度學習的程序化交易識別及分類
2.1 問題描述
由于A股市場上的程序化交易賬號占比甚小,不足1%,而非程序化交易賬戶占到99%以上,故本文采用二階段方式:首先,識別程序化交易賬戶,即給定一個賬戶的交易明細,判斷該賬戶是否為程序化交易;然后,對程序化交易賬戶進行分類,即給定一個疑似程序化交易賬戶,判斷該賬戶具體為9類程序化交易(見表1)中的哪一類。
2.2 方法概述
本文首先根據證券市場交易數據分析A股程序化交易的交易行為特征,構建了表征9類程序化交易行為的核心指標體系,并在此基礎上,利用深度學習技術支持識別和分類的智能化。DeepEye主要的處理步驟如圖1所示,包括:利用交易行為數據進行核心指標的計算,并根據類別識別規則,給目標賬戶(以推薦規則篩選)打上標簽,將指標向量作為非類別屬性,對應的標簽向量作為類別屬性(即Label屬性);構建深度學習模型進行訓練,并用測試集進行驗證,如果模型訓練達到預期目標,則保存訓練好的模型(含狀態和權重)。在具體應用時,DeepEye預先加載保存的模型,并根據交易數據計算各賬戶的特征指標值,然后將其輸入模型,即可識別其所屬的類型。
圖1?DeepEye主要處理流程
2.3 數據預處理:特征指標體系
為支持上述處理流程的標簽化處理,筆者系統梳理了A股市場上特征明顯的程序化交易類型,結合調研、文獻檢索、交易數據分析以及監管經驗,將A股市場的程序化交易分為套利交易、高頻交易、風控交易和輔助交易幾種模式。
具體地,從使用程序化交易的主要市場參與者的角度來看,基金、券商自營和合格境外投資者(qualified foreign institutional investors,QFII)主要使用拆單和算法交易(如VWAP、TWAP)降低市場沖擊成本,同時也進行ETF套利、期現套利、對沖等交易,其中部分券商自營(金融工程部門)使用種類多樣的其他交易策略;大戶、超大戶主要使用ETF套利、期現套利和一些絕對收益策略,部分使用批量委托、拆單、自動報撤單和統計套利;少量散戶主要使用統計套利,或利用客戶端工具中相對簡單的自動化策略進行委托,或編寫簡單算法交易腳本實現自動化交易。
從交易行為特征上,T+0(日內回轉交易)者主要表現為在同一證券品種或與衍生品之間(如信用賬戶融資融券與普通賬戶證券現貨之間)進行頭寸相反的一次或多次買賣,其中對于庫存股T+0,上述行為主要表現在同一股票上且盤后具有持倉;套利交易者表現為在相關品種(如ETF成分股和ETF之間)上進行快速集中的對沖交易;混合對沖類型是綜合考慮股票、融資融券和ETF申贖在所有標的上買賣兩個方向頭寸的對沖情況,這包含了跨品種套利或以調倉為目的的程序交易行為;執行類算法交易者主要執行拆單或籃子交易訂單,一般不進行對沖交易,也不進行回轉交易,但進行快速集中的單個或多個證券的交易;推薦規則主要依據報單速度和報單次數來界定,忽略了以低頻(如分鐘級別)自動化執行的算法交易,本文將此類交易行為也納入程序化交易范疇。前幾類程序化交易者都屬于對沖型交易,使用對沖或回轉的方式來保持日初和日終的風險敞口基本不變,而算法交易(含低頻自動化)者則屬于單向看多或看空。因此,可以先根據對沖比例,將程序化交易劃分為對沖型、部分對沖型和非對沖型,然后再根據各類程序化交易的典型特征,進一步細分類型。為排除疑似傘形賬戶(如滬股通賬戶)的干擾,筆者也將傘形賬戶作為單獨一類的非程序化賬戶納入特征分析。
根據上述各類型在訂單層面的交易特征,并結合推薦規則,可將A股程序化交易行為細分為表1的9種類型。
在對各類交易行為進行分析的基礎上,筆者梳理出了表征各類型的12項核心特征指標(見表2),包括推薦規則的“一個交易日內出現5次以上每秒申報5筆”“1 s內完成申報并撤銷申報,且日內出現3次以上”“日內申報2 000筆以上”以及對沖類型、交易及持倉等關鍵性特征。其中指標1至指標3在標簽化處理時,按是否達到推薦規則來賦值(“1/0”代表“真/偽”)。
2.4 基于循環神經網絡的賬戶識別與分類
筆者采用深度神經網絡實現程序化交易賬戶的識別與分類。通過輸入訓練數據集,即目標賬號的12項特征指標數值和標簽化結果(即標簽向量),訓練深度神經網絡。通過多輪的學習,網絡模型將記錄包含隱層中上下文信息(張量及權重),如果經驗證集檢驗,模型達到要求,則學習結束,學習好的模型可以保存下來供后續應用使用。這里的標簽向量包括:用于識別是否為程序化交易的二分類標簽;用于分類程序化交易賬戶的多分類標簽。分別對應程序化交易賬戶識別以及程序化交易賬戶的類型分類。
具體地,采用循環神經網絡(recurrent neural network,RNN)作為學習模型,在設計模型時,配置使用線性修正單元(rectified linear unit,ReLU)作為中間層的激活函數,softmax作為輸出層的激活函數,預測值與真實類別的交叉熵作為損失函數,并采用RMSprop優化器對模型參數進行優化(如圖2所示)。對于從目標賬戶中區分程序化交易和非程序化交易賬戶的任務,模型輸出的是程序化交易的概率;對于識別后的程序化交易賬戶的類型進行細分,輸出為細分的9類標簽的對應概率。具體算法如下。
訓練:
輸入:指標X,標簽y’,模型參數W(隨機初始化)。
輸出:模型參數W。
循環:
計算預測值:y=softmax(rnn(X))。
計算損失:loss=cross-entropy(y,y’)。
計算參數更新方向:d=rmsprop (loss,W)。
更新參數:W=W+d。
預測:
輸入:指標X,模型參數W。
輸出:y=softmax(rnn(X))。
圖2?程序化交易分類模型示意
3 數據與實驗
3.1 數據來源與處理
為反映A股程序化交易在市場穩定階段的最新發 展狀況,本文選取上海證券交易所(以下簡稱上證)A股市場2017年上半年的119個連續交易日作為研究樣本區間進行相關實證。本文數據主要采用上海證券交易所數據倉庫的上證A股的逐筆委托、撤單數據、成交數據、融資融券及ETF交易數據和持倉數據。研究目標時間段為日內9:3 0—15:0 0的盤中競價階段。
樣本區間活躍賬戶共3 739萬戶,對全市場數量占比超過99%的個人投資者賬戶(即A賬戶)采用抽樣方法進行實驗,具體如下:所有個人投資者賬戶按0.01的抽樣率隨機抽樣,其他類型賬號保留,抽樣后的賬號共65.6萬戶,占總活躍賬戶的1.75%,其中個人投資者賬戶37.2萬戶,機構賬戶28.4萬戶;程序化交易賬號6 596戶,其中各類型占比如圖3所示。
圖3?程序化交易類別比例
3.2 實驗結果
實驗采用TensorFlow1.0作為深度學習后端,使用Keras 2.0.9提供高級別接口,開發語言為Python 3.6,開發和實驗環境為Fedora 22 Linux 。設備平臺為惠普Z840工作站。
首先是程序化交易識別,模型的輸入為表2中的指標1、2、3、8,輸出為是否為程序化交易賬戶。經最低申報筆數篩選和傘形特征賬戶篩除,樣本期間內共有20.7萬個待分類賬戶,按9:1比例劃分訓練集和驗證集,18.6萬戶為訓練集,2.1萬戶為驗證集,鑒于實驗條件,以5 120個為一個批次大小(batch size)進行學習,學習結果為屬于程序化/非程序化交易賬戶的概率,選擇概率大的來確定類別。在具體應用中,也可通過調節界定閾值來放松或收緊監管范圍。經驗證,訓練后的模型識別準確率為67%、召回率為60%。
其次是程序化交易分類,樣本期間內共有6 596個程序化交易賬戶待分類,指標1至指標12作為輸入,9類分類標簽作為輸出,按9:1比例劃分訓練集和驗證集。以512個為一個批次大小進行學習。見表3,訓練后的模型分類準確率超過70%。
最后,將模型在樣本期數據上進行應用,得到樣本期A股程序化交易賬戶共含1.08萬戶,占活躍總賬號的0.029%,個人賬戶(A賬戶)程序化交易占比0.01%,機構賬戶程序化交易占比2.50%。
本文提出的方法在識別和分類上取得了較高的準確率,可以識別現有方法無法識別的、占比近13%的低頻自動化程序化交易,還支持類型細分和模糊識別,基本驗證了用于證券市場行為監管的可行性和有效性。
4 結束語
本文提出程序化交易的智能識別與分類方法DeepEye,驗證了將深度學習用于投資者行為監管的可行性和有效性。借助DeepEye識別并確定程序化交易的類別后,可以使用現有的賬戶分析技術進行更為深入的分析,比如分析各類別的交易特征、持倉特征、賬戶特征等,可輔助用于一線監管中的投資者行為分析和投資者畫像分析;分類規則和特征指標體系可作為進一步完善程序化交易監管制度的參考;方法經適應性修改后還可應用于期權、期貨等其他交易市場。該方法與現有程序化交易的識別方法完全兼容,覆蓋類型范圍更廣,而且支持類型細分和模糊識別,現已作為投資者畫像模塊的重要組成部分,應用于上海證券交易所新一代市場監察系統中。
需要指出的是,本文的方法具有一定的局限性。一是基于人工智能的方法,預測結果對模型、算法、參數的敏感性高,可解釋性差,且有一定不確定性,需結合大數據驗證和人工決策進行應用。二是對程序化交易賬戶的篩選處理采用了比較嚴格的標準,難以對特征不明顯的行為進行處理。三是部分特征指標閾值的合理性還需在不同市場階段和板塊上進一步論證。四是暫時缺乏衍生品市場數據,難以對跨市場的程序化交易行為進行分析。
后續將使用不同市場階段數據進一步進行大樣本驗證、模型調優,并結合衍生品市場數據,擴大分析范圍。
The authors have declared that no competing interests exist.?
作者已聲明無競爭性利益關系。?
作者簡介
徐廣斌(1976-),男,博士,上海證券交易所資本市場研究所高級工程師、業務主管,主要研究方向為證券信息 技術、大數據、金融計算。
張偉(1989-),男,就職于上海證券交易所產品創新中心,主要研究方向為金融工程
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
專題導讀:大數據創新實踐
基于公開數據的特殊人群在線活動特征挖掘
基于社會化大數據的音樂文化研究進展
結合深度學習的工業大數據應用研究
冒煙指數:大數據監測互聯網金融風險
基于密度的停留點識別方法
總結
以上是生活随笔為你收集整理的DeepEye:一个基于深度学习的程序化交易识别与分类方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: bash-shell--高级编程
- 下一篇: bash-shell高级编程--求最大公