证券期货行业监管大数据治理方案研究
證券期貨行業監管大數據治理方案研究
蔣東興1, 高若楠2, 王浩宇2
1.?中國證券監督管理委員會信息中心,北京 100033;
2.?中證信息技術服務有限責任公司,北京 100033
摘要:為充分發揮數據的資產價值,監管部門高度重視大數據治理工作。通過梳理證券期貨行業監管大數據治理的需求與特殊性,對證券期貨行業的大數據治理體系進行了深入研究,包括構建證券期貨行業數據模型、搭建公共數據平臺、建設數據服務體系以及構建組織保障體系4個方面。通過大數據工程建設的實施,進一步發現了證券期貨行業大數據治理在工程共建共享、數據多源校核方面存在的深層次技術問題,提出了建設超級大數據管理平臺、全面保障大數據工程效果的研究思路,為監管決策提供了更為全面、科學、客觀的支持。
關鍵詞:證券期貨行業 ; 大數據治理 ; 科技監管
論文引用格式:
蔣東興, 高若楠, 王浩宇.?證券期貨行業監管大數據治理方案研究[J].?大數據, 2019, 5(3):?23-34.JIANG D X, GAO R N, WANG H Y.?Research on supervising big data governance method for securities and futures industry[J].?Big Data Research,?2019, 5(3):??23-34.
1 ?引言
中國資本市場經過20多年的發展,已具備了相當的規模體量,基本形成了較為完備的多層次資本市場體系。近年來,金融科技的快速發展為資本市場注入了新的活力,大數據、人工智能等技術與金融行業的深度融合,推動了產品形態、盈利模式的不斷創新。跨行業、跨市場、跨地域的金融服務日益豐富,借助新興技術的力量,市場中涌現了智能投顧、智能交易等應用,這些應用為市場提供了更為高效、全面、智能化的業務服務,提升了證券期貨行業機構的經營管理能力,推動了資本市場的快速發展。
信息科技的飛速發展對資本市場的監管工作提出了新的課題和挑戰。監管部門既要促進金融行業創新發展,又要守住不發生系統性金融風險的底線,因此需要利用科技的手段及時發現潛在風險,提高監管效能,維護市場穩定。應用監管科技需要更多數據進行支撐,包括傳統的交易、披露、監管等內部數據,也包括工商、司法、稅務、輿情等外部數據,并需要具備在海量規模數據下進行快速的歷史數據分析、實時數據流處理以及利用人工智能算法深入挖掘數據價值的能力,因此,監管大數據平臺的建設變得尤為重要。
證券期貨行業監管工作涉及中國證券監督管理委員會(以下簡稱證監會)機關、派出機構和會管單位等,機構數量較多,機構之間的業務關聯性強,數據尚未完全在同一個數據模型上進行整合,并且存在數據敏感性強、時效性高的特點以及數據共享技術標準仍不完善等問題。海量、多源異構的數據以及監管數據的特殊性對數據的管理、存儲和應用提出了新的要求。因此,證券期貨行業監管科技的應用需要進一步建立符合數據科學和行業特點的大數據治理體系,以提供全面的數據治理保障,從而充分發揮數據的資產價值。
本文介紹了證監會大數據工程建設的內容,分析了證券期貨行業監管大數據治理的必要性。針對資本市場監管業務關聯性強、參與主體多、監管數量大、數據敏感性高等特點,對證券期貨行業監管大數據治理方案進行了深入研究。最后,本文提出建立超級大數據管理平臺,以全面保障大數據工程建設,從而推動證券期貨行業監管科技規范、快速、健康地發展。
2??相關工作
數據治理目前尚未形成統一、標準的定義。國際數據管理協會(Data Management Association,DAMA)將數據治理定義為對數據資產管理行使權力和控制的活動集合(規劃、監控和執行)[1]。國際數據治理研究所(The Data Governance Institute,DGI)認為,數據治理是包含與信息相關的過程的決策權及責任制的體系,根據基于共識的模型執行,描述誰在何時何種情況下采取什么樣的行動、使用什么樣的方法[2]。
目前,數據治理及相關標準體系的研究是國內外研究的熱點之一[3]。國際標準化組織(International Organization for Standardization,ISO)也著力于數據治理國際標準的制定工作。2014年6月,ISO/IEC JTC1/SC40(IT服務管理和IT治理分技術委員會)召開第一次全會,2014年11月、2015年5月召開第二次、第三次IT治理工作組會議,我國于2015年5月在第三次工作組會議上正式提交了《數據治理白皮書》國際標準研究報告,報告中提出了數據治理模型和框架[3]。由中國國家成員體(SAC)申請立項并由中國專家作為聯合編輯研制的國際標準ISO/IEC 38505-1《信息技術-IT治理-數據治理第1部分:ISO/IEC 38500在數據治理中的應用》于2017年正式發布,我國提出的數據治理理念和方法論在國際上達成共識[4]。
大數據背景下,數據科學研究的興起以及組織業務的增長對數據治理的方法及手段均提出了新的要求。大數據治理是廣義信息治理的一部分,它制定與大數據的優化、隱私、貨幣化相關的政策與目標[3]。張義禎[5]從社會治理的角度闡述了要順應大數據時代的發展趨勢和本質要求,樹立大數據治理意識。梁芷銘[6]梳理了大數據治理的概念和理論框架,明晰了大數據能力和國家治理能力的變遷,提出通過數據挖掘、數據整合、數據分析、數據共享和數據推送等方式提升國家治理能力。常朝娣等人[7]通過分析大數據治理現狀,分析了醫療健康大數據的資源特性及治理問題,基于現有大數據治理方法和模型,探索了大數據環境下的醫療健康數據治理體系和實施步驟。顧立平[8]、任亞忠[9]從不同角度論述了大數據背景下圖書館事業的數據治理問題。
近年來,證監會大力發展監管科技工作,并積極推動數據治理的探索,上海證券交易所和深圳證券交易所(以下簡稱滬深交易所)已開展大數據平臺建設,實現了基礎平臺建設和部分數據及應用的遷移,并依托大數據平臺探索結合業務需求的應用服務,達到提升監管效率的目的。證監會于2014年開展以數據模型為基點的行業數據治理工作,建立了行業標準化數據模型,并且研制數據模型的方法論被納入數據治理國家標準中,推進了與證券期貨相關的數據模型的國際化進程。
3 ?證監會大數據工程建設內容
證監會大數據工程建設旨在構建覆蓋宏觀監管與業務監管的智能化監管平臺,整合證券期貨行業的監管信息與數據資源,充分發揮科技在證券期貨行業監管工作中的作用,有效提升資本市場的監管效能,防范系統性金融風險,促進市場主體健康有序發展,切實保護投資者的合法權益,為監管工作提供更為全面、科學、客觀的決策支持。
大數據工程建設內容主要包括:構建邏輯上融合的監管大數據平臺,設立多個靈活、智能的數據分析中心,提供多項標準、多樣的專業分析服務,形成與中央監管信息平臺的有效聯動。證監會大數據工程總體架構如圖1所示[10]。中央監管信息平臺是證監會監管工作的信息化支撐平臺,整合了證監會各個方面的監管應用系統,通過數據共享和流程互通,提高了監管的有效性和針對性。
圖1??證監會大數據工程總體架構
3.1? 監管大數據平臺
證監會大數據工程的核心任務是建設一個運轉高效的監管大數據平臺。平臺承載交易數據、披露數據、監管數據和外部的各類數據資源,在邏輯上集成統一,為上層的各類數據分析和應用提供基礎性的數據支撐。
監管大數據平臺可分為基礎設施層、基礎平臺層、數據服務層和應用支撐層。其中,基礎設施層利用虛擬化或容器技術,實現對計算資源、內存資源、存儲資源、網絡資源等的統一管理,在邏輯上構建證監會專有云平臺,為上層提供硬件資源保障;基礎平臺層利用分布式架構實現對海量數據的采集、存儲、計算和管理,為數據服務層提供分布式存儲管理服務;數據服務層通過采集各類內部、外部數據資源,提供全面的數據服務;應用支撐層提供深度學習、圖分析等通用的算法和模型以及語音識別、圖像識別等工具,對數據進行加工處理,供上層分析中心使用。平臺內部各層之間相互關聯,互為基礎和條件,共同構成邏輯上融合的監管大數據平臺。
3.2??多元化數據分析中心
基于監管大數據平臺提供的全量數據,根據監管場景的不同,證監會大數據工程設立了多個智能分析和處理中心,為監管工作提供專業化服務,如企業/個人畫像分析中心、財務數據分析中心、市場運行分析中心等。數據分析中心按監管領域劃分,每個數據分析中心均可以依據職責申請使用大數據平臺中的海量數據,提供一種或多種分析服務,多個數據分析中心也可對某一監管場景提供有針對性的多元化服務。
3.3??專業化服務
由于監管科技貫穿于監管工作的事前、事中、事后整個鏈條,在專業服務建設過程中,要統籌考慮底層通用功能與應用層定制化功能,構建雙層服務架構,高效有序地實現監管的科技化和智能化。
雙層數據分析服務架構包括基礎服務層和應用服務層。基礎服務層由獨立的基本數據分析服務構成,每個基礎數據分析服務提供單一的基本公共數據分析服務。基礎服務層具體包括關聯賬戶分析服務、異常交易檢測服務、財務風險分析服務、市場主體全景畫像服務、市場輿情分析服務、金融文檔分析服務六大基礎分析能力。應用服務層面向業務部門,被劃分為多個應用分析場景,提供業務條線的定制化大數據分析服務,每個應用服務可能依賴一個或多個基礎服務。應用服務層主要包括行政許可類輔助分析服務、公司信息披露違規及財務風險分析服務、市場漲跌動力分析服務、非法證券期貨行為分析服務等重要業務分析方向,同時在這些業務方向之下分別細化出多個應用分析場景,解決監管科技化、智能化問題。
各分析中心將基于大數據平臺分析得出的結果以功能模塊或數據服務的形式提供給中央監管信息平臺中的應用系統,在應用系統中進行展示及后續處理,為監管工作所用,有效提升資本市場的監管效能,輔助監管決策。
4??監管大數據治理方案
4.1?大數據治理需求
為保障證監會大數據工程的建設,需要制定相應的數據戰略和管理方法。數據治理能夠統籌指導、規劃、控制各項數據管理活動,是厘清數據資產的定義和范疇、發揮數據資產價值的關鍵點。
在證券期貨行業監管領域,大數據治理存在其特殊性,主要體現在以下4個方面。
● 參與機構多。證券期貨監管系統包括證監會機關、派出機構和會管單位等多個單位,每一個單位都是一個獨立的實體機構。其中,不少機構自身就建有大數據平臺,如滬深交易所等。
● 系統業務關聯性強。多個單位協同承擔市場重任,一項監管業務所需的分析數據源可能涉及多家機構,并且隨著跨行業、跨市場、跨地域交易量的日漸增長,產品間的聯動、傳導還在不斷加強。
● 資本市場參與主體數量較大。我國擁有1.2億股民、3 500多家上市公司、11 000多家新三板公司、24 000多個私募基金管理人等,參與主體數量龐大、類型復雜。
● 數據敏感性高。數據涉及交易、披露、輿情、監管等各類信息,數據的敏感性和時效性非常強,一些信息的發布可能對市場造成較大影響。
證監會大數據治理必須要考慮到上述特殊性,在全系統邏輯融合的監管大數據平臺建設中,除了傳統的數據標準管理、元數據管理和數據質量管理外,還必須解決多機構間的數據關聯、數據血緣管理、多層次數據共享和敏感數據保護等問題。
4.2? 監管大數據治理體系
通過調研學習和需求分析,筆者提出了證券期貨行業監管大數據治理體系的初步構想,主要包括構建證券期貨行業數據模型、搭建公共數據平臺、建設數據服務體系、建立數據治理實施與管理組織保障體系4個方面。通過構建行業數據模型,厘清行業數據脈絡,規范機構數據交換,支持行業標準化,實現對證券期貨行業大數據的整體把握。通過搭建公共數據平臺,整合行業內外數據,統籌加工處理,為監管系統提供數據支撐。通過建設數據服務體系,實現數據融合共享,支持多層次數據共享,提高數據利用效率。建立證監會系統邏輯融合的監管大數據平臺實施與管理的組織保障體系,確保大數據治理工作的有序、有效實施。監管大數據治理體系如圖2所示。
圖2? ?監管大數據治理體系
4.3? 構建行業數據模型
構建行業數據模型包括數據模型的構建、基礎編碼及交換標準的制定。其中,核心工作是數據建模,數據建模為行業數據語言的統一和規范化提供了重要依據。基礎編碼能充分打通各業務系統,實現市場理解共識,有效減少市場業務運營成本,提高行業監管效率。交換標準通過全面梳理機構內部關鍵業務的流程與數據交換,研究各機構內外部信息交互的共性熱點問題,致力于促進各機構快速建立統一、開放、靈活的內部信息技術架構,統一機構間的信息交換模式。
4.3.1 數據模型
數據模型通過規范數據定義、定義接口規范,形成行業數據生成、存儲、交換脈絡圖。數據模型既是數據治理的核心,也是數據價值挖掘的重要基礎。證券期貨行業數據化程度相對較高,機構多、類型廣,交易方式多樣,機構內及機構間數據交換頻繁,業務發展迅速。因此,需要研究制定一套完整的行業數據模型,清晰描述整個市場的數據流向、數據定義、結構類型和關聯關系等,為推動實施行業數據治理打下堅實基礎。
建設證券期貨行業大數據平臺的一個關鍵是處理由行業數據來源多樣性帶來的固有異構性問題。在進行數據模型設計時,必須針對數據的多源異構性進行設計,即對于同一個對象或事務的數據描述,其數據模型既要支持多個來源(包括不同來源的數據血緣記錄),又要包容數據的不同形態(包括結構化、半結構化乃至非結構化數據)。在數據模型層面,證券期貨行業大數據平臺支持數據多源校核、數據存異、數據血緣追溯以及歷史數據回溯等處理操作。
4.3.2 基礎編碼
隨著交易場所、金融產品的增多,參與主體也越來越多。不同機構、不同場所對相關數據的編碼規則不一致,導致金融產品在跨機構、跨交易場所交易時難以進行,同時,也使監管機構無法及時掌握市場上的真實數據,無法有效防范全市場的系統性金融風險。因此,亟需制定證券期貨行業基礎編碼標準。
證監會參考相關的國際標準和國家標準,針對我國證券期貨行業的具體業務和特點及行業發展趨勢和監管要求,研究制定了一套統一的基礎類編碼標準體系和方法。編制行業基礎編碼的主要困難是如何確保編碼能夠完全覆蓋業務場景和能夠完全正交。場景覆蓋不全或編碼存在交叉都會影響編碼使用效果。通過梳理所有可能的參與人、場所、活動、產品,分別形成參與人樹、場所樹、活動樹、產品樹,按照一定的邏輯方法逐一遍歷這幾棵樹,形成多維空間中的多個節點。對每一個有意義的節點進行分析,分析在此節點上對應的參與人、場所、活動、產品是否需要編碼,形成需要編碼的參與人集、場景集、活動集、產品集,建立包括業務參與人、場所、活動、產品4個維度在內的多維編碼體系模型,并嚴格遵照這個模型開展基礎編碼工作。
4.3.3 交換標準
交換標準分為機構間交換標準和機構內交換標準。為適應證券期貨行業各類業務的創新與發展,降低行業整體數據的通信安全風險與應用成本,進一步規范行業機構間各類接口標準的制定與應用,提高機構間接口標準化水平,證監會制定了《證券期貨業機構間接口標準規劃》。同時,為解決各機構內信息系統數量眾多、缺乏統一標準、數據共享難度大、系統架構相對耦合、市場技術就緒周期長等問題,證監會制定了《證券期貨業機構內部接口標準規劃》。目前,證監會正在組織行業專家根據規劃,按照急用先行的原則,不斷建立、完善數據的交換標準。
4.4 搭建公共數據平臺
公共數據平臺包括各類基礎數據庫、多個公共知識庫和共享成果庫,具有規模大、數據量大、數據使用人員廣等特點。各類用戶在不同的環境中可直接從公共數據平臺調取基礎數據、獲取公共知識、共享分析成果,實現多層次數據共享,使證券期貨行業監管工作更加便捷、同步、立體化。
4.4.1 基礎數據庫
基礎數據庫是與證券期貨行業監管相關的公共基礎信息庫,其主要目標是解決監管業務數據庫多頭建設、數據無法有效流動的問題。因此,基礎數據庫建設必須嚴格遵循行業數據模型和基礎編碼,確保基礎數據庫的公共基礎屬性,并引領行業數據庫的標準化。在構建基礎數據庫時,主題數據庫是對各個監管業務數據庫的重構,強調各個應用系統的“共建共用”。監管過程涉及眾多主體,如上市公司、非上市公司、擬上市公司、證券公司、基金公司、私募機構、資產評估機構等。主體數據是主題數據庫建設的基礎,在立體化監管過程中,對上述主體信息的維護是一項基礎且重要的工作。除主體數據外,交易、信息披露、輿情等數據也是重要的基礎數據,這些數據可通過數據采集以及外部數據交換等方式獲得。
4.4.2 公共知識庫
目前,證券期貨行業相關公共專業知識雖然能通過書籍、在線視頻等方式獲取,但其體系化、精確化程度不夠。同時,傳統標簽體系存在搜索范圍大、搜索效率低,并且已有標簽體系無法滿足查詢需求等問題。例如,對于突發的“長生生物疫苗造假”事件,該事件發生突然、傳播迅速、影響較大,若標簽體系中沒有預先定義“疫苗造假”標簽的含義或規則,就無法對業務系統標注“疫苗造假”,也無法對該熱點進行篩選、識別和檢索。證券期貨行業監管公共知識庫初期擬建設行業標簽體系、金融詞庫和上市公司分類庫,形成證券期貨行業機器可讀的“圖書館”,使機器學習更有針對性,進一步提高知識傳播與利用的效率。
公共知識庫將打造一個機器可讀、用戶可編輯、動態更新的基于語義的超大知識數據庫。將機器可讀詞典作為統一資源,對釋義項進行分類,然后基于釋義分析自動生成用于抽取詞匯知識的模板,采用模板匹配的方法,實現詞匯知識的自動抽取。公共知識庫建設的關鍵是要解決知識自生長與知識質量的問題,這是兩個具有一定沖突性的目標,前期擬通過人工整合已有多方知識的方法提高有監督學習的初始質量,后期將采用微服務平臺開放公共接口,供各參與方利用公共知識的同時即時反饋評價,形成持續的強化學習機制,以此協調兩個目標同時達成,不斷完善公共知識庫。
4.4.3 共享成果庫
行業傳統信息化工程以“單兵作戰”為主,數據分析結果難以共享,這使得分析結果不能充分發揮作用。例如,在關聯賬戶分析中,不同單位各自建設獨立的賬戶庫,沒有與其他機構有效關聯,難以形成跨行業、跨地域、跨市場的關聯賬戶分析。證監會大數據工程從監管業務中抽象出關聯賬戶分析、財務報表分析、實體畫像、交易異常檢測、輿情分析、金融文檔分析六大基礎分析能力,歸納出7類32種場景分析服務。通過建設統一的公共基礎分析服務平臺,將分析方法、分析結果匯總,形成共享成果庫,監管各參與方均可利用共享成果庫的內容。
4.5 建設數據服務體系
數據服務體系的建設充分體現了證券期貨行業監管大數據治理的意義與價值,具體包括為全系統數據共享提供資源目錄和數據交換服務,為敏感數據提供數據脫敏服務,為多層次數據共享提供一套支持快速開發、部署、運維管理和持續開發集成的微服務平臺以及為證監會系統各單位分析測試提供統一的模型訓練平臺。
4.5.1 數據資源目錄
數據資源目錄用來解決數據的收集、數據標簽化處理及數據目錄的統一展示。目錄中存儲與證券期貨行業監管相關的數據的核心元數據,包括數據資源名稱、發布時間、內容描述、數據提供方、數據標簽、數據分類、共享方式、數據級別、采集頻率等。在對數據資源目錄進行匯總的基礎上,逐步開展數據資源整合服務,提供行業數據資源的完整數據視圖。
4.5.2 數據交換服務
數據交換服務是數據服務體系的重要組成部分,按照松耦合的數據共享模式進行架構設計,支持多種類型數據源的交換,為各類數據庫之間的數據交換提供統一服務。考慮到各會管單位之間的相對獨立性和數據的異構性,數據交換服務管理模式與一個單位內部的數據管理模式存在較大差異,各單位的信息系統不通過數據庫的直接連接進行數據交換,而是連向統一的平臺,由數據交換系統統一維護與各個單位的數據接口,由相關工作組統一協調數據資源,為各個單位信息系統提供統一的數據交換服務。
4.5.3 數據脫敏服務
在數據交換開展之前,應依法依規對數據開展脫敏工作,以保護敏感信息的安全性。數據脫敏是指從原始環境向目標環境進行敏感數據交換時,通過一定的方法消除原始環境中數據的敏感性,并保留目標環境業務所需的數據特性或內容的數據處理過程。數據脫敏能夠在數據共享時有效地防護敏感數據的外泄。數據脫敏服務應完成3項基本任務:敏感數據分級分類、敏感數據應用場景定義和數據脫敏任務實施。
敏感數據分級分類應根據數據重要性、私密性、指向性的不同,并充分考慮數據應用范圍、脫敏后數據對原數據業務特性的繼承(如保持原數據間的依賴關系)等因素進行劃分。通過分析脫敏數據的各種應用場景,并兼顧使用場所的網絡環境,把敏感數據應用場景分為5類:內部分析、系統仿真、監管協作、外部分析、開放測試。基于上述工作,數據脫敏任務實施包含確定待脫敏數據、確定數據應用場景、確定脫敏策略和算法、脫敏實施、脫敏評價5個步驟。
4.5.4 微服務平臺
微服務通過抽象出監管業務的邏輯確定服務的邊界,每個服務只關注自己邊界內的事件。微服務可獨立擴展伸縮,不同的微服務可由獨立的團隊維護,滿足了業務系統快速開發及部署的需求,增強了開發平臺的支撐柔性。微服務平臺支持各分析中心共建共享基礎數據庫、公共知識庫和共享成果庫,實現多方協同的多層次數據共享。
4.5.5 統一模型訓練平臺
監管大數據分析工作涉及跨行業、跨地域、跨市場的數據,在數據分析模型訓練過程中,需要匯集大量的、不同領域的綜合性數據,并需要對敏感數據進行脫敏。統一模型訓練平臺為各數據分析中心提供模型訓練所需的基礎數據及一定的數據計算能力,支持技術協作,減輕各單位的負擔,提高系統資源的利用率。
4.6 建立組織保障體系
證券期貨行業監管大數據治理工作的順利推動需要管理制度為其保駕護航。證監會建立了多層次的大數據治理組織架構,設立監管科技工作建設管理委員會、科技監管專家咨詢委員會、監管科技建設與協調工作組、大數據平臺規劃建設小組,并分別定義了其角色與職責。其中,監管科技工作建設管理委員全面負責大數據工程的統籌、規劃、協調和推進;科技監管專家咨詢委員會對方案規劃、工程實施評估等事項提供決策咨詢;監管科技建設與協調工作組負責統籌協調各方資源以及日常工作管理;大數據平臺規劃建設小組主要負責大數據平臺建設和數據治理工作的實施。多層次的組織架構為證券期貨行業監管大數據治理工作提供了組織管理保障。
5? 工程實施與問題發現
5.1 工程實施
證監會大數據工程建設采用多方協同、共建共享的工作策略,以業務為導向,先有后優、重點突破,形成推動監管科技發展的良好生態體系。數據治理工作早在2014年就開始規劃和推動了,目前在行業數據模型研制、公共數據平臺搭建、數據服務體系建設等方面均取得了一定的成果。
目前,行業數據模型已初見成效。抽象模型已形成了能夠體現行業業務脈絡、表達業務運行情況和數據特征的行業數據素材庫;建立了數據模型管理平臺,為行業共享數據模型成果提供服務。在基礎編碼方面,證監會信息中心組織證券期貨業機構成立了基礎編碼專業工作組(WG1),致力于證券期貨行業基礎編碼的制定、修訂的統一工作,已發布3項基礎編碼國家標準和4項基礎編碼行業標準,正積極推進兩項基礎編碼國家標準和一項基礎編碼行業標準的制定工作。在交換標準方面,2014年9月,全國金融標準化技術委員會證券分技術委員會(以下簡稱證標委)成立了11個專業工作組,啟動了證券期貨業標準規劃工作,并于2015年7月發布了《證券期貨業機構間接口標準規劃》和《證券期貨業機構內部接口標準規劃》。
此外,為了更好地支持行政許可、行政處罰等工作中的業務分析,圍繞證券期貨行業監管對象,證監會分析了大數據平臺中各類外部數據資源,正在建設證券期貨行業各類參與主體的基礎數據庫。針對大數據工程六大基礎分析能力建設,組織了6個技術協作組分別開展研究,現已提出基于大數據分類和異常檢測的財務分析方法、基于圖分析和標簽化處理的資本市場實體畫像方法、基于?X?T模型的證券市場異常交易檢測方法、基于社區發現和穩態分析的關聯賬戶分析方法等工程方法。采用上述工程方法,已經開展了私募機構畫像與風險發現、上市公司畫像與風險發現等工作,開始形成對證券期貨行業相關主體異常問題的及時發現和預測的動態監管機制,進一步提升防范和化解金融風險的能力。
在數據服務體系建設方面,證監會建設了證券期貨監管系統數據資源目錄服務平臺,實現監管系統內外部數據資源目錄的集中展示。目前,該目錄平臺已基本完成數據資源目錄的收錄,使得數據整體情況得到統一的展示,為數據交換服務打下了基礎。在數據共享制度建設方面,目前,證監會正在研究監管科技數據共享、與數據脫敏相關的制度,以進一步明確數據共享各參與方的職責,梳理數據共享流程管理,提出數據脫敏技術要求和管理要求。
5.2 問題發現
在證監會大數據工程建設的實施過程中,筆者充分感受到了證券期貨行業監管數據具有復雜性、海量性和動態性及多源、多關聯和多維度特征,傳統的針對單一機構的數據標準管理、元數據管理和數據質量管理已經無法滿足其數據治理需求。行業數據模型的建立在很大程度上解決了數據末端的模型管理,但無法展現業務梳理過程的中間產物,不便于業務人員的理解,并且由于啟動較早,對行業外部的大數據資源考慮不夠充分。證券期貨行業數據流轉復雜,機構間數據關聯性強,數據源頭多樣化,數據血緣關系難以管理,導致數據質量難以把控。高度敏感的資本市場數據如何實現外部監管協作,更加方便、快捷、高效并且依授權地共建共享,也是當前面臨的挑戰性工作。
此外,數據集成要求數據共享是安全、可靠的。多源異構數據的數據集成是較為復雜的問題,通常使用者并不清楚數據集成的意義,也不知道如何對已經聯系在一起的數據進行操作。數據管理者在系統設計時,必須考慮到這種情況——用戶的要求可能會增加數據集成的復雜性,數據集成必須能夠適應這種狀況。
因此,面對與證券期貨行業監管相關的“數據湖泊”群,其治理需要構建一個超級大數據管理平臺,不僅要解決數據標準、元數據管理和數據質量管理問題,還要解決數據模型管理、數據源管理、數據血緣關系、多源數據校核、多層次數據共享與服務等問題。
6? 結束語
伴隨著以大數據、人工智能、云計算、區塊鏈為代表的高新技術的快速發展,金融科技與監管科技成為推動證券期貨行業實行跨越式發展的重要手段,大數據已經是證券期貨行業的戰略資源和重要資產。監管部門應高度重視大數據治理工作,制定相應的數據戰略和管理方法,統籌指導、規劃、控制各項數據管理活動,充分發揮監管數據的資產價值。研究發現,建立完備的組織架構體系是數據治理工作順利開展的根本保障;明晰行業的大數據治理需求是數據治理工作的前提;建立完整的行業數據模型,規范行業術語,清晰描述整個市場的數據業務是數據治理工作的基礎;支撐行業監管,提供完善的數據服務是數據治理工作的落腳點;特別地,根據證券期貨行業大數據的特殊性,解決數據工程共建共享、數據多源校核等方面的深層次技術問題,是數據治理的關鍵所在。
筆者在研究與實際工作中,針對證券期貨行業監管業務關聯性強、參與主體多、監管數據量大且敏感性高等特殊性,提出了初步的證券期貨行業監管大數據治理方案及工程實施中發現的問題,對該領域后續工作的展開有一定的指導意義。
作者簡介
蔣東興(1970-),男,中國證券監督管理委員會信息中心研究員、副主任,負責證監會監管科技建設工作,研究證監會監管科技規劃和整體架構曾任清華大學計算機與信息管理中心主任、信息化工作辦公室副主任、保密管理辦公室主任,中國高等教育學會教育信息化分會理事長,教育部教育管理信息化專家組組長承擔了多項國家科技攻關項目、支撐計劃項目、教育部重大信息化項目,發表論文140余篇,出版書籍5部,取得專利4項,研制國家標準3項,獲得北京市科學技術獎三等獎、教育部提名國家科學技術獎二等獎等省部級獎項 。
高若楠(1992-),女,就職于中證信息技術服務有限責任公司,主要研究方向為數據治理。
王浩宇(1992-),男,就職于中證信息技術服務有限責任公司,主要研究方向為數據治理。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的证券期货行业监管大数据治理方案研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据流技术在GPU和大数据处理中的应用
- 下一篇: 面向大数据的异构内存系统