构建在知识中台基础上的企业画像
現狀
金融行業是信息驅動的行業,金融機構對用戶的營銷服務、適當性管理催生了用戶畫像業務;對投資標的的投研風控的分析、資產配置的要求,催生了產品畫像業務;對新聞資訊的精準搜索、個性推薦需求,催生了資訊畫像業務。無論用戶畫像、產品畫像、資訊畫像,其依賴的數據主要是金融機構內部的經營數據,包括用戶在金融機構端的行為數據、賬戶數據、交易數據、行情數據等等。這些數據基本上都是結構化的,數據價值密度高,形成一個有效果的畫像一般只會面臨工程層面的問題。
當前,金融機構對畫像業務的關注點正在轉向企業畫像,一方面這源于大數據投研風控的需求,對于股債基等等投資標的基本面研究,需要從投資標的對應的企業的分析入手,甚至于孤立的企業分析也不太夠用,還需要從企業所處的產業角度去發現一個公司的價值與風險。另外一方面,企業也是我們金融機構的客戶,VC、PE、企業投融資等金融業務的開展,需要企業盡調、合規監管的審查,對于企業客戶的營銷服務也需要對企業客戶做畫像。無論是基于產業的投研風控分析還是對企業客戶做金融業務的營銷服務,都會涉獵到大量非上市公司。企業畫像的難點就在于對這些非上市公司的打標以及關聯分析上。
傳統方法
基于標簽的畫像方法是當前畫像系統的主流技術,給企業打一組標簽,每個標簽給一個權重,把這些信息整合在一個工作界面上構成企業全息信息視圖,同時提供檢索、分析、報表等功能,一個畫像系統就算完成了。這類軟件或者平臺,有個共同技術支撐平臺:一個是畫像門戶,一個是打標平臺。
畫像門戶是數據展示的端,天眼查、企查查就是這類軟件。打標平臺則是其核心后臺技術。打標平臺是一個一站式解決方案,方案涉及標簽元數據管理、標簽模型、算法的支撐、標簽的二次開發、標簽挖掘以及標簽管理等內容。標簽作為畫像系統的核心服務,又分為基礎標簽、規則標簽、模型標簽、預測標簽幾個維度。基礎標簽比拼的數據源的多少與質量;規則標簽是對基礎標簽的規則化處理,主要靠專家來制定規則,泛化能力有限;模型標簽,是通過機器學習建模,對某類標簽進行有監督或者無監督的計算方法,比如通過聚類方法實現用戶的自動分類;預測標簽是對某種業務屬性的一種預測,諸如商機預測、風險預警都屬于這類標簽。相對于模型標簽的模式識別,預測標簽則代表對未來某種潛在標簽達成的概率預測。模型標簽和預測標簽是比較有技術含量的標簽體系,是引入大數據或者大數據處理方法的一種泛化。
問題
大數據多源、異構、數據價值密度低、數據質量參差不齊,基于這樣的數據環境,企業畫像面臨諸多問題與挑戰,與依托金融機構內部數據的用戶畫像,有著本質不同。企業畫像面臨的問題有數據問題、業務問題和技術問題,接下來我們逐一詳解。
數據問題——數據治理的問題
從工程實踐的結果上反過來分析,金融機構關注的企業畫像所需信息包括幾個維度:1)企業基礎信息,包括董監高行業地域規模等等;2)股權層面,質押、擔保、對外投資、實控人、受益人、資本系等;3)產業層面:主營產品、細分行業、供應關系以及上下游等相關信息;3)新聞輿情:包括新聞資訊、輿情傳播、事件影響等;4)另類數據包括司法訴訟、專利、行政處罰、政策法規、監管問詢等等。
上面所列數據從數據來源來說難點主要兩個方面,一個難點是產業鏈數據,申萬28個行業,細分子行業是2+N的層級,加上國際統計局的GIS產品標準和類目,隨便一個行業其涉及到的行業細分產品的數目可能就會達到萬級,關鍵這些數據還是動態更新的,需要按需修訂。另一個難點是輿情畫像,我們知道做輿情的企業動則監控幾萬的站點,幾十臺上百臺的服務器日夜無休的爬取各類數據。還要隨時面對網站改版、安全策略更新等突發情況。
以上這些數據基本來源于工商數據、行業數據、政府公開數據以及其他另類數據,相對于金融機構內部數據,可以說是真正的多源異構,如何將這些信息有效的關聯起來本身是一項非常有挑戰的工作。拿產業鏈數據來說,市面上做產業鏈的公司幾十家應該是有的,而且因為其行業分析師的行業出身不同,導致每家只做了1、2條實際可用的產品級產業鏈,每家數據標準、業務標準都不統一,將這類數據集成在一起的時候,如果用數據中心的統一資訊的方法,會非常災難,那些產品類目的對齊就是一項難以完成的工作。標準化容易工程落地難!
業務問題——知識轉化與沉淀的問題
企業畫像有待解決的業務問題主要體現在企業大數據與企業金融分析之間的業務鴻溝。以股權數據為例,我們可以輕易的從工商數據中獲取到相關股權數據,經過簡單加工處理,也可以獲取一份清晰的股權鏈路圖,即我們通常所說的股權圖譜。很多工商數據的廠商對股權數據加工基本上止步于此。但金融行業對股權的加工是有明確要求和目標的,“人行235號文“對基于股權數據的疑似受益人、實際控制人在關聯人、股權比例、企業類別方面有明確要求,很顯然簡單的股權鏈路無法滿足金融行業的要求,我們需要按照金融場景來定制處理。這就帶來了面向金融行業的企業畫像的一個業務難題,就是什么樣的標簽和關聯分析是符合金融場景需求的?這不僅僅是大數據處理的問題,也涉及到大量的金融專業知識,所以,金融行業的企業畫像是很有必要引入專家經驗的,所以人機如何協同?專家如何將金融知識落地沉淀到企業畫像系統,也是畫像系統要解決的問題。
技術問題——算法模型的天花板
企業畫像因為沒有金融機構內部行為數據的支撐(至少是冷啟動建設開始的事實是這樣),所以畫像標簽面臨不完整、不準確的問題。標簽不完整是源于很多非上市公司數據來源非常有限,極端情況下我們只能拿到其工商數據,那么我們定義的畫像各種數據維度的槽,是無法填充掉的,傳統打標平臺無法解決這塊信息的補全。標簽的不準確表現的為缺乏背景知識的語義理解不準確,舉個例子,如果某篇資訊通篇在提光纜、通信設備、基站以及車聯網相關的話題,那么我們在給與上述實體標簽基礎上,最應該打上還有個“5G“標簽,即便文章中并未提到5g,但事實上,文章內容是對5g產業鏈的一個綜合性描述,而機器(打標軟件)如何知道5g跟那些關鍵詞的對應關系的呢?這就需要我們賦予“機器”一個5g產業鏈的背景知識。很顯然,單純的機器學習模型哪怕是預測模型也是解決不了這類標簽準確性問題的。
對于一份數據稀疏的企業大數據,用傳統機器學習方法打標,很快還會遇到一個算法的天花板。當下工程界大家的算法和調參基本處在同一個起跑線,語料是決定算法結果質量的關鍵,企業畫像數據過于稀疏、數據價值密度低,使得我們從顯性數據里獲取的語料非常有限,好在我們知道在顯性數據背后還有很多隱性數據關聯,類似實控人這類標簽業務,就是有效關聯帶來的成果。那么問題是,我們如何發現這些隱性關聯,以及這些關聯后的新知識呢?
應對
要想解決上述問題,我們需要引入知識圖譜技術,并且在工程實踐中做出3個思維方式的改變:1)基于過程的分析轉向基于領域的分析,這主要應對的是企業畫像的業務問題;2)基于顯性ER關系轉向隱性關聯關系的發現,這點主要應對的是數據問題;3)基于ER數據的模型走向基于語義的模型,這點應對的是算法模型的天花板問題。
基于過程的分析轉向基于領域的分析
我們現在做畫像業務主要是兩種模式:一個是數據驅動,意即有什么樣的數據畫什么樣的畫像;一個是場景驅動,就是有什么樣的場景,找什么樣的數據,再畫什么樣的畫像。為了解決前述分析的企業畫像系統的各種問題,我們需要引入第三種模式即“領域驅動“的模式。無論是數據驅動還是場景驅動,都是過程驅動,數據落地表現為一個個ER關系圖,要么是從場景中找到對應的表結構,要么從現有數據ER結構推出新的畫像ER結構。領域驅動要解決的問題則是要把ER關系轉化為語義網絡關系,把表與表之間的關鍵字連接,變成表中描述的實體與另外表中描述的實體建立語義上的連接。這種轉變就是過程轉化為領域的過程。我們看個具體的例子,我們可以將企業在產業中的信息用ER關系進行表達,于是會形成企業信息表、企業關聯行業表、企業主營產品表,如果我們尋找到新的數據源,比如企業供應關系,那么增加一張表就解決問題了。這樣一個ER關系如果轉化成領域圖,那么就是一個產業鏈的知識圖譜,這張圖里有企業、行業、主營產品、供應關系、上下游等數據結構,所有數據表達采用統一的模式圖”三元組“,形成的就是產業鏈知識圖譜。面向過程的ER圖的使用,需要人來找數據用數據,而面向領域的產業鏈知識圖譜,既可以作為行業分析人員的背景知識,更重要的是,基于三元組的語義網絡的數據組織形式,是可以讓計算機理解產業鏈數據,進而可以產生機器認知的某種能力,諸如知識推理、知識補全等等,這不是面向過程的數據組織方式可以提供的能力。
基于顯性ER關系轉向隱性關聯關系的發現
當我們的思考角度能夠從基于過程的分析轉向為基于領域的分析之后,我們就有能力從顯性ER里發現隱性關聯關系。這種轉變,對于企業畫像來說,意義重大。1)我們具有了發現新數據/新知識的一種能力,就像我們在股權關聯里隱藏了實控人,產業鏈里隱含了行研邏輯一樣;2)我們自動有了新的標簽。對于標簽系統來說,知識圖譜的schema就是一個豐富的標簽庫,schema描述的實體間的關系,以及實體屬性、關系屬性,本質上都是對某個實體的標簽描述,甚至于1度、2度關系也可以是某種標簽描述;3)通過實體在知識圖譜關系網絡上的漫游,我們可以為標簽理解增加了大量的背景知識的同時,也為標簽系統提供了語料數據,為機器學習增加了大量的可選擇特征和樣本數據;4)通過圖分析、推理和挖掘,我們可以讓計算機來參與到標簽發現、知識發現和數據關聯發現的工作中來。
基于ER數據的模型走向基于語義的模型
我們將畫像業務從基于過程的分析轉變為領域分析后,需要借助知識圖譜做工程落地,有了知識圖譜,我們就可以利用知識推理、挖掘、發現、關聯,從顯性ER關系獲取更多的隱性數據關聯。也可以將專家邏輯跟AI邏輯做統一整合。進而,企業畫像系統依賴的機器學習標簽、預測標簽,可以從基于ER數據的模型,走向基于語義的模型。機器學習可以理解為聰明的數理統計模式識別的方法和工具,而知識圖譜可以賦予機器學習大量背景知識,那么一個既聰明又有學識的AI是否能更加勝任我們的企業畫像業務呢?
ER模型走向語義模型我們可以有幾條路徑去驅動:1)特征支持,圖譜的schema是特征的源,相對于實體屬性關系網絡特征應該是區分度最好的特征來源之一;2)語料樣本數據支持,圖譜的三元組數據是一個個事實,隱性關聯的知識也是這樣的一個個事實,從而對于標簽理解或者機器學習標簽可以提供語料或者樣本數據;3)圖分析的一整套方法可以補充進機器學習標簽模型里,豐富算法空間。4)基于知識圖譜的表示學習可以和深度學習結合,完成更加有挑戰的標簽數據的建設。
架構
從工程實踐的角度,我總結了如下一個企業畫像的架構圖。
架構要點有兩個:
第一點:引入知識中臺概念,建立“數據中臺+知識中臺”雙中臺驅動。體現在1)數據->信息->知識->智能,數據中臺主要定位在“數據->信息”這個環節,知識中臺定位在”信息->知識”這個環節;2)知識中臺是知識相關、事實相關、關系相關的信息的再組織,它無法取代數據中臺對應的數據中心,當然,如果你處理數據的主要目的就是找關系,那么也可以繞開數據中臺直接建設知識中臺,但大多數情況下,數據中臺和知識中臺是共生的,他們合在一起是更加廣義的數據中臺。數據中臺為知識中臺提供大數據支撐,知識中臺為數據中臺賦能AI認知能力;3)畫像系統以及其他業務系統按需從數據中臺、知識中臺或者原始數據中獲取數據,他們不是多選一,而是多方協作;
第二點:知識圖譜結合標簽系統共同為畫像系統服務。打標系統為知識圖譜賦能,體現在1)指標進入知識圖譜,為知識圖譜中的實體和關系增加屬性特征;2)指標進入圖譜,為知識圖譜關聯分析提供邊際變化,比如事件標簽進入圖譜后形成事件圖譜,也可以產生事件傳播影響的分析業務。知識圖譜為打標系統賦能,體現在1)知識圖譜為打標系統提供背景知識,增強打標準確性;2)知識圖譜的schema實體關系屬性本身輸出為打標系統的標簽;3)知識圖譜為打標系統提供知識與事實,作為語料和標注數據。4)知識圖譜的隱性關聯關系又會產生新的標簽;
總結
以上是生活随笔為你收集整理的构建在知识中台基础上的企业画像的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最近k8s遇到的一些问题
- 下一篇: 上饶临床实验室改造规划要点