智能问答在金融领域中的实践与应用
大家好,我是數(shù)庫科技的CTO夏磊,我們是一家創(chuàng)業(yè)型企業(yè),成立于2009年,先后獲得穆迪和京東金融的投資,在2016年被KPMG評為金融科技50強,非常高興有機會跟大家分享下我們在行業(yè)工作中的一些經(jīng)驗。今天我主要想從下面幾個方面來講:
演講提綱:
?
第一部分:人工智能與金融創(chuàng)新??我相信今天大家每天都能聽到甚至接觸到人工智能相關(guān)的信息和產(chǎn)品,最近人工智能也被首次寫入2017年的全國政府工作報告。從百度、阿里、騰訊、滴滴、今日頭條到Facebook, Microsoft, Google, IBM, Amazon都在將人工智能技術(shù)融入數(shù)據(jù)、產(chǎn)品和服務(wù),通過大數(shù)據(jù)、機器學(xué)習(xí)及深度學(xué)習(xí)為用戶提供更好的服務(wù)和互動。
在金融領(lǐng)域,人工智能將與傳統(tǒng)金融市場的諸多功能緊密結(jié)合從而提高效率;涉及到?jīng)Q策、交易以及風(fēng)險控制,學(xué)習(xí)模仿專家進行交易、通過用戶畫像和交易行為分析進行風(fēng)險控制等。
下圖是數(shù)庫統(tǒng)計的在金融領(lǐng)域與科技相關(guān)的最熱門的一些概念。
在開始介紹數(shù)庫的智能助手之前,想先簡單介紹一下金融領(lǐng)域這兩年很熱的兩個人工智能的應(yīng)用方向:智能投顧和服務(wù)機器人。
先說智能投顧,2016年,畢馬威在對1500名銀行客戶調(diào)查后發(fā)布《智能投顧——跟進步伐,引領(lǐng)潮流》報告(Robo Advising Catching Up And Getting Ahead),預(yù)計到2020年美國智能投顧的資產(chǎn)管理規(guī)模將會達到2.2萬億美元。智能投顧實質(zhì)上是解決了平衡風(fēng)險與收益的同時,提高效率、降低成本。這類公司有像Betterment、Wealthfront、Future Advisor等;在國內(nèi),智能投顧解決的一個問題是以前通過專業(yè)的理財投顧來服務(wù)少數(shù)高凈值人群,現(xiàn)在可以通過機器用更低的費用服務(wù)更廣大的中低凈值人群。目前國內(nèi)的金融機構(gòu)多是通過黑盒方式提供服務(wù)的,其背后或者是結(jié)合投資者風(fēng)險偏好、財產(chǎn)狀況與理財目標(biāo)做智能投資組合分析,或者是通過量化分析進行交易決策。但國內(nèi)的問題是剛剛起步,我們大數(shù)據(jù)的挖掘不夠深入,標(biāo)準(zhǔn)理財品種比較少,投資者以追求短期收益為主等,所以人工智能到底發(fā)揮了多少價值這個很難說清楚。
再來說服務(wù)機器人,這里主要說聊天機器人(chatterbot),提供一個人機交互界面來做問答,多用在客服、教育等特定領(lǐng)域,國內(nèi)已經(jīng)有很多這種中文聊天機器人的產(chǎn)品,更類似一種百科或者知識庫,但是在金融領(lǐng)域,關(guān)于投資的決策往往非常復(fù)雜,決策往往不是一個有標(biāo)準(zhǔn)答案的問題,想實現(xiàn)智能問答還有很長一段路要走,一方面把已經(jīng)有的一些先進的方法論用機器實現(xiàn),一方面要收集清洗并提取大量數(shù)據(jù)形成知識。
所以就以上的兩點,數(shù)庫對于金融領(lǐng)域智能問答的定位,更偏向于兩者的結(jié)合,投顧+智能問答。數(shù)庫在金融領(lǐng)域?qū)W⒂诮灰浊暗臎Q策環(huán)節(jié),我們挖掘有價值的數(shù)據(jù),在圖像識別和自然語言處理的技術(shù)支持下,我們可以對更多非結(jié)構(gòu)化數(shù)據(jù)進行信息提取、知識分類和聚類,加入量化分析,形成知識庫,以此來輔助決策,不斷減少個體從得到信息到?jīng)Q策的時間。
我們在服務(wù)機構(gòu)用戶時,實際是如何操作的呢?通常分為兩步:
第一,首先對企業(yè)內(nèi)部散落的數(shù)據(jù)進行挖掘和關(guān)聯(lián),形成知識庫;知識庫的搭建并不是簡單的數(shù)據(jù)的匯總,現(xiàn)在企業(yè)比較困擾的是數(shù)據(jù)過多,對于基礎(chǔ)數(shù)據(jù)的整理需要耗費大量的人力。比方說關(guān)于一家上市公司的研報會有幾十篇,上百頁,如果僅僅是把數(shù)據(jù)做匯總,需要大量的時間去消化理解這些信息。所以在面對當(dāng)前信息過量的情況,我們做的是基于數(shù)據(jù)做提取觀點、挖掘知識,才能夠真正地輔助決策。
這里我舉個例子,對研究員來說可能想了解某個行業(yè)、上市公司的一些信息,如:公司業(yè)務(wù)分布、產(chǎn)量產(chǎn)能、供應(yīng)鏈、產(chǎn)業(yè)鏈圖譜、研究員評級和觀點、公司業(yè)務(wù)的外幣構(gòu)成(美元升值)、主要客戶、參控股關(guān)系、主題概念、公司事件軸、量化分析等,這些信息其實分布在研究報告、上市公司財報、互聯(lián)網(wǎng)媒體資訊中,我們要做的就是首先從這些數(shù)據(jù)源挖掘出知識和觀點,通過我們的多因子和事件驅(qū)動回測分析服務(wù)進行實時分析。
第二,知識庫搭建后,如何讓用戶使用呢。通過搜索、問答的方式,是目前最為便捷和簡單的一個方式。但是如何理解用戶的問題并給一個有效的答案是技術(shù)上的一個很大的挑戰(zhàn)。這部分也是我今天分享的重點。除了智能問答以外,我們也為金融企業(yè)中一些特定的場景,搭建從信息到?jīng)Q策的自動化流程。
圖示:從知識到問答
?
第二部分:數(shù)庫智能助手引擎的架構(gòu)與技術(shù)實現(xiàn)??前面已經(jīng)提到了,數(shù)庫的智能助手引擎包含兩個端:
-
一端是對海量數(shù)據(jù)的解析,包括文本自然語言處理(實體識別/摘要/情感分析/事件提取),PDF表格和圖像解析,數(shù)據(jù)基于標(biāo)簽的關(guān)聯(lián)分析;
-
一端是怎么樣去構(gòu)建個交互式問答的搜索引擎。
今天我們著重講下后者,下面這張圖描述了我們這塊最初的技術(shù)架構(gòu)。
整個架構(gòu)主要分成3大塊:
1. Query解析:包含對用戶輸入進行分詞、拼寫檢查、組塊分析、詞性標(biāo)注、命名實體識別、依存句法分析、語義角色標(biāo)注、Ontology詞義擴展、實體歧義消解、指代消解、主題探測、意圖分析和相同會話檢測等;
2.問題回答引擎:這塊目前我們?nèi)诤狭硕喾N方式,包括基于意圖的結(jié)構(gòu)化問答(API),基于檢索的問答系統(tǒng)(news and reports),基于領(lǐng)域知識圖譜查詢和推理的問答系統(tǒng)(業(yè)務(wù),產(chǎn)業(yè)鏈,事件,參控股關(guān)系)以及利用深度學(xué)習(xí)(如Encoder-Decoder+LSTM+Attention model)借用機器翻譯的思想實現(xiàn)端到端的問答匹配及更深入結(jié)合語言模型自動生成問題答案。
3.場景定義及上下文管理:通過提供管理后臺,讓用戶建立起自己的業(yè)務(wù)場景,并在場景中建立起上下文會話,而會話則由實體、意圖和生成模板構(gòu)成。在新的問題中,如果語法錯誤,比如缺少實體和目標(biāo)屬性,那么我們需要根據(jù)上下文回溯到之前提到的實體和屬性,如果上下文中還是缺少這些,我們則需要用追問的方式讓用戶補充回答以填充(slot-filling)。
下面就幾種問答實現(xiàn)方式進行展開:
?? ?基于意圖的結(jié)構(gòu)化問答系統(tǒng)我們來舉一個例子,來說明什么是基于意圖來回答。
如果我們在百度搜索“銀江股份的市盈率”,百度并沒有直接給出答案,而是基于搜索推薦了相關(guān)網(wǎng)站內(nèi)容。而對于這種有直接答案的問題,我們現(xiàn)在要做的就是理解用戶的意圖并直接給出答案。
對于像上市公司財務(wù)指標(biāo)這種結(jié)構(gòu)化信息的查詢,我們只需要將回答對應(yīng)到我們API服務(wù)就可以了,這種情況下,理解用戶的問題,其實就是挖掘出用戶的意圖,比如:“銀江股份的市盈率”,我們識別出其中的實體是銀江股份(300020),意圖是查詢財務(wù)指標(biāo),目標(biāo)參數(shù)是市盈率,隱藏的時間是當(dāng)前日期,那么我們只需要把這個問題對應(yīng)到財務(wù)的微服務(wù)API就可以了,拿到API的返回結(jié)果,調(diào)用響應(yīng)模板做填充。當(dāng)然在這里我們還需要處理很多細(xì)節(jié)問題,比如實體的別名、消歧、時間提取、意圖識別、模板生成等;
?? ?基于檢索的問答系統(tǒng)
有一種問題,我們是不需要自己去生成答案的,只需要通過啟發(fā)式方法從現(xiàn)有的文檔中挖掘出對應(yīng)的觀點和經(jīng)驗就可以很專業(yè)的回答問題了。例如,對于像新聞、研究報告類的文檔內(nèi)容的搜索和觀點挖掘,應(yīng)該是一種精細(xì)化的搜索方式,不是直接對文檔的全文進行檢索,而是首先提取分析出文檔的重要成分,比如:公司事件、摘要、情感、評級、作者正負(fù)面觀點等,建立到搜索引擎中,基于啟發(fā)式方法根據(jù)輸入的內(nèi)容進行匹配回復(fù)。比如:“航天信息可以買嗎?”,我們不一定能準(zhǔn)確的告訴用戶可以或不可以,但是告訴他航天信息在當(dāng)前的技術(shù)指標(biāo)(金叉、死叉等),資金流量,研究員的正負(fù)面觀點以及年報對2017年的管理層意見摘要等等。
?? ?基于領(lǐng)域知識圖譜的問答系統(tǒng)除上面的情況之外,還有一種問題是可以通過對大數(shù)據(jù)信息提取推理生成答案的,比如:“和蘋果手機有關(guān)系的股票有哪些?”,“治理霧霾對哪些上市公司會產(chǎn)生影響?”,“鈷價上升對哪些股票產(chǎn)生影響最大?”等,當(dāng)然這些問題通過搜索的方式也能給出答案,但我們發(fā)現(xiàn)它們有一些共同點,那就是問題的本身都描述著實體和實體之間的關(guān)系或者相關(guān)性,而這個正是知識圖譜能夠解決的問題,知識圖譜將搜索引擎從字符串匹配推進到實體關(guān)系查詢推理層面,自2012年Google搜索發(fā)布知識圖譜,它便成為下一代搜索引擎和問答系統(tǒng)等智能應(yīng)用的基礎(chǔ)設(shè)施。所以上面的這些問題我們可以基于新聞資訊去抽取實體和關(guān)系,并建立相應(yīng)的概念事件、參控股及產(chǎn)業(yè)鏈圖譜,然后基于圖譜去查詢和推理出相關(guān)的答案。
進行中的工作??
目前我們還有一些工作沒有做好,比如在實體關(guān)系抽取上,在檢索和問答中融入個性化,使用深度學(xué)習(xí)模型來做檢索和問答,比如使用生成模型,我們一直在探索這些工作。同時非常歡迎機器學(xué)習(xí)和自然語言處理方向的牛人加入數(shù)庫,攜手用智能推進金融發(fā)展。
最后,非常感謝大家今天的時間,本次分享僅代表個人觀點。
答疑環(huán)節(jié)?? ?? ?問答機器人能否給出肯定的回答, 比如"同花順"當(dāng)前可以買入, "銀江股份"當(dāng)前不可以買入 , 如果可以給出肯定的回答, 正確率大概有多少?夏磊:其實股票的漲跌是很難準(zhǔn)確預(yù)測的,它只是一個概率事件,金融市場由太多因素的影響了,但是我們有一些方法得到充足的信息來輔助判斷,比如像剛才分享提到的,我們可以通過對資訊的分析,提取出研究員的一些觀點,對公司基本面及技術(shù)面走勢給出一些分析,也可以通過對公司歷史發(fā)生的事件進行回測分析,從而得到大概率事件。
?? ?知識圖譜選擇什么圖數(shù)據(jù)庫實現(xiàn),高并發(fā)場景能否支持?夏磊:我們目前使用了多種數(shù)據(jù)庫,如neo4j、mongodb、redis等,主要還是側(cè)重在存儲和查詢,如果數(shù)據(jù)量大的話可以選擇一些商業(yè)的圖引擎,或者使用spark的graphx。我們的知識圖譜描述了公司、概念、事件、產(chǎn)品、參控股等關(guān)系,節(jié)點在幾十萬級別,用neo4j結(jié)合ES沒有什么問題。
?? ?在智能問答和投顧方面能否做到預(yù)測?夏磊:這個問題可以分以下層次:
是對用戶預(yù)期結(jié)果的預(yù)測,不同用戶問一個期望得到的答案不盡相同,大數(shù)據(jù)可以對用戶行為進行分析,進一步分析出用戶的興趣點,并結(jié)合數(shù)據(jù)給出期望結(jié)果;
對標(biāo)的如股價、公司、某個事件發(fā)展進行預(yù)測,市面上有類似的智能投顧,背后有的是拿一些傳統(tǒng)量化模型做得;有的確實有大數(shù)據(jù)的預(yù)測,數(shù)庫在這兩方面都有涉及。
夏磊:問題提到了風(fēng)險與機會,實際上大數(shù)據(jù)在這兩個方面都已經(jīng)有很不錯的表現(xiàn)。拿金融領(lǐng)域舉例,在風(fēng)險衡量方面,越來越金融機構(gòu)利用大數(shù)據(jù)建立風(fēng)控模型,對用戶的風(fēng)險發(fā)生概率進行預(yù)測,從而提高定價的彈性和風(fēng)險的規(guī)避能力;機會把握上,利用大數(shù)據(jù)的營銷在金融及諸多行業(yè)已經(jīng)有非常多成功案例。
?? ?作為一個搜索系統(tǒng),投入這么大,應(yīng)用場景是不是有點窄了?投入回報率是怎么考慮的夏磊:對這個問題,我的看法有所不同。在金融領(lǐng)域的搜索投入不是太大而是太小了,資本在這個領(lǐng)域的投入還會不斷加大。智能化的金融搜索和問答或者說金融科技帶來的行業(yè)效率改進所產(chǎn)生的收益在很多方面都遠遠沒有被體現(xiàn)出來。
作者介紹
夏磊, 數(shù)庫(上海)科技有限公司 CTO, 2012年加入數(shù)庫,負(fù)責(zé)數(shù)庫整體研發(fā)和技術(shù)發(fā)展,推動人工智能在金融證券領(lǐng)域的應(yīng)用,在加入數(shù)庫之前,曾先后就職于IBM Demandtec和HP,分別從事retailer大數(shù)據(jù)架構(gòu)、云計算和移動互聯(lián)網(wǎng)架構(gòu)相關(guān)工作。
總結(jié)
以上是生活随笔為你收集整理的智能问答在金融领域中的实践与应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯AI Lab的研究方向
- 下一篇: ubuntu 16.04 安装MXNet