领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
本文轉(zhuǎn)載自公眾號:恒生技術(shù)之眼。
? ? ? ? ? ??
自然語言處理(Natural Language Processing, NLP,語義計算)和知識圖譜(Knowledge Graph, KG,知識計算)作為認(rèn)知智能的關(guān)鍵技術(shù),正成為智能金融浪潮中新的熱點。這兩種技術(shù)在金融領(lǐng)域的應(yīng)用場景有高度的重合,往往是互為依托、互為補充。
當(dāng)NLP和知識圖譜雙劍合璧,會優(yōu)先在金融的哪些場景實現(xiàn)落地?
各場景“標(biāo)配”的核心能力分別有哪些?
國內(nèi)外NLP和知識圖譜技術(shù)在金融行業(yè)的應(yīng)用到了怎樣的程度?
讀完這篇文章,或許能幫助你對這些前沿科技中的中流砥柱,有一個更清晰和全面的認(rèn)識。
金融行業(yè)因其與數(shù)據(jù)的高度相關(guān)性,成為人工智能最先應(yīng)用的行業(yè)之一,而NLP與知識圖譜作為人工智能技術(shù)的重要研究方向與組成部分,正在快速進(jìn)入金融領(lǐng)域,并日益成為智能金融的基石。
一般的Fintech公司只會集中在其中的某些業(yè)務(wù)方向,只要能深入掌握兩到三種能力,就能具有相當(dāng)?shù)母偁幜?。在這些業(yè)務(wù)場景中,NLP和知識圖譜技術(shù)往往需要共同應(yīng)用,才能發(fā)揮出最大的效能。同時,一種核心能力可以在多個智能金融應(yīng)用場景中得到應(yīng)用,這些應(yīng)用場景包括:智能投研、智能投顧、智能風(fēng)控、智能客服、智能監(jiān)管、智能運營等。接下來我們將分析不同的核心能力在各個應(yīng)用場景的分布情況,對每一種核心能力進(jìn)行簡要介紹,給出它的應(yīng)用場景,并列舉部分國外的典型案例以供大家能夠更好的理解和上手。
金融語義應(yīng)用場景概念框
01
智能問答和語義搜索
智能問答和語義搜索是NLP的關(guān)鍵技術(shù),目的是讓用戶以自然語言形式提出問題,深入進(jìn)行語義分析,以更好理解用戶意圖,快速準(zhǔn)確獲取知識庫中的信息。在用戶界面上,既可以表現(xiàn)為問答機(jī)器人的形式(智能問答),也可以為搜索引擎的形式(語義搜索)。智能問答系統(tǒng)一般包括問句理解、信息檢索、答案生成三個環(huán)節(jié)。智能問答系統(tǒng)與金融知識圖譜密切相關(guān),知識圖譜在語義層面提供知識的表示、存儲和推理,智能問答則從語義層面提供知識檢索的入口?;谥R圖譜的智能問答相比基于文本的問答更能滿足金融業(yè)務(wù)實際需求。
智能問答和語義搜索的價值在金融領(lǐng)域越來越被重視。它主要應(yīng)用的場景包括智能投研、智能投顧和智能客服。在智能投研領(lǐng)域,投研人員日常工作需要通過多種渠道搜索大量相關(guān)信息。而有了金融問答和語義搜索的幫助,信息獲取途徑將是“Just ask a question”。并且,語義搜索返回的結(jié)果不僅是平面化的網(wǎng)頁信息,而是能把各方面的相關(guān)信息組織起來的立體化信息,還能提供一定的分析預(yù)測結(jié)論。在智能客服和智能投顧領(lǐng)域,智能問答系統(tǒng)的應(yīng)用主要是機(jī)器人客服。機(jī)器人客服目前的作用還只是輔助人工客服回答一些常見問題,但已能較大地節(jié)省客服部門的人力成本。
典型應(yīng)用案例如美國Alphasense公司為投研人員整合碎片化信息,提供專業(yè)金融知識訪問工具。AlphaSense公司的產(chǎn)品可以說是新一代的金融知識引擎。它從新聞、財報、研報各種行業(yè)網(wǎng)站等獲取大量數(shù)據(jù)、信息、知識形式的“素材”,通過語義分析構(gòu)建成知識圖譜,并提供高級語義搜索引擎、智能問答、交互式知識管理系統(tǒng)、文檔(知識)協(xié)作系統(tǒng),以對金融知識進(jìn)行更加有效的管理、搜索、使用。
02
資訊與輿情分析
金融資訊信息非常豐富,例如公司新聞(公告、重要事件、財務(wù)狀況等)、金融產(chǎn)品資料(股票、證券等)、宏觀經(jīng)濟(jì)(通貨膨脹、失業(yè)率等)、政策法規(guī)(宏觀政策、稅收政策等)、社交媒體評論等。
金融資訊每天產(chǎn)生的數(shù)量非常龐大,要從浩如煙海的資訊庫中準(zhǔn)確找到相關(guān)文章,還要閱讀分析每篇重要內(nèi)容,是費時費力的工作。如果有一個工具幫助人工快速迅捷獲取資訊信息,將大大提高工作效率。資訊輿情分析的主要功能包括資訊分類標(biāo)簽(按公司、產(chǎn)品、行業(yè)、概念板塊等)、情感正負(fù)面分析(文章、公司或產(chǎn)品的情感)、自動文摘(文章的主要內(nèi)容)、資訊個性化推薦、輿情監(jiān)測預(yù)警(熱點熱度、云圖、負(fù)面預(yù)警等)。在這個場景中,金融知識圖譜提供的金融知識有助于更好理解資訊內(nèi)容,更準(zhǔn)確地進(jìn)行資訊輿情分析。
資訊輿情分析的應(yīng)用主要在智能投研和智能監(jiān)管這兩個場景。目前市場上的輔助投研工具中,資訊輿情分析是必不可少的重要部分。資訊輿情分析作為通用工具更多是對海量定性數(shù)據(jù)進(jìn)行摘要、歸納、縮簡,以更加快捷方便地為投研人員提供信息,支持他們進(jìn)行決策,而非直接給出決策結(jié)論。在智能監(jiān)管領(lǐng)域,通過資訊輿情分析,對金融輿情進(jìn)行監(jiān)控,發(fā)現(xiàn)違規(guī)非法活動進(jìn)行預(yù)警。
03
金融預(yù)測和分析
基于語義的金融預(yù)測即利用金融文本中包含的信息預(yù)測各種金融市場波動,它是以NLP等人工智能技術(shù)與量化金融技術(shù)的結(jié)合。
利用金融文本數(shù)據(jù)幫助改善金融交易預(yù)測模型的想法早已有之。本世紀(jì)初,美國就有人利用新聞和股價的歷史數(shù)據(jù)來預(yù)測股價波動。2010年后,社交媒體產(chǎn)生了大量數(shù)據(jù),基于Twitter、Facebook來預(yù)測股市的研究項目很多。最近,深度學(xué)習(xí)被大量應(yīng)用在預(yù)測模型中。金融文本數(shù)據(jù)提供的信息是定性的(qualitative),而通常數(shù)字形式的數(shù)據(jù)是定量的(quantitative)。定性分析比定量分析更難,定性信息包含的信息量更大。有分析表明,投資決策人員在進(jìn)行決策時,更多依賴于新聞、事件甚至流言等定性信息,而非定量數(shù)據(jù)。因此,可期待基于語義的金融預(yù)測分析大有潛力可挖。這個場景中涉及的關(guān)鍵NLP技術(shù)包括事件抽取和情感分析技術(shù)。金融知識圖譜在金融預(yù)測分析中具有重要的作用,它是進(jìn)行事件推理的基礎(chǔ)。例如在中興事件中,可根據(jù)產(chǎn)業(yè)鏈圖譜推導(dǎo)受影響的公司。
基于語義的金融預(yù)測和分析在金融應(yīng)用的主要場景包括智能投研和智能投顧。它的理想目標(biāo)是能代替投資人員做投資預(yù)測,進(jìn)行自動交易,但目前還只是作為投資人員的投資參考。將不同來源的多維度數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,特別是對非結(jié)構(gòu)化數(shù)據(jù)的分析,比如郵件、社交網(wǎng)絡(luò)信息、網(wǎng)絡(luò)日志信息。從而挖掘和展現(xiàn)出未知的相關(guān)關(guān)系,為決策提供依據(jù)。典型的應(yīng)用案例如美國Palantir公司提供基于知識圖譜的大數(shù)據(jù)分析平臺。其金融領(lǐng)域產(chǎn)品Metropolis,通過整合多源異構(gòu)數(shù)據(jù),構(gòu)建金融領(lǐng)域知識圖譜。特點是:對非結(jié)構(gòu)化數(shù)據(jù)的分析能力、將人的洞察和邏輯與高效的機(jī)器輔助手段相結(jié)合起來。另一個例子如Kensho公司利用金融知識圖譜進(jìn)行預(yù)測分析。在英國脫歐期間,交易員成功運用Kensho了解到退歐選舉造成當(dāng)?shù)刎泿刨H值;曾準(zhǔn)確分析了美國總統(tǒng)任期的前100天內(nèi)股票漲跌情況。
04
文檔信息抽取
信息抽取是NLP的一種基礎(chǔ)技術(shù),是NLP進(jìn)一步進(jìn)行數(shù)據(jù)挖掘分析的基礎(chǔ),也是知識圖譜中知識抽取的基礎(chǔ)。采用的方法包括基于規(guī)則模板的槽填充的方法、基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法。按抽取內(nèi)容分可以分為實體抽取、屬性抽取、關(guān)系抽取、規(guī)則抽取、事件抽取等。
在這里的文檔信息抽取特指一種金融應(yīng)用場景。指從金融文檔(如公告研報)等抽取指定的關(guān)鍵信息,如公司名稱、人名、指標(biāo)名稱、數(shù)值等。文檔格式可能是格式化文檔(word, pdf, html等)或純文本。對格式化文本進(jìn)行抽取時需要處理并利用表格、標(biāo)題等格式信息。文檔信息抽取的應(yīng)用場景主要是智能投研和智能數(shù)據(jù),促進(jìn)數(shù)據(jù)生產(chǎn)自動化或輔助人工進(jìn)行數(shù)據(jù)生產(chǎn)、文檔復(fù)核等。
05
自動文檔生成
自動文檔生成指根據(jù)一定的數(shù)據(jù)來源自動產(chǎn)生各類金融文檔。常見的需要生成的金融文檔如信息披露公告(債券評級、股轉(zhuǎn)書等)、各種研究報告。
自動報告生成屬于生成型NLP應(yīng)用。它的數(shù)據(jù)來源可能是結(jié)構(gòu)化數(shù)據(jù),也可能是從非結(jié)構(gòu)化數(shù)據(jù)用信息抽取技術(shù)取得的,也可能是在金融預(yù)測分析場景中獲得的結(jié)論。簡單的報告生成方法是根據(jù)預(yù)定義的模板,把關(guān)鍵數(shù)據(jù)填充進(jìn)去得到報告。進(jìn)一步的自動報告生成需要比較深入的NLG技術(shù),它可以把數(shù)據(jù)和分析結(jié)論轉(zhuǎn)換成流暢的自然語言文本。
自動文檔生成的應(yīng)用場景包括智能投研、智能投顧等。它的典型應(yīng)用案例如美國的Narrative Science,它從結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘,并把結(jié)果用簡短的文字或依據(jù)模板產(chǎn)生報告內(nèi)容。又如Automated Insights,它為美聯(lián)社自動寫出了10億多篇文章與報告。
06
風(fēng)險評估與反欺詐
風(fēng)險評估是大數(shù)據(jù)、互聯(lián)網(wǎng)時代的傳統(tǒng)應(yīng)用場景,應(yīng)用時間較早,應(yīng)用行業(yè)廣泛。它是通過大數(shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)對用戶行為數(shù)據(jù)分析后,進(jìn)行用戶畫像,并進(jìn)行信用和風(fēng)險評估。
NLP技術(shù)在風(fēng)控場景中的作用是理解分析相關(guān)文本內(nèi)容,為待評估對象打標(biāo)簽,為風(fēng)控模型增加更多的評估因子。引入知識圖譜技術(shù)以后,可以通過人員關(guān)系圖譜的分析,發(fā)現(xiàn)人員關(guān)系的不一致性或者短時間內(nèi)變動較大,從而偵測欺詐行為。利用大數(shù)據(jù)風(fēng)控技術(shù),在事前能夠預(yù)警,過濾掉帶惡意欺詐目的人群;在事中進(jìn)行監(jiān)控,發(fā)生欺詐攻擊時及時發(fā)現(xiàn);在事后進(jìn)行分析,挖掘到欺詐者的關(guān)聯(lián)信息,降低以后的風(fēng)險。
在金融行業(yè),風(fēng)險評估與反欺詐的應(yīng)用場景首先是智能風(fēng)控。利用NLP和知識圖譜技術(shù)改善風(fēng)險模型以減少模型風(fēng)險,提高欺詐監(jiān)測能力。其次,還可以應(yīng)用在智能監(jiān)管領(lǐng)域,以加強(qiáng)監(jiān)管者和各部門的信息交流,跟蹤合規(guī)需求變化。通過對通信、郵件、會議記錄、電話的文本進(jìn)行分析,發(fā)現(xiàn)不一致和欺詐文本。例如欺詐文本有些固定模式:如用負(fù)面情感詞,減少第一人稱使用等。通過有效的數(shù)據(jù)聚合分析可大大減少風(fēng)險報告和審計過程的資源成本。從事此類業(yè)務(wù)的Finctech公司很多,如Palantir最初從事的金融業(yè)務(wù)就是反欺詐。其他如Digital Reasoning、Rapid?Miner、Lexalytics、Prattle等。
07
客戶洞察
客戶關(guān)系管理(CRM)也是在互聯(lián)網(wǎng)和大數(shù)據(jù)時代中發(fā)展起來,市場相對成熟,應(yīng)用比較廣泛,許多Fintech公司都以此為主要業(yè)務(wù)方向。現(xiàn)代交易越來越多是在線上而不是線下當(dāng)面完成,因此如何掌握客戶興趣和客戶情緒,越來越需要通過對客戶行為數(shù)據(jù)進(jìn)行分析來完成。
NLP技術(shù)在客戶關(guān)系管理中的應(yīng)用,是通過把客戶的文本類數(shù)據(jù)(客服反饋信息、社交媒體上的客戶評價、客戶調(diào)查反饋等)解析文本語義內(nèi)涵,打上客戶標(biāo)簽,建立用戶畫像。同時,結(jié)合知識圖譜技術(shù),通過建立客戶關(guān)系圖譜,以獲得更好的客戶洞察。這包括客戶興趣洞察(產(chǎn)品興趣),以進(jìn)行個性化產(chǎn)品推薦、精準(zhǔn)營銷等。以及客戶態(tài)度洞察(對公司和服務(wù)滿意度、改進(jìn)意見等),以快速響應(yīng)客戶問題,改善客戶體驗,加強(qiáng)客戶聯(lián)系,提高客戶忠誠度。
客戶洞察在金融行業(yè)的應(yīng)用場景主要包括智能客服和智能運營。例如在智能客服中,通過客戶洞察分析,可以改善客戶服務(wù)質(zhì)量,實現(xiàn)智能質(zhì)檢。在智能運營(智能CRM)中,根據(jù)客戶興趣洞察,實現(xiàn)個性化精準(zhǔn)營銷。國外從事這個業(yè)務(wù)方向的Fintech公司很多,如Inmoment,Medallia,NetBase等。
各種核心能力在智能金融的主要應(yīng)用場景呈以下分布:
小結(jié)
NLP和知識圖譜兩種技術(shù)本身都還在發(fā)展成長過程中,因此在金融落地過程中勢必也還會面臨許多新的課題和挑戰(zhàn),任重而道遠(yuǎn)。一方面,人工智能必須與金融的具體業(yè)務(wù)場景切合,找到金融企業(yè)需求痛點,真正提升客戶生產(chǎn)效率,給客戶帶來價值;另一方面,人工智能是基礎(chǔ)技術(shù)學(xué)科,技術(shù)難度大,人才要求高,在核心技術(shù)和關(guān)鍵算法上需要有突破有優(yōu)勢,才能不斷提升市場競爭力。所以,場景驅(qū)動和技術(shù)研發(fā)需要相輔相成、緊密結(jié)合。相信金融智能語義技術(shù)的應(yīng)用將會有廣闊的發(fā)展空間,推動智能金融邁向一個新的臺階。
隨著時代變化,加之自身業(yè)務(wù)拓展的需求,以提供金融技術(shù)為核心業(yè)務(wù)的恒生電子已深度布局智能金融領(lǐng)域。作為金融科技公司,恒生始終堅持著連接百萬億、讓金融變簡單的愿景和使命。在即將進(jìn)入的人工智能時代,恒生將持續(xù)在人工智能應(yīng)用于金融創(chuàng)新的征途上邁進(jìn),一如既往地用技術(shù)與金融機(jī)構(gòu)緊密合作,助力金融機(jī)構(gòu)建設(shè)服務(wù)平臺,并提供更加貼近用戶需求的服務(wù)。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的领域应用 | NLP 和知识图谱:金融科技领域的“双子星”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 知识工场 | CN-DBpedia 漫游
- 下一篇: 【Java】深入理解Java线程