人工智能NLP在金融领域的发展趋势和实践经验
作者: 鄭驍慶 林金曙
金融服務(wù)行業(yè)正在愛上“吞噬”文本數(shù)據(jù),即自然語言處理。(The financial services industry is falling in love with text crunching—also known as NLP.)
自然語言處理(NLP)在金融科技中主要解決兩端的問題,一端是數(shù)據(jù),另一端是人。據(jù)估計,90%的數(shù)據(jù)以非結(jié)構(gòu)化的形式呈現(xiàn),自然語言處理的目標(biāo)是將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化表示,然后將語言描述相似的內(nèi)容匯聚,從而估計所描述事件的可靠性和真實(shí)性,進(jìn)而通過事件之間的關(guān)聯(lián)關(guān)系,產(chǎn)生新發(fā)現(xiàn)和新洞見,為后續(xù)的決策提供依據(jù)。對用戶來說,自然語言處理技術(shù)讓機(jī)器更懂人言,更了解用戶的需求及意圖,從而提供及時、準(zhǔn)確、友好的服務(wù)。
NLP在金融領(lǐng)域的發(fā)展趨勢
細(xì)粒度的輿情分析
輿情分析在金融領(lǐng)域的研究起步較早,應(yīng)用也較為廣泛。大眾對某個事件的評價與態(tài)度,與相關(guān)資產(chǎn)的價格變動趨勢有很強(qiáng)的相關(guān)性?;谶@樣的邏輯,可以讓系統(tǒng)自動化收集和分析輿情信息,總結(jié)對某事件或某企業(yè)的評價。這方面金融行業(yè)亟需做得更加細(xì)膩,開展細(xì)粒度的輿情分析,例如對某企業(yè)新發(fā)布產(chǎn)品的外觀、功能、價格等各方面評價進(jìn)行分析,進(jìn)而形成對產(chǎn)品的完整評價;細(xì)粒度還指不能對所有來源的輿情信息一視同仁處理,而是需要考慮評論的出處 。因?yàn)槟承C(jī)構(gòu)、人員的評價可能帶有一定目的性,需要與一般大眾或獨(dú)立性程度較高的第三方評論區(qū)別對待。此外,還要考慮評論者在歷史過程中對事件評論的準(zhǔn)確率。
突發(fā)和意外事件需要格外關(guān)注 ,尤其是與當(dāng)前趨勢相反的事件,這些事件對投資者更有價值,正確預(yù)測全新的趨勢有助于捕捉更佳的投資機(jī)會。
對話系統(tǒng)引入情感分析與推理
對話系統(tǒng)在智能客服、智能投顧等領(lǐng)域已有廣泛應(yīng)用,現(xiàn)在的一個發(fā)展趨勢是在系統(tǒng)中運(yùn)用情感分析技術(shù) ,動態(tài)跟蹤交互時用戶的情緒變化,可以在發(fā)現(xiàn)用戶出現(xiàn)負(fù)面情緒時,及時介入人工干預(yù);情緒分析也可作為對話質(zhì)量評估的指標(biāo),判斷對話系統(tǒng)在完成某類任務(wù)中是否可靠,并利用歷史交互記錄對系統(tǒng)進(jìn)行針對化的迭代優(yōu)化?,F(xiàn)在的技術(shù)已經(jīng)可以較準(zhǔn)確地實(shí)時分析用戶情緒狀態(tài)和變化,還可以讓系統(tǒng)在回答中注入和表達(dá)特定情感。實(shí)驗(yàn)數(shù)據(jù)表明,如果對話系統(tǒng)能做出一些安慰、同情等共情性表達(dá),系統(tǒng)友好性和用戶黏度會大大提升,甚至提升對話系統(tǒng)的交互效率 。
對話系統(tǒng)還需引入智能推理能力 ,這也是一個重要趨勢。傳統(tǒng)對話系統(tǒng)中結(jié)合知識庫的方法是將用戶的問題通過語義解析轉(zhuǎn)化成相應(yīng)知識庫的查詢語句,然后在知識庫上執(zhí)行查詢操作,并將查詢結(jié)果返回給用戶。這樣的結(jié)合方式中,知識庫的作用類似于數(shù)據(jù)庫,不能發(fā)揮知識庫最有價值的能力——使用已知的知識和事實(shí)推導(dǎo)出新知識 。知識庫及其上的推理,天然能夠?qū)Φ贸龅慕Y(jié)論進(jìn)行解釋,例如在智能投顧過程中,系統(tǒng)給出一個建議,如果用戶要求給出解釋,可以通過跟蹤推理鏈,給出具有一定信服能力的、可解釋性的結(jié)果。
更智能的文檔分析
隨著文檔智能技術(shù)的發(fā)展,在金融領(lǐng)域?qū)休^大的應(yīng)用前景。金融領(lǐng)域有大量的文檔需要處理,現(xiàn)在技術(shù)上可以實(shí)現(xiàn)從文檔中提取關(guān)鍵要素,進(jìn)行文檔細(xì)粒度的比對等,以減少繁重的人工工作。例如通過自動對比同一企業(yè)的兩份年報(包括財務(wù)數(shù)據(jù)和解釋說明),可以了解企業(yè)在一定時期內(nèi)發(fā)生的重要變化。筆者認(rèn)為,未來的發(fā)展趨勢是機(jī)器將能更好地理解和解釋文檔,知曉文檔內(nèi)部互相引證的關(guān)系以及復(fù)雜文檔的結(jié)構(gòu)關(guān)系 ,從而更好地賦能合同分析、檢測,這方面現(xiàn)在也已經(jīng)有了一些應(yīng)用。在文檔摘要方面,現(xiàn)在市場的一種需求是要能針對用戶特定問題產(chǎn)生摘要 ,特別是對長文本,需要根據(jù)文本內(nèi)容快速回答用戶的問題并指出答案出處。
與知識圖譜結(jié)合
知識圖譜與自然語言處理相結(jié)合的一個趨勢是:需要能夠圍繞某個主體,將一段時間所發(fā)生的相關(guān)事件進(jìn)行聚類,并將事件聚類結(jié)果與其他主體之間的關(guān)系進(jìn)行建模,這些關(guān)系可以作為構(gòu)建金融定量分析模型的一個影響因素,將知識圖譜的信息有效地在模型構(gòu)建上發(fā)揮作用 ,從而建立不同變量之間的關(guān)系,產(chǎn)生更具說服力、且有數(shù)據(jù)支持的結(jié)論。
為對抗攻擊做好準(zhǔn)備
對抗攻擊對金融業(yè)信息安全的挑戰(zhàn)目前還難以評估,但行業(yè)需要為最壞的情況做好準(zhǔn)備。神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型易被攻擊的現(xiàn)象最早在圖像領(lǐng)域被發(fā)現(xiàn),在自然語言處理也觀察到類似現(xiàn)象,例如原始語句“I really like this movie”是對movie(電影)的正向評價,但是采用對抗攻擊算法,每次有目的地用近義詞替換句子中的一個詞匯,最后生成“We truly like the show”的句子,雖然人仍然認(rèn)為是正面評價,模型卻判斷該句子表達(dá)了負(fù)面情感。類似情況會嚴(yán)重影響模型的魯棒性,降低模型分析結(jié)果的可靠性 。我們要在對抗攻擊防御上做好技術(shù)儲備,構(gòu)建能夠應(yīng)付對抗樣本的魯棒模型。另一方面,對抗攻擊不僅帶來了挑戰(zhàn),也帶來了機(jī)遇:它提供了一種迭代發(fā)現(xiàn)當(dāng)前模型弱點(diǎn)、彌補(bǔ)弱點(diǎn)(攻擊和訓(xùn)練不斷切換)的模型訓(xùn)練方法;在訓(xùn)練樣本不足時,也有助于自動產(chǎn)生高質(zhì)量的訓(xùn)練樣本 。
金融NLP實(shí)踐經(jīng)驗(yàn):從語料到模型
自然語言處理落地金融場景,主要包括原始文本解析、文本標(biāo)注、模型訓(xùn)練、模型評估、模型上線部署等流程,讓快速發(fā)展的自然語言處理技術(shù)更快、更好地落地,主要有幾個關(guān)鍵點(diǎn):
◆語料庫維護(hù) :這是自然語言處理應(yīng)用落地的保障,語料和標(biāo)簽需要形成體系,沉淀之后可以為其他業(yè)務(wù)場景復(fù)用。語料庫的維護(hù)需要考慮語料類型的多樣性,包括文本、圖像、語音等,能否實(shí)現(xiàn)統(tǒng)一管理、檢索;不同業(yè)務(wù)場景需要的語料格式不同,能否統(tǒng)一管理。
◆標(biāo)注質(zhì)量 :標(biāo)注的質(zhì)量往往會決定模型的產(chǎn)出效果。在標(biāo)注之前,需要對原始語料進(jìn)行清洗,例如:去掉相似語料,讓標(biāo)注更具多樣性;很多大盤點(diǎn)評、漲停揭秘資訊等都是無用的信息,要進(jìn)行數(shù)據(jù)降噪。在標(biāo)注規(guī)范方面,文本分類、短文本相似度、文本信息抽取最為重要,要對每個標(biāo)注需求定義進(jìn)行質(zhì)量把控,明確標(biāo)注需求及驗(yàn)收規(guī)范、標(biāo)注過程要進(jìn)行質(zhì)量監(jiān)督。簡而言之,“高效標(biāo)注工具 + 嚴(yán)格標(biāo)注規(guī)范 + 數(shù)據(jù)積累 + 專業(yè)標(biāo)注團(tuán)隊(duì) = 高質(zhì)量語料 ?!?/p>
◆模型訓(xùn)練及效果驗(yàn)證 :需要一定的算力支持;與學(xué)術(shù)界不同,金融領(lǐng)域的應(yīng)用要減少維護(hù)成本與調(diào)試成本,模型不能太復(fù)雜;要對模型訓(xùn)練結(jié)果進(jìn)行實(shí)時跟蹤。
◆預(yù)訓(xùn)練模型及自學(xué)習(xí)平臺 :基于公開數(shù)據(jù)并融合金融行業(yè)問答數(shù)據(jù)、資訊公告以及研報數(shù)據(jù)面向智能問答、智能文檔處理、資訊研報標(biāo)簽等場景,恒生NLP提供金融預(yù)訓(xùn)練模型(相比開源通用預(yù)訓(xùn)練模型F1提升3 ~ 5%),且配套有獨(dú)立研發(fā)自學(xué)習(xí)平臺,從而有效解決金融機(jī)構(gòu)本地部署模型快速迭代的需求問題。
在金融NLP實(shí)踐的過程中,恒生基于嚴(yán)格的標(biāo)注規(guī)范積累了大量高質(zhì)量語料,在模型開發(fā)、訓(xùn)練與管理方面也已形成相關(guān)工具、平臺。隨著越來越多、越來越精彩的自然語言處理技術(shù)從前沿走向應(yīng)用,恒生也將與行業(yè)一同探索新技術(shù)在更多業(yè)務(wù)場景的應(yīng)用。
更多金融科技文章見恒生LIGHT云社區(qū)
總結(jié)
以上是生活随笔為你收集整理的人工智能NLP在金融领域的发展趋势和实践经验的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机导论黄国兴百度云,计算机导论黄国兴
- 下一篇: Excel 中 YEAR 函数公式语法和