天壤联合创始人韩定一:大模型+小样本数据,AI驱动金融数字化转型新范式|量子位·视点分享回顾...
視點 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
后疫情時代,現(xiàn)實世界企業(yè)面臨更多復(fù)雜、非線性的變化,數(shù)字化、自動化成為企業(yè)提高戰(zhàn)略競爭力的關(guān)鍵因素。
特別是業(yè)務(wù)規(guī)模巨大的金融機構(gòu),如何借助AI、大數(shù)據(jù)、自動化等技術(shù)工具構(gòu)建數(shù)字化、精準(zhǔn)化的營銷體系?如何通過更好地調(diào)度AI模型實現(xiàn)金融機構(gòu)的決策智能,降低業(yè)務(wù)成本?
正是基于“復(fù)雜”而生的大模型,已成為機器智能學(xué)習(xí)的基礎(chǔ)。
“算法、數(shù)據(jù)、算力”三者協(xié)同,面對億級規(guī)模的金融復(fù)雜、碎片化場景,大模型只要經(jīng)過少量微調(diào)即可滿足學(xué)習(xí)任務(wù),AI能力一鍵即用,高效實現(xiàn)金融業(yè)務(wù)的數(shù)智化。
關(guān)于金融數(shù)字化領(lǐng)域,如何利用大模型和小樣本數(shù)據(jù)解決一些實際業(yè)務(wù)場景的問題,天壤聯(lián)合創(chuàng)始人韓定一在「量子位·視點」直播中分享了他的從業(yè)經(jīng)驗和觀點。
以下根據(jù)分享內(nèi)容進行整理:
金融數(shù)字化面臨的挑戰(zhàn)和趨勢
金融數(shù)字化的場景其實大家日常生活中經(jīng)常遇到,例如銀行ATM機刷臉取款、手機銀行人臉識別核驗身份、疫情期間網(wǎng)點使用紅外技術(shù)檢測體溫等,還有通過手機APP直接來識別身份證、銀行卡,不必再手動輸入相應(yīng)字段信息等各種場景。
金融機構(gòu)應(yīng)用AI一方面是為了合規(guī),通過驗證身份來驗證每筆交易的真實性,另一方面是用機器代替了人工識別,既提升了效率,也降低了人為因素可能導(dǎo)致的錯誤率。
可以預(yù)見,AI技術(shù)是金融機構(gòu)未來大幅提升效率、快速辦理業(yè)務(wù)的基礎(chǔ)。這樣的場景還有更多,例如銀行內(nèi)部各種審核流程、單證流轉(zhuǎn),傳統(tǒng)銀行業(yè)務(wù)用紙質(zhì)完成,現(xiàn)在用數(shù)字世界的識別能力將它們電子化。比如銀行業(yè)務(wù)中涉及到的手寫簽名比對、密碼驗證、識別筆跡、印章的真?zhèn)涡?#xff0c;以及系統(tǒng)將手寫單據(jù)錄入至系統(tǒng)中再將其作為指令發(fā)送出去,包括一些線下網(wǎng)點提供的遠程機器人業(yè)務(wù)辦理服務(wù),背后涉及多個銀行業(yè)務(wù)系統(tǒng)的多套單元操作。今天的AI技術(shù)已經(jīng)可以做到幾乎代替人工自動化地去完成單個的步驟和復(fù)雜的流程操作。
這些場景對AI能力要求越來越高。那么在金融這樣特殊的業(yè)務(wù)場景下,有哪些相較于一般應(yīng)用場景的特殊需求?
首先,金融機構(gòu)嚴(yán)格的監(jiān)管以及數(shù)據(jù)的私有化決定了數(shù)據(jù)獲取成本很高,考驗AI能否用更少的數(shù)據(jù)解決同樣的問題;第二,基于少量數(shù)據(jù)樣本訓(xùn)練的AI模型是否能達到非常高的準(zhǔn)確率去很好地解決業(yè)務(wù)問題;第三,業(yè)務(wù)場景非常多,例如銀行、保險、證券等場景涉及不同業(yè)務(wù)規(guī)則、流程操作,金融機構(gòu)往往希望模型快速上線,一年內(nèi)開發(fā)100個流程應(yīng)用涉及到的模型可能有1000多個,這些挑戰(zhàn)決定了需要不同AI模型和應(yīng)用的組合能力來解決復(fù)雜業(yè)務(wù)問題。
能不能讓模型生產(chǎn)變成流水線?其實就是“大模型+小數(shù)據(jù)”最典型的場景。
接下來,我們回顧一下AI技術(shù)的發(fā)展趨勢。
1997年5月份,IBM的深藍電腦以3.5:2.5擊敗了當(dāng)時的國際象棋世界冠軍卡斯巴羅夫。2016年,AlphaGO以4:1擊敗李世石,又是引起一陣軒然大波。跨越了將近20年的時間,AI雖然得到了長足的發(fā)展,但是應(yīng)用也僅僅是剛剛開始。其中背后的技術(shù)到底發(fā)展了多少?
象棋和圍棋這兩個問題其實本身都比較難:國際象棋的棋盤有8x8個格子,圍棋有19x19個格子。從這個角度來說,圍棋比國際象棋要難很多。數(shù)學(xué)家大致推算,像國際象棋這樣的棋盤大概有10的47次方種可能性,而圍棋有10的170次方。這個數(shù)字大到雖然看上去有限,卻沒有辦法完全計算——物理學(xué)家估算整個宇宙中的原子數(shù)量是10的80次方,就算所有原子都參與計算,仍然有10的90次方的可能性需要靠時間來完成。
AI圍棋又是如何擊敗世界冠軍?當(dāng)年在國際象棋中,AI使用的是搜索的方法:將圍棋的棋盤狀態(tài)和接下來可能發(fā)生的變化一一枚舉,然后判斷哪種情況結(jié)果更好。這樣的AI模型算法簡單,但是規(guī)模非常大,工程難度高,實現(xiàn)這樣的模型只需要現(xiàn)在計算機系大三學(xué)生的水平就足夠。IBM為了支持這樣的程序,專門研制了VLSI象棋芯片,每顆芯片每秒進行11.38億次浮點計算,意味著每秒可以計算2億步棋,對應(yīng)到國際象棋棋盤中就是能夠估算當(dāng)前棋面12步后的棋盤變化,而最厲害的人類國際象棋棋手大概只能估算到10步以內(nèi)的局面變化。
但這個方法解決不了圍棋的問題。在AlphaGO出現(xiàn)前,2013、2014年時候,市面上最厲害的圍棋AI也就只能做到圍棋業(yè)余五段或?qū)I(yè)三段、四段的水平。
AlphaGO的出現(xiàn)改變了計算的框架,采用了基于蒙特卡洛的數(shù)字搜索,同時提出了兩大神經(jīng)網(wǎng)絡(luò):是估值網(wǎng)絡(luò)和走棋網(wǎng)絡(luò)。所謂估值,是用來判斷棋譜局面的情況;走棋網(wǎng)絡(luò)是根據(jù)當(dāng)前棋盤的情況判斷如何走棋,然后再用估值網(wǎng)絡(luò)評估走哪步棋的勝率是多少。這兩個網(wǎng)絡(luò)都需要事先訓(xùn)練,通過自我博弈生成幾十億盤九段的棋譜,再通過總結(jié)這些棋譜提高估值網(wǎng)絡(luò)的精準(zhǔn)度。
AlphaGO在實現(xiàn)這個模型時只使用了48顆TPU芯片,但實際計算力是8640 tera flops比之前的480顆VLSI芯片還要高8萬倍。預(yù)訓(xùn)練得到的大模型,其中估值網(wǎng)絡(luò)和走棋網(wǎng)絡(luò)都被訓(xùn)練得非常優(yōu)秀,判斷力比專業(yè)九段棋手還要高。
過去的20年中,其一計算算力得到了極大的提升,其二所需要的芯片數(shù)量大幅降低,意味著耗電減少,其三是現(xiàn)在的模型可以離線訓(xùn)練,用大量的數(shù)據(jù)支持它做到對棋面的判斷。基于此實現(xiàn)了人類國際象棋AI到圍棋AI的突破,也支持了后續(xù)自然語言處理、圖像識別等領(lǐng)域的進展。
這里列出了自然語言大模型的發(fā)展。2018年谷歌提出Bert模型,其中有3.4億的參數(shù)是通過13GB的文本數(shù)據(jù)訓(xùn)練得到的。以前做自然語言的分類或是圖像實體的識別問題,需要成千上萬標(biāo)注的文本和feature,再通過得到一個適用于之前標(biāo)注的一萬多樣本的模型。但當(dāng)有了Bert這樣的模型支撐,只需要100個對應(yīng)topic的標(biāo)注文件,模型就能快速適應(yīng)問題,不再需要大量的數(shù)據(jù)。
2019年,出現(xiàn)GPT-2模型,參數(shù)量比Bert多五倍,達到15億,這里訓(xùn)練數(shù)據(jù)又多了三倍,達到40GB。到了2020年,自然語言又有了大發(fā)展,提出了GPT-3模型,含有1750億個參數(shù),數(shù)量多了100倍,訓(xùn)練數(shù)據(jù)翻了1000倍到45TB。當(dāng)再使用這些模型去解傳統(tǒng)的自然語言問題時,使用非常少的數(shù)據(jù)模型就能夠快速適應(yīng)到問題所對應(yīng)的具體場景。
這里列的是2021年的三個模型都是在圖像領(lǐng)域ImageNet公開、公認的標(biāo)準(zhǔn)數(shù)據(jù)集上面做圖像分類的準(zhǔn)確率,參數(shù)量都是幾十億的規(guī)模,訓(xùn)練數(shù)據(jù)也需要上億,訓(xùn)練耗時、所需要的硬件資源都非常充足。將這樣的大模型運用到新的具體應(yīng)用場景完成圖像分類或是物體檢測的問題,只需要小規(guī)模的樣本,也能快速得到好結(jié)果。
這就是“大模型”和“小樣本”的含義。
有了“大模型+小樣本”的解法思路后,我們再去做機器學(xué)習(xí)模型會是什么樣?
首先,標(biāo)注少量訓(xùn)練數(shù)據(jù),形成一個小數(shù)據(jù)樣本,然后從我們的模型庫選擇一個合適的大模型,在大模型的基礎(chǔ)上使用小數(shù)據(jù)樣本進行訓(xùn)練,再標(biāo)注少量生產(chǎn)數(shù)據(jù)用于評測。評測后調(diào)整好模型中的問題再進行改進。比起傳統(tǒng)機器學(xué)習(xí)模型,節(jié)約了大量數(shù)據(jù)標(biāo)注和模型訓(xùn)練的時間。
但仍存在兩個難點:其一是很難找到可以用于改進的訓(xùn)練數(shù)據(jù),比如剛剛提到的金融機構(gòu)很多數(shù)據(jù)有嚴(yán)格的訪問流程,且種類繁多,未必是所需數(shù)據(jù);其二是大模型對于計算資源的要求較高,需要幾十上百的TPU來實現(xiàn),具體的業(yè)務(wù)場景中未必存在這么多計算資源,所以大模型經(jīng)過訓(xùn)練后,還需要進行壓縮,只需要一塊甚至不到一塊的TPU或GPU就能實現(xiàn)。
算力的快速發(fā)展幫助了AI的快速普及,同時“大模型+小數(shù)據(jù)”的思路提升了模型的生產(chǎn)效率和效果,經(jīng)過針對性調(diào)整后就能夠推廣至金融業(yè)務(wù)流程中的各個方面。
OCR訓(xùn)練平臺高效連接物理世界和數(shù)字世界
金融領(lǐng)域中各種銀行卡、身份證的數(shù)字化大家早已經(jīng)習(xí)以為常,這些數(shù)據(jù)對應(yīng)的模型相對簡單。但涉及到各種進賬單、財報更復(fù)雜的證件或是國際結(jié)算單里面的提單,這一類模型要復(fù)雜和難很多,這是金融機構(gòu)嘗試做數(shù)字化的主要項目內(nèi)容。
這里列了一個比較完整版本的模型需求,包含各類證件照、銀行票證、企業(yè)票證以及各類財務(wù)報表、醫(yī)療票據(jù)等。這些文本不僅種類繁多,版式各異,甚至還有不同語言。上百種不同專業(yè)領(lǐng)域里面的各種單證,對應(yīng)每一家金融機構(gòu)具體場景的真實的業(yè)務(wù)數(shù)據(jù),這樣的場景就比較適合用大模型和小訓(xùn)練數(shù)據(jù)的方式去精調(diào)。
回顧數(shù)字化標(biāo)準(zhǔn)的三個痛點:一是模型參數(shù)多,需要非常多的訓(xùn)練數(shù)據(jù),可以通過預(yù)訓(xùn)練大模型加小規(guī)模的數(shù)據(jù)去降低模型訓(xùn)練對數(shù)據(jù)的要求;二是數(shù)據(jù)的標(biāo)注成本非常高,每人每天標(biāo)300張已經(jīng)是極限,每次使用10000張圖片去訓(xùn)練相應(yīng)的模型需要三個人按照極限標(biāo)準(zhǔn)標(biāo)注數(shù)據(jù),對于上億個參數(shù)的大模型來說往往需要百萬或者千萬張這樣的圖片;三是模型實施周期非常短,不能以半年一年來計算,而要按照周、天來完成模型。
幾百個場景對應(yīng)幾百個需求,對我們整個的模型生產(chǎn)和管理提出了詳細的架構(gòu)上的要求。底層要管理足夠多的CPU、GPU甚至TPU的資源,上層要管理好各種問題的數(shù)據(jù)集,還需要有模型訓(xùn)練的基礎(chǔ)組件、足夠多的大模型積累。基于這樣的框架再去管理模型的訓(xùn)練和調(diào)優(yōu)、評估及評估后的標(biāo)準(zhǔn)發(fā)布,再跟金融機構(gòu)的各種業(yè)務(wù)進行鏈條整合,確保整個流程是非常順暢、自動、高效地運轉(zhuǎn)。
基于大模型、小數(shù)據(jù)訓(xùn)練的AI能力調(diào)用
接下來具體看一下基于大模型和小數(shù)據(jù),AI是如何訓(xùn)練和生產(chǎn)的。
拿票證數(shù)字化的場景舉例,一張紙質(zhì)的票證標(biāo)準(zhǔn)數(shù)字化的過程是:首先通過手機或者高分拍照儀把它變成圖像,轉(zhuǎn)化為數(shù)字化基礎(chǔ)的多媒體文件;在此基礎(chǔ)上,判斷圖像對應(yīng)到之前我們表中的不同類型,再使用OCR的方法將需要的信息轉(zhuǎn)化為不同的字段、數(shù)字,通過語義識別判斷整個文檔中字段的關(guān)系,這其實是多任務(wù)的學(xué)習(xí)過程。
對應(yīng)到大模型中,所需要調(diào)用的圖像類模型功能有旋轉(zhuǎn)方向、ROI檢測、文本區(qū)域檢測和文字識別,將文本區(qū)域內(nèi)的信息轉(zhuǎn)化為具體的字符。文本類模型的功能包括實體識別和對應(yīng)關(guān)系的抽取。
將不同功能的大模型組合去解決具體任務(wù),需要看大模型在具體任務(wù)的每個步驟是否有足夠高的精度、是否需要做精調(diào)以及更多標(biāo)注數(shù)據(jù)用于評測等,再看整體的效果是否會得到提升。
再舉一個具體步驟的例子,比如營業(yè)執(zhí)照識別分為橫版和豎版,具體應(yīng)用時,第一批拿到的數(shù)據(jù)可能全部都是豎版、沒有橫版。我們當(dāng)時使用16張豎版數(shù)據(jù)訓(xùn)練得到的模型,應(yīng)用到橫版的數(shù)據(jù)集中,準(zhǔn)確率只有76%,f1 score precision和recall這些綜合指標(biāo)都不太理想。在補充標(biāo)注了一些橫版的數(shù)據(jù)集后,只需要5張就能夠提升準(zhǔn)確率到95.5%。
另外一個例子:進出口的發(fā)票的關(guān)鍵信息提取。對于這樣的票證,難點在于每一家國際企業(yè)公司的發(fā)票版式都不太一樣,客戶名字、數(shù)量、單價、總價可能都在不同位置去識別實體會比較困難。傳統(tǒng)的做法是要找大量的數(shù)據(jù)去做標(biāo)注,基于大模型放幾張完全不同版式的發(fā)票給少量的標(biāo)注,就可以快速提取關(guān)鍵信息。
例子左上角是客戶的名字和地址,表格中標(biāo)明了具體的什么貨物、多少錢以及總價。模型通過實體抽取就可以將其變成單個字段,抽取具體的“值”。這張INVOICE里包含一些邏輯關(guān)系的表格的,這個關(guān)系也需要用大模型加小數(shù)據(jù)做訓(xùn)練來提取。
另外一個發(fā)票的例子中,表格中嵌套著表格,每一行是每一類貨物的類別,這一類貨物里面還有細分表格項。這些場景都需要我們用大量預(yù)訓(xùn)練模型加小規(guī)模的、精調(diào)的樣本數(shù)據(jù)。
回過來再看在票證數(shù)字化整個訓(xùn)練流程,“大模型+小數(shù)據(jù)”到底如何改進了過程?
傳統(tǒng)的票證數(shù)字化的訓(xùn)練的流程是:先收集數(shù)據(jù),再做標(biāo)注數(shù)據(jù),模型訓(xùn)練,模型評估,到模型發(fā)布。模型通常從0%的準(zhǔn)確率開始,一步步迭代,先提升到50%,再逐步提升到70%、80%。
而有了預(yù)訓(xùn)練大模型,直接從80%的準(zhǔn)確率開始訓(xùn)練,再迭代一次就可以做到90%。對于標(biāo)注數(shù)據(jù),每人每小時標(biāo)30條數(shù)據(jù),成本非常高,通過使用小樣本數(shù)據(jù),可以使用非常少量的數(shù)據(jù)標(biāo)注,讓整個模型訓(xùn)練的過程更高效。當(dāng)模型90%的準(zhǔn)確率需要提升到95%時,會比較難,要靠數(shù)據(jù)生成的方法去解決數(shù)據(jù)樣本稀缺的問題。
這個方法在開場介紹圍棋的時候提到,AlphaGO模型訓(xùn)練用了幾十億盤九段棋譜,中日韓三個棋院歷史上所有有記載的九段棋譜也就四五十萬盤,要達到上億的數(shù)據(jù)其實是靠機器跟機器自己下棋來解決很多數(shù)據(jù)稀缺的問題。
天壤借助數(shù)據(jù)生成的方法快速地迭代、提升模型精調(diào)效果。九張我們機器生成的銀行票據(jù),模擬了各種效果的數(shù)據(jù),比如字體偏移、復(fù)印效果帶噪點、拍照時閃光過曝、紙張折疊、透視的效果或者打印機漏幀的現(xiàn)象,都可以通過圖像處理的方法去模擬和精調(diào),通常會得到很好的效果。
基于這樣的技術(shù),用上億數(shù)據(jù)、極大算力的大模型,通過時間把它預(yù)訓(xùn)練好,再結(jié)合具體問題的小數(shù)據(jù),實現(xiàn)一個快速迭代的AI應(yīng)用的場景就走通了。借助數(shù)據(jù)增強、圖像生成的方法去補充一些機器快速標(biāo)注的數(shù)據(jù),一天時間就可以得到上百萬上千萬的類似數(shù)據(jù),可以快速地把具有上億、幾十億參數(shù)的神經(jīng)網(wǎng)絡(luò)的精度調(diào)得非常高,。
AI+金融,數(shù)據(jù)驅(qū)動業(yè)務(wù)轉(zhuǎn)型和升級
再和大家分享一些我們實際做的案例。
第一個場景,是某銀行的確權(quán)審批流程。網(wǎng)上業(yè)務(wù)流程開展涉及以下幾個步驟:
檢測辦理業(yè)務(wù)的人和原來指定的人是否和銀行記錄的是同一個人、業(yè)務(wù)申請的簽名和原來留在銀行的簽名是否是同一個人、公司辦業(yè)務(wù)蓋的公章和原來留在銀行的公章是不是同一個。當(dāng)三要素都匹配的時候,流程審核通過。
原來銀行業(yè)務(wù)花大量時間人工審核,幾分鐘才能審核一筆,現(xiàn)在結(jié)合各種AI能力和整個流程的自動化,可以非常快速地審核,基本上可以做到秒批,準(zhǔn)確率也非常高,每一筆審核都不會漏檢。
疫情期間,銀行財務(wù)人員的UKey放在企業(yè)辦公室,但人被封在了自己家小區(qū)出不去,這時候銀行開始開通視頻授權(quán)進行打款業(yè)務(wù),解決了大家的燃眉之急,背后都靠AI技術(shù)來提升整個流程效率和準(zhǔn)確率。
第二個場景發(fā)生在國際結(jié)算部門,比如國內(nèi)某公司向國外某公司發(fā)貨,對方未收到貨時不會打款,但對公司來說資金周轉(zhuǎn)非常重要,因此能否有裝箱單或者發(fā)貨單作為憑證,當(dāng)打款風(fēng)險很小的時候,銀行進行貸款支持。
銀行業(yè)務(wù)中原本的單證審核依賴人工效率非常低。天壤利用小規(guī)模的數(shù)據(jù)去快速訓(xùn)練模型,再結(jié)合NLP的預(yù)訓(xùn)練模型小數(shù)據(jù)樣本的調(diào)整,用一個模型快速識別3000種不同的表單,準(zhǔn)確率超過95%,減少了90%以上人力工作。
第三個場景是在銀行風(fēng)控部門。風(fēng)控部門涉及各種業(yè)務(wù)審核,最大訴求是希望使用模型來解決上百類復(fù)雜單證的識別問題,基于大模型和小數(shù)據(jù)訓(xùn)練我們可以快速地產(chǎn)出對應(yīng)的上百種模型。幾天產(chǎn)出一個AI模型,30天產(chǎn)出10個符合要求的模型,100個模型也只需要半年到一年的時間就可以完成,且準(zhǔn)確率都非常高,極大地提高了整個風(fēng)控部門的業(yè)務(wù)效率。
“大模型+小數(shù)據(jù)”的技術(shù)框架,最大的亮點就是在能快速適配各種應(yīng)用場景,通過非常好的預(yù)訓(xùn)練大模型、結(jié)合場景的小數(shù)據(jù)去落地。
關(guān)于「量子位·視點」
量子位發(fā)起的CEO/CTO系列分享活動,不定期邀請AI創(chuàng)業(yè)公司CEO或CTO,分享企業(yè)最新戰(zhàn)略、最新技術(shù)、最新產(chǎn)品,與廣大AI從業(yè)者、愛好者探討人工智能的技術(shù)理論與產(chǎn)業(yè)實踐。歡迎大家多多關(guān)注 ~
需要觀看直播回放的小伙伴,請戳以下鏈接或“閱讀原文”吧~
https://www.bilibili.com/video/BV15t4y1x7YV
總結(jié)
以上是生活随笔為你收集整理的天壤联合创始人韩定一:大模型+小样本数据,AI驱动金融数字化转型新范式|量子位·视点分享回顾...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为交换机同一vlan不同网段的通信
- 下一篇: windows server 触屏_宜昌