万字长文详解文本抽取:从算法理论到实践
導讀:“達觀杯”文本智能信息抽取挑戰賽已吸引來自中、美、英、法、德等26個國家和地區的2400余名選手參賽,目前仍在火熱進行中(點擊閱讀原文進入比賽頁面,QQ群見上圖或文末二維碼)。達觀數據目前已經舉行過兩次圍繞比賽的技術直播分享,并開源了baseline模型。本文是這兩次技術直播的內容總結,包括信息抽取傳統算法和前沿算法詳解、比賽介紹,以及比賽baseline模型代碼分析和改進建議。?
在前半部分,達觀數據的聯合創始人高翔詳細講解了自然語言處理中信息抽取算法技術。在后半部分,達觀數據的工程師們分享并介紹了“達觀杯”文本信息抽取挑戰賽的baseline代碼以及改進建議。最后,針對參賽選手和其他觀眾的疑問,三位專家也一一做了解答。
作者介紹
高翔是達觀數據聯合創始人,達觀數據前端產品組、文本挖掘組總負責人;自然語言處理技術專家,負責文本閱讀類產品、搜索引擎、文本挖掘及大數據調度系統的開發工作,在自然語言處理和機器學習等技術方向有著豐富的理論與工程經驗。?
目錄
第一部分:文本信息抽取詳解
第二部分:“達觀杯”baseline代碼分享
第三部分:問題答疑
第一部分:文本信息抽取詳解
自然語言處理真正的黃金時期是從上世紀90年代開始,那時候我們搞了統計學,做了很多基于統計機器學習的算法。從下圖中我們可以發現,統計模型的效果讓自然語言處理的應用領域更加廣泛,產生了很大進步。其實在上世紀90年代的時候,自然語言處理已經可以在很多場景表現得很不錯了,比之前的技術要先進很多。
從2006年到現在,深度學習已經開始起步。之前“神經網絡”這個概念已經有了,只是當時受限于各種各樣的算法和硬件,沒法做得很好。但現在各方面都成熟之后,大家發現深度學習是一個神器。其實深度學習最早的時候在圖像領域的應用較多,但目前自然語言處理也逐漸開始過渡到深度學習的階段。尤其是去年像BERT這樣的模型出來之后,我們發現自然語言處理的評測經常被屠榜,這說明神經網絡非常有效,但也說明數據也很重要,后文中我們會解釋數據的重要性。
我們對比一下人類和計算機之間的差異。其實我們人類短時間內閱讀理解文字的能力還不錯,但是時間久了很容易遺忘。但計算機基本不會忘,只要硬盤不壞。人腦難以長期記憶,但我們對內容的推理能力比計算機強。因此,我們可以請計算機來做一些比較細節的工作。例如文字比對,我們檢查錯誤要逐字逐句地看,非常累。計算機能做到秒看,卻很難做復雜的邏輯和推理。
我們在接受信息時能很快地理解整體,但是難以記住細節。我們看完一個東西立刻能知道它的中心思想。例如,我們瀏覽了一個企業的信息之后,就能做出“這個企業比較靠譜,愿意投資”的判斷。但是企業收入、競爭利潤、負債這些具體數字很難全部記清楚。所以人去尋找局部信息的能力和計算機比非常慢。計算機的優點就是找這種局部信息,越細的東西它找得越快。
其實在一些比較固定的,相對簡單,不需要特別復雜的邏輯推理的場景中,機器學習算法已經可以完成信息抽取任務。我們正努力讓計算機在這些場景落地,這不僅僅是算法的問題,也是應用的問題。這也是我們一直在思考的問題。
抽取算法概述
現在我們具體講講信息抽取的幾種最主流的算法。
什么是信息抽取?其實就是從文本中找到指定類型的實體。大家應該聽過命名實體識別(NER),其實命名實體識別只是抽取中的一種。廣義上的信息抽取,除了命名實體識別之外,還包括關系抽取、事件抽取等。其實在我看來,關系抽取和事件抽取比命名實體識別的應用層次更高級一點。因為這兩個抽取同需要做NER,只是在做NER的基礎之上,還要做一些其他的工作,來滿足場景需求。
我們先從最簡單的NER開始。命名實體一般是指人物、地點、機構、時間等內容。現在我們以公司抽取為例詳細說明一下。
但是你會發現這種場景并不常見。比如,如果抽取所有公司(不僅限于上市公司)就不能用這種辦法,因為公司實在太多了。十年前如果你看到“餓了么”,如果沒有上下文,你不會覺得這是一個公司,但因為現在大家經常點“餓了么”,都知道這是一個公司的名字。而且,每天都有大量新公司產生,所以整體的公司是一個沒法窮盡的集合。在這種情況下,我們沒辦法用字典很好地完成絕大多數任務。
但這樣做也有很大的問題,因為我們語言表述的方法太多了。例如,“我是A公司的”,“我來自B公司”以及很多種其他不同的表述都是一個意思,我們無法窮盡所有的表述方法。甚至周星弛的電影也能增加這種做法的難度。我們以前說“我先走了”,現在會說“我走了先”、“我吃了先”,這其實跟我們傳統的語法都不太一樣,但現實生活中就有這么多表述。不過,和上面的字典類似,在特定的場合,比如一些特定領域的公文等文書文章,還是有套路或者標準寫法,也許可以用這種方法。總的來說這種方法比較簡單。
更高級的是基于統計機器學習的方法,從算法上來說是用序列標注的方式來做。這種方法要求我們標注數據,例如上圖中我們標注了一句話:“達觀數據是人工智能公司”。現在它會預測“上海的虛擬數據”中的“虛擬數據”也是一家公司。它是怎么做到的?后文會詳細介紹。這種做法就跟模板匹配完全不一樣了。在圖中,可能第一個預測“虛擬數據是人工智能公司”還有模板的性質,但后面兩個表述和前面完全不同,所以這種基于統計機器學習的方式有了一定的預測能力。
但問題是什么?它需要兩個條件。首先是數據。大部分的機器學習都是監督學習,要做數據標注。而且我們傳統機器學習經常要做特征工程。甚至在很多任務中,一個特征工程可能要占到我們項目時間和精力的90%。我們之前參加CIKM評測并拿到冠軍的任務中,就耗費了大量時間構建特征。舉個例子,我們實際工作中完成文本分類任務的時候,僅僅把文字的長度這個特征加進去,效果一下子提升了很多。這種特征我們很難想到。特征的選擇可能有時候還有一定的邏輯推理,但有的時候就是拍腦袋。所以特征工程做好是很難的,需要很多的經驗,還需要有擴散性的思維。
此外訓練和預測需要很多計算資源。某些機器學習(尤其是傳統的機器學習)的訓練過程中,特征有時候會特別耗費內存,可能不一定訓練得完,所以對機器有一定的限制。當然,現在做深度學習,限制可能是GPU。深度學習相對于傳統機器學習,對數據量地要求更高。因為傳統的機器學習模型的各種參數沒有深度學習這么多。
上圖還可以看到,在分詞之外,命名實體我們用另外一個標簽集。我們做詞性分析可能用不同的標簽集。可以看到,不同的標簽集可以用來做不同的事情。所以無論是傳統的機器學習,還是深度學習,我們都是在解決一個叫做“序列標注”的問題。所以標簽集和標注方式都是基礎的、幾乎是一樣的。有什么樣不同?后文會具體討論。
傳統抽取算法介紹
其實傳統抽取算法有很多,這里會介紹一些大家比較常用,也比較好理解的模型。第一個模型叫生成式模型。生成式模型的一個代表就是隱馬爾科夫模型(HMM)。另外一個是判別式模型,代表是條件隨機場(CRF)。這兩個模型都結合了概率論還有圖論的一些內容,也都基于統計機器學習的算法。它們都能根據訓練集訓練出不同的結果。下面我們詳細介紹一下這兩個模型。
我人生第一次做序列標注任務的時候,用的就是HMM模型。馬爾可夫這個名字一聽就像是個數學很厲害的俄國人,但其實HMM模型并不難。大家只要記住兩部分內容:兩個序列、三個矩陣。如下圖所示。我們要做的就就是把這五個部分定義好,整個模型和要解決的問題就定義清楚了。
第一個是初始狀態矩陣。我們現在舉的例子都是有序列標注,例如多輪分詞。下圖是一個真實的多輪分詞模型里面的圖,這是我們自己訓練的一個模型。可以看到,初始狀態只可能是S(ingle)或B(egin),因為不可能從代表詞結尾的標記開始一個句子。所以我們要從所有的語料中統計,單字詞S和多字詞B開始的概率是多少。僅僅統計這兩個矩陣就可以,因為其他兩個標記M(iddle)和E(en)是不可能出現在句首的。圖中的概率有負數,是因為經過log和相關處理,從而可以方便后續的計算,但本質的含義還是概率。
解碼算法基本是用Viterbi來做。當然你也可以把當前最好的狀態輸出來,找到在當前序列下能夠輸出的最大標簽,通過自己的一些解碼邏輯(比如B后面一定是M或者E,不可能是S)優化一些內容。但我們經常還是用Viterbi去做整體的解碼,取得最優路徑的概率。Viterbi解碼算法大家一定要掌握,因為后面有有不少算法與它類似。只要把Viterbi學會了,后面的很多東西就很好理解了。
HMM是我個人學的第一個模型,但是我現在基本上不用這個模型。為什么不用?因為它的效果還是相對差一點。但它也有優點。因為做極大似然估計就是簡單的統計,速度非常快。所以這個模型的更新可以做到秒級。你做一個數據的修改,跑一遍立刻把數據統計出來,修改矩陣以后很快就對這個模型做一個更新。所以在項目的初始階段,我們可以快速地用這個方法來做baseline或者動態的修改。尤其在實際業務中,可能客戶做了一些修改后他需要實時知道反饋,這時候可以用HMM,雖然可能不能保證有好的效果。
在實際應用中我們用的最多還是條件隨機場(CRF)。因為CRF往往效果更好。下圖說明了HMM和CRF的關系是什么,我們可以看到一個HMM是鏈式傳遞,但加上一個條件就是我們最常見的鏈式條件隨機場。通用CRF就是下圖中右下角的圖,但是我們做序列標注的話可能是最下面一行中間的這個圖,也就是鏈式的CRF。它跟上面一行的圖的區別是什么?大家可以看到下面一行圖中有好多小的黑色正方形,這就是我們說的條件。我們是如何得出條件的?下面我們就來介紹一下如何通過真實訓練得到條件。
首先看第一個特征:U00: %X[-3,0]。U00表示把我們要研究的字左邊的第三個字作為特征,向量后一個數0表示我們沒有添加人工特征。我們把這些拼接起來就是一個最終的特征。
下面這張圖代表了標簽之間的轉移,這跟HMM非常像,也可以算出來。所以CRF最終在一個全局最優的情況下達到了一個最優點。我們可以存儲這個最優點情況下每一個特征的值,用來解碼。
CRF的解碼較為簡單,我們根據當前序列的位置,根據特征的模板生成很多特征函數,直接去查我們的模型,找到其對應的特征函數權重,之后每一個特征函數權重加起來。查到這個特征函數就把相應的權重取出來,加起來,沒有查到就是0,就不用去做了,最終有一個得分,這樣每一個標簽都會有相關的得分。這個字生成的Score會有BEMOS相對應的,最終得到一個圖,我們就用Viterbi解碼,跟前面一樣就能解出來了。
以上內容就是HMM和CRF這兩個傳統的算法。
基于深度學習的抽取算法
經典機器學習的很多算法需要比較強的數學功底,通過數學公式做出優美完整的論證。但現在經典機器學習算法的收益已經沒有以前大了。原因如下圖所示,圖中列出了文本挖掘領域中,經典的機器學習和深度學習的對比。
而深度學習不在乎特征。模型定好之后只管輸入,有了輸入就能輸出一個最好的結果。基本不用改代碼的,只需要調參。如果數據小,還需要修改一下過擬合方面的東西就可以了。但是用經典機器學習做特征工程可能要改很多代碼才能做出一個非常好的特征,這就是傳統機器學習和深度學習最大的區別。
用深度學習做文本處理基本繞不開LSTM。雖然現在有很多模型,但也采用LSTM做baseline。下面是一篇著名的介紹LSTM的文章的截圖,建議大家看一下原文。文章中最精華的就是下面四張圖,展示了LSTM的工作原理。
第一個步驟是單元狀態丟棄(如下圖)。圖中有兩個量x_t和h_t-1。x_t就是當前的輸入,h_t-1是上一時刻的隱層的輸出。這個公式求出來一個0-1之間的值,決定要留下多少東西。(任何東西乘以0-1其實就是計算要留多少東西,乘以0什么都留不了,乘以1就都留下,乘0.8就留80%。)
第二步新信息的選擇。當前輸入包括上一時刻隱層的輸出和當前的輸入。這一步驟判斷應該留下來多少內容。它還是計算兩個系數,一個i_t,這也是一個0-1之間的值。第二個是C_t,表示當前cell的狀態。計算完畢后需要把這兩個系數的值保存下來。
第二步:新信息選擇
第三步是更新狀態。上面一步已經決定可以留下的新內容和老內容。這一步要決定如何組合新老內容。老內容可以乘以第一步計算出的f_t,新內容可以乘以第二步算出來的i_t,然后把新老內容相加,就是最新的狀態了。
第三步:單元狀態更新
第四步是得出最后的輸出值。Cell不會一股腦輸出,而是計算出了系數o_t和狀態相關的函數結果相乘后得出輸出。
第四步:確定輸出
以上四步定義了LSTM基本的原理。LSTM其實提出來已經很多年了,在很多場景下都經受了考驗。所以希望大家一定要把上面介紹的基礎原理了解好。
下圖顯示了基于深度學習的信息抽取技術Bi-LSTM+CRF的原理。這個方法代表了深度學習和傳統的機器學習一個很好的結合。傳統CRF最大的問題是特征很稀疏,想做一個很好的特征要花費很多時間。我們可能會有幾套比較經典的特征,但不一定保證效果最好,特別是訓練數據發生變化以后。而詞向量和Bi-LSTM可以做很多的特征提取工作。
如果不用CRF,可能整體效果還不錯,但會出現很多badcase。比如B后面出現S,S后面出現O。因為算法只考慮當前的最優輸出,沒有考慮整個序列的最優結果。而CRF是一個考慮全局的算法,也考慮到標簽間的轉移概率。所以用CRF會得到一個比較可控的結果。
總得來說,上圖介紹的Bi-LSTM+CRF方法,結合了CRF和Bi-LSTM,把“小明去達觀數據開會”這幾個字變成向量,通過中間的Bi-LSTM隱層,提取出來高維的特征,輸入CRF層,CRF最后就會給出標簽和結果。
下面我們會介紹這篇文章最重要的部分:預訓練模型。深度學習除了不用做大量的特征工程,還可以對文本做非常好的表示。這里的例子是用Word2Vec做出詞向量,然后用TensorBoard可視化,如下圖所示。
上圖用的是Word2Vec模型。下圖還有一些其他的模型,比如Glove。這兩個模型都是靜態表示。靜態表示有天然的缺陷,例如它們很難區分“蘋果好吃”和“蘋果手機”中的兩個“蘋果”。就好像我們學技術的時候什么都想學,但因為時間是有限,所以每種技術學得都不夠深入。
所以從2018年開始,出現了很多新的預訓練模型,不少模型都用《芝麻街》里怪物的名字命名,比如ELMO、BERT和ERNIE。除此之外還有微軟的MASS,Google最新的XLNet等等。這些模型本質上都用深度學習的神經網絡做表示,雖然有的用Attention,有的用Transform,但本質差別不大。
這些模型和Word2Vec/Glove最大的區別在于它們是動態模型。下圖是一個真實的例子。輸入“蘋果好吃”和“蘋果手機”后,用BERT對每個字建模,發現前兩個字的向量很不一樣。這說明BERT可以根據不同的上下文語境編碼每個字,或者說可以根據上下文語境對同一個字做出不同的表示。
BERT可以根據上下文,對同一個字做出不同的表示
如何選擇預訓練模型呢?我建議大家可以都嘗試一下。大部分同學都可以訓練ELMO,它的結構和LSTM很像,我們可以自己訓練一個語言模型。BERT訓練的成本就要高很多,但現在已經有一些其他的框架或語言做處理。我們自己用中文維基百科訓練BERT只用了幾天,也沒有用很多顯卡,當然我們也做了不少優化工作。可以先試著用Word2Vec看看效果,有可能效果已經很不錯。關鍵在于要找到在能力范圍內按時訓練完的模型。
抽取算法在達觀的具體實踐
首先我們要注重場景。應用場景一般就是客戶提供的文檔,包括財務報表、基金合同等等。文檔處理的核心是自然語言處理,特別是抽取技術。我們也需要考慮實際應用,結合一些其他的工程技術,比如外部系統、分布式技術、數據庫技術等等。
還有一種方法是非監督的Embeddin的學習。下圖是我們的一個真實的例子。當時登貝萊剛轉會到巴塞羅那俱樂部。我們用標準語料去訓練,發現“登貝萊”這個名字一定會被切開,無論怎么訓練分詞都不行。潛在的解決方法之一是增加很多登貝萊相關的標注數據,但是這么做收益不足。所以我們就找了很多外部的語料做嵌入。?
除了NER,還可以抽取別的內容。例如知識圖譜就要做關系抽取。輸入一句話,“美國總統特朗普將考察蘋果公司,該公司由喬布斯創立”,怎么抽取關系?有兩種方法。一種方式是把實體抽出來,然后兩兩實體做一些分類,分到一些關系里面。另一種依靠序列標注,也就是基于聯合標注的方法。這么做的好處是不用修改標注框架。
所以我們最終的思考是:第一要盡可能地收集數據、理解數據,這是所有做機器學習的同學第一步就應該做的事情。我們應該去分析數據、看數據,而不是一開始就上模型。如果不做數據清洗,好數據、亂數據、臟數據都在里面,模型是做不好的。就像教孩子一樣,如果好的壞的都教,他就不知道什么是好壞了。而且我們要分析問題的本質,選擇合適的模型。例如,對于已有數據的數據量,選先進模型有用嗎?如果沒有用,就要趕緊去收集數據。
而且在任務一開始的階段,我比較推薦大家做傳統的機器學習,因為這些模型比較現成,也比較通用。在做了一個非常好的baseline之后,你就知道底線在哪,然后再引用深度學習。去年的達觀杯我們就發現很多參賽者一上來就在用深度學習,結果做了各種調參,效果還不如我們自己20行代碼的傳統的機器學習。所以剛開始的時候一定要讓傳統機器學習幫助你,這樣你更有信心做后面的事情。另外,這句話一定要送給大家:“數據決定效果上限,模型逼近此上限”,所以大家一定要重視數據清理,數據的分析真的比調參調模型收益更大。
如果遇到疑難雜癥,端到端技術經常會有驚喜,但不能保證每次都有驚喜。大家在學習的過程中一定要關心最前沿的技術。
做機器學習肯定會遇到失敗和挫折,重要的是從挫折中總結規律才是最重要的,不要被同一個坑絆。這樣的經驗很難依靠別人教會,因為所處的環境、場景、場合、數據不可能完全一致,所以需要有自己的思考。
最后,看完了這篇文章能做什么呢?可以參加我們的“達觀杯”文本智能信息抽取挑戰賽。這是我們第三次組織“達觀杯”比賽。比賽的一等獎有30000元獎金,二等獎2支隊伍有10000元的獎金,三等獎有5000元的獎金,優勝獎還有3000元。除此之外,TOP30同學直接直通面試。
比賽數據有兩部分,一部分是有標注的數據,另外一部分是一個規模達到上百萬的非標注的數據。比賽的關鍵就是如何利用這些非標注的數據來提升整個模型的效果。而這就是我們最終在實際生活和工作中遇到的問題:只有少量標注數據,但是有大量的未標注數據。歡迎大家在比賽中實際運用一些算法和理論。因為有時候光看別人的分享難以獲得深刻的理解,但是經過“達觀杯”這樣的比賽就能把知識掌握地更好。
比賽頁面:Introductionbiendata.com
第二部分:“達觀杯”baseline代碼分享
在前一章中,高翔老師給大家提到過做命名實體識別的幾種方式:1)基于規則;2)基于機器學習;3)基于深度學習。因為這次達觀杯比賽的數據經過了特殊處理,所以沒法用基于規則的方法做。在這里我們介紹一下后兩種方法。
對于傳統的機器學習算法來說,特征工程是特別重要的一項,常常會占用我們特別多的時間。而且baseline提供的算法來說,設計特征模板也是一個重要的步驟,它會影響最后出來模型的整體效果。
而如果要用深度學習的方法做信息抽取,就需要比較多的機器資源,可能還需要更多的標注數據,才能在深度學習的算法上獲得較好的效果。
下面我們看一下baseline代碼。首先需要引入相關的庫:
整個代碼分成以下5個部分:
首先我們需要CRF++工具,大家可以到https://taku910.github.io/crfpp/下載工具。然后我們可以分析一下代碼:
第一步:處理訓練數據
在這里大家也可以添加一些其他的特征。對于NLP來說,常見的特征包括詞性、詞頻、詞邊界、實體的邊界等。多加入幾個這樣的特征,可能會對效果有一些影響。
第二步:處理測試集
第三步:CRF++訓練
第四步:CRF++生成預測結果
第五步:生成可提交的文件
第三部分:問答環節
關于比賽:數據,baseline?問:比賽的訓練數據都是詞向量嗎??達觀數據工程師:不是的,由于我們數據的特殊性,我們的數據都是字符級別的。因為我們的數據已經做了脫敏處理,分詞的特征已經沒有了。?問:Baseline模型可以到多少分??達觀數據工程師:Baseline非常簡單,如果裝了CRF++工具,能夠馬上跑出來,大概能有0.85的F1。大家如果選到更好的特征模板,就能把CRF調到一個更高的分數。因為CRF本身也是很有門道的,可能需要花一些時間,不過研究一下會很有收獲。?問:比賽中提供的未標注數據有什么用?
達觀數據工程師:我的看法是用來訓練語言模型,如果你有一些別的特別酷炫的想法也可以嘗試。因為提供未標注數據的初衷,是我們看到NLP最近一年的發展,自從ELMo、BERT出現,后面還有XLNet,這些模型都是在告訴我們NLP其實也可以借鑒一下CV超大數據量預訓練模型的思路。因為在NLP領域標注的數據非常難獲取,其實NLP的數據比CV的數據更難標,但是我們有大量無監督數據,比如神奇的被翻來覆去調教了N次的維基百科,這種未監督數據量足夠大,你總能發現里面的語言學規律,這里面的規律可以用來做特征,來增強模型的泛化。特別是現在做文本相似度以及做NER等基礎任務,用了BERT以后泛化能力會提高很多,BERT現在經常被作為基礎的特征提取模型。?問:為什么我的模型分數只有 0.72??
高翔:其實就如前文所說,應該先研究一下數據,并用傳統的方法提出一些baseline模型。否則就不知道這個任務的底線,也可能會出現過擬合。我們自己內部用Python串起來十幾行代碼,就能跑到0.8+。我覺得不到0.8可能是出現了過擬合,沒有使用預訓練數據,只是使用了標注數據。所以建議先用標準模型試試,得到一個baseline,獲得一些信息,再去做一些比較復雜的模型。?比賽相關技術:調參,BERT,ELMo,LSTM和CRF?問:如何調參??高翔:這個問題特別深奧。很多情況下我們把一些同學叫“調包俠”,他們沒有很好地理解算法本質,只是在瞎調。比如我曾經遇到一個同學在LSTM里把ReLu當成激活函數。但LSTM要求輸出為0-1,而ReLu的輸出范圍是0到無窮大,所以梯度直接就爆炸了。我覺得調參有兩個重要的方面,首先是經驗的積累,這點只能靠自己;其次需要對模型和數學有一定的了解,這些不會直接告訴你如何調參,但是能給你一些靈感和方向。我也建議大家搜索一些網上的經典套路。?問:BiLSTM+CRF能用于比賽嗎?
達觀數據工程師:如果用深度模型也可以,但是我們這次比賽的數據量有點少,用深度學習模型的話很容易過擬合。目前已經有不少參賽選手反饋,用BiLSTM+CRF模型調參,不管怎樣調,結果甚至還不如CRF隨便跑一下好。這是因為我們給的訓練集只有17000條,而且并不是每一條都有標注的,所以訓練集比較少。所以大家如果要做的話,就需要嘗試用訓練語言模型的方式去做深度學習模型了。
問:BERT+BiLSTM+CRF呢?
達觀數據工程師:如果是用于我們這個比賽,我懷疑你在BERT的訓練過程中會過擬合。?問:BERT能不能把比賽數據解密??達觀數據工程師:我覺得逆向解密可能跟BERT關系不大,跟你的統計能力以及偵探小說看得多不多有關系。?問:如何使用ELMo能訓練出更好的詞向量??高翔:這個要看與什么比較。我們的實踐經驗不一定跟你相符。我們發現,ELMo訓練出來的東西的確會比Word2Vec會好,而且要好不少,但跟BERT相比還是會差一些。如果你要訓練一個不停地迭代的模型,可能花很多時間調參,但是可能沒有換掉整個模型框架的收益大。因為BERT效果的確要好很多,無論從機制還是attention思路來說,都會比簡單的LSTM這種方式做得更好。
達觀數據工程師:雖然BERT很難用于本次比賽,但我覺得ELMo也可以用在比賽里。ELMo有兩種方式,一種是自己分詞,然后再進LSTM。還有一種是直接用字向量。你其實可以跳過自己分詞,直接把每個字當成ELMo中的詞向量來訓練。比賽給出的未監督數據不可能到維基中文數據的量級。所以我個人建議是從ELMo這樣的Baseline開始,看ELMo會不會在比賽數據量規模上過擬合,如果會的話,可以把ELMo的模型復雜度自己裁剪,或者你用一些更復雜更炫酷的詞向量去拼接ELMo。?問:能否再講解一下BiLSTM+CRF?
達觀數據工程師:CRF可以做的東西,BiLSTM+CRF應該都可以做。但是這次比賽沒有給分詞的信息,所以可以用字向量來做。但是用字向量來做,一是容易過擬合(就像前文提到的數據量不是很多)。如果你們要玩這種深度學習模型,首先要面對的首要問題是過擬合,不過我們已經幫你們排除掉了最容易過擬合的事情,就是詞向量。
所以,現在只需要做字向量,而字向量的空間比詞向量少了很多。詞向量一般來說是幾萬級的,再乘以常用的200維,這樣就容易出現嚴重的過擬合。
字向量一般是千級別(比如五六千),再乘以一個100維,不過可能還是有可能會過擬合,因為我們的數據量比較少。
這次比賽做的命名實體識別,基本上給的是比較短的文本。你可以做一件很簡單的事情,就是做數據增強:隨機把2句、3句,甚至4句、5句話拼在一起。拼完以后你的實體還是在原來的位置,這樣數據量可以直接變成2倍到3倍。而現在比賽這個量級的數據做BiLSTM+CRF是一定會過擬合的。
當然,你可以有一些更神奇的操作。比如如果你懷疑過擬合主要出現在字向量層或者LSTM層的話,你可以去把字向量層的學習率調低,或者把LSTM層的學習率調低,或者加L2正則化。
另外值得一提的是,我們在比賽中給了一部分未監督語料。未監督語料量級其實也不是特別大,我前兩天在比賽群里看到有人在企圖訓練BERT,我認為這么做不是特別科學。這么小的語料訓練BERT一定是訓練不出來的。我們也有過BERT的訓練,基本上用了整個維基百科的數據。如果數據量少或者質量差的話,都會影響到BERT的訓練效果,特別是這個比賽用的數據量級會比維基百科少了太多。
語言模型從ELMo到BERT,都是數據量多大,模型能力就有多大。深度學習一定要記住這樣一件事情:數據量多大決定你要用多復雜的模型才不會過擬合。
這個問題回答有點長,但是這是一個相當廣泛的,也是一個比較實用的問題。
達觀數據工程師:BiLSTM+CRF已經是一個2015年提出來的很老的Baseline了。還有很多很酷炫的方法(比如IDCNN+CRF)也出現了挺久了。它的主要特點是性能高,在上下文關聯不是很長,而且對訓練速度要求高的情況下可以試一下。
我個人觀點,在機器學習這塊更好的思路不是唯模型論,而是一個概率編程的思路。也就是說,當你的規則很難去維護時,就說明你的數據量已經足夠去做模型了。你可以做一個很小的模型,解決一個很小的問題,然后把這些東西拼起來。?問:數據量規模和神經網絡的層數有什么關系,10萬樣本需要幾層網絡?
達觀數據工程師:這種玄學問題很難簡單地概括清楚。我覺得樣本質量比數量重要太多,有時你洗洗數據比你調一兩層模型有意義多了。
即使不考慮數據質量,相比樣本數量來說,你可以做的數據增強以及你樣本當中實際的模式也是很重要的一件事情。如果是標準的NER問題(比如抽取人名、地名、機構名這種實體),而且數據量有10萬樣本,我覺得LSTM層數差不多1-2層,最多3層就可以了。
但這是一個經驗值,如果你有足夠的時間,可以用先用BERT去微調(finetune)做一個Baseline,供其他模型參考。然后更重要的是,你怎樣去發現是否在這個數據上出現了過擬合。如果你在過擬合這個數據,很多時候并不是LSTM層數的關系。
關于隱層維度的上限,假如你說的是BiLSTM+CRF的話,它的前級特征,比如如何得到字向量和詞向量,是否有鎖定詞向量,以及數據是否有增強,比LSTM的層數重要多了。維度一般都在數百維左右。?問:能否再詳細介紹一下數據增強?
達觀數據工程師:NER的語料基本是識別一句話,比如“小姐姐某某某來到達觀數據” 和“孫楊去參加了游泳比賽”。那么現在我們有了兩條語料,你可以這兩條語料拼在一起,模型理論上還是應該給出正確結果,但是你喂給模型的語料就變成了三條。
其實模型有可能并不是在過擬合你所理解的那種模式,它其實是在記住數據中相同的東西。?問:長度過長的句子需要截斷嗎?
達觀數據工程師:這就看你怎么定義“過長”了。比如你統計下來,99%的句子都在200個字以下,你完全可以選擇在200個字截斷,或者你做了各種花式拼接以后再統計一下。如果有些特別長尾的東西,就可以在那個長度截斷。?問:深度學習和傳統的機器學習方法,哪個好?
達觀數據工程師:這個問題比較泛,深度學習和傳統機器學習方法哪個好一些?機器學習本質上是個實驗科學。我認為實驗科學的意思就是試一試哪個方法效果好,哪個方法就好。從理論上有時很難推斷出來,因為使用的數據經常千奇百怪,存在各種異常。?關于達觀數據與招聘?問:比賽排名第31能面試嗎?如何發簡歷?
高翔:如果你的成績是第31名,和第30名差了0.01,我們不在乎這種差異,可以直接來。簡歷可以發到“達觀杯”專用投遞郵箱maxinyi@datagrand.com,注明參加了“達觀杯”比賽。?問:達觀工作的氛圍如何?
其他的福利,水果、零食、聚餐、團建,大多互聯網公司有的也都有。另外還有年度海外游、部門團建基金、不定期各種聚餐、桌游和戶外活動。
對于NLPer來說,是一個非常好的選擇。公司正處于快速發展期,歡迎有興趣的小伙伴們加入,可以積極投遞簡歷。
問:只有CV的背景能投NLP嗎?
達觀數據工程師:我覺得可以呀,只要你是真的感興趣。
?
關于“達觀杯”
比賽頁面:https://biendata.com/competition/datagrand/?source=pw2
??
關于達觀數據
總結
以上是生活随笔為你收集整理的万字长文详解文本抽取:从算法理论到实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字节跳动 2019 ICME 双赛道冠军
- 下一篇: Seq2Seq之双向解码机制 | 附开源