第三届“达观杯”文本智能算法大赛参赛指南
?
2019 年 6 月 28 日,第三屆“達觀杯”文本智能信息抽取挑戰(zhàn)賽正式開賽,同期面向參賽選手開放競賽結(jié)果提交。本屆比賽由中國人工智能學(xué)會吳文俊人工智能科學(xué)技術(shù)獎辦公室特別支持,達觀數(shù)據(jù)主辦,機器之心、CSDN 協(xié)辦,數(shù)十家技術(shù)媒體和社區(qū)參與合作,由 biendata.com 提供比賽平臺。?
本次大賽的任務(wù)是信息抽取。信息抽取(information extraction)是指從自然語言文本中,抽取出特定的事件或事實信息,幫助我們將海量內(nèi)容自動分類、提取和重構(gòu)。文本智能抽取是信息檢索、智能問答、智能對話等人工智能應(yīng)用的重要基礎(chǔ),它可以克服自然語言非形式化、不確定性等問題,發(fā)掘并捕獲其中蘊含的有價值信息,進而用于業(yè)務(wù)咨詢、決策支持、精準營銷等方面,對產(chǎn)業(yè)界有著重要的實用意義。?
具體來說,比賽給出一定數(shù)量的標注語料以及海量的未標注語料,在 3 個字段上做信息抽取任務(wù)。參賽選手需要動用自己的智慧,結(jié)合當下最先進的自然語言處理和人工智能技術(shù),深入挖掘文本文字中詞語和句子之間的特征,構(gòu)建語言模型,實現(xiàn)精準抽取。?
本次比賽的數(shù)據(jù)來自達觀數(shù)據(jù)。達觀數(shù)據(jù)是國內(nèi)領(lǐng)先的文本智能處理專家,致力于應(yīng)用人工智能技術(shù)幫助企業(yè)實現(xiàn)業(yè)務(wù)流程自動化。作為文本智能處理領(lǐng)域服務(wù)客戶數(shù)量最多、經(jīng)驗最豐富的技術(shù)提供商,文本智能信息抽取將是達觀數(shù)據(jù)持續(xù)專注打磨的技術(shù)之一。?
本次比賽是達觀數(shù)據(jù)舉辦的第三屆“達觀杯”算法大賽。2017 年和 2018 年,達觀分別以“個性化推薦”和“文本分類”為主題,主辦過兩次算法大賽,在全國范圍內(nèi)引起了很大的反響,兩次比賽吸引了國內(nèi)外近萬支隊伍參賽。其中不乏來自 985/211 等高校及世界五百強企業(yè)的選手,這里是自然語言處理愛好者的聚居地。?
本次競賽總獎金為 7 萬 7 千元,前 10 名的隊伍可獲得證書及獎金,比賽成績優(yōu)異的選手將獲得吳文俊人工智能科學(xué)技術(shù)獎的提名推薦機會,排名前 30 名隊伍都可獲得達觀數(shù)據(jù)招聘的面試直通機會。有意向參賽的選手即日起登錄承辦方數(shù)據(jù)競賽平臺 Biendata.com 可獲取更多相關(guān)信息并下載數(shù)據(jù)集。
本次大賽提供的是一個全新的數(shù)據(jù)集,旨在促進不同領(lǐng)域下文檔多字段的抽取任務(wù)研究。訓(xùn)練集有 17000 條,并標注了 3 個字段,共有字段 a 14272 處,字段 b 9037 處,字段 c 8855 處。預(yù)測集有 3000 條。比賽將評估參賽選手在預(yù)測集上識別這三個類型字段的能力。?
所有文本數(shù)據(jù)都經(jīng)過清洗,并且以自然句為單位分句,每一行為一個自然句,之后為其每一個字和標點符號映射一個唯一的索引,即每一個字和標點符號都由一個獨立的整數(shù)來表示。便于處理,用下劃線連接。比如:“歡迎來到達觀數(shù)據(jù)。”被轉(zhuǎn)化為形如“1_2_3_4_5_6_7_8_9”的字符串。
訓(xùn)練集,預(yù)測集和大規(guī)模未標注語料均由同一份索引表生成,選手可以充分的利用大規(guī)模未標注語料去探索字的表示,字與字之間的關(guān)系。每一行對應(yīng)一條文本數(shù)據(jù)。每一個數(shù)字對應(yīng)一個“字”或“標點符號”。字和字之間用‘_’連接,在對應(yīng)字段后面標注/a、/b、/c,非字段文本標注/o。?
來看一個具體的例子。在訓(xùn)練集中,一條數(shù)據(jù)會以這樣的方式呈現(xiàn):
5401_1744_5661_4958_5661_1921_2229_6371_711_8024_7028_6819_1469_2458_1355_3299_4413_3221_100_5401_1744_4638_7270_6823_6369_1153_100_511
對應(yīng)的標簽則為:
5401_1744_5661_4958_5661_1921_2229/b
6371_711_8024_7028_6819_1469/o
2458_1355/a 3299_4413_3221_100/o?
5401_1744/a 4638_7270_6823_6369_1153_100_511/o
此外,比賽還為參賽選手提供一個大規(guī)模的未標注預(yù)料供參賽選手預(yù)訓(xùn)練語言模型。此數(shù)據(jù)集是與訓(xùn)練集和預(yù)測集出處相同的大規(guī)模未標注語料(167 萬條),提供給參賽者用于訓(xùn)練語言模型。
本次比賽基本可以歸類于命名識別任務(wù)。但和一般的任務(wù)相比,數(shù)據(jù)經(jīng)過了主辦方獨特的加密,因此不能直接使用預(yù)訓(xùn)練模型。不過,選手可以獲得一個大規(guī)模的未標注語料數(shù)據(jù)集用來訓(xùn)練語言模型。如何利用這個語料庫?怎么才能精準的提取出三個分類的實體?我們邀請了兩位之前類似比賽的獲獎選手給所有參賽選手分享一些經(jīng)驗。?
這兩位選手是:?
姜興華,浙江大學(xué)計算機碩士,研究方向機器學(xué)習(xí),自然語言處理,在 ACM-multimedia、IJCAI 會議上發(fā)表過多篇文章。在 ByteCup2018 比賽中獲得第一名。?
崔德盛,北京郵電大學(xué)模式識別實驗室,主要的研究方向是自然語言處理和廣告推薦,曾獲 2017 知乎看山杯挑戰(zhàn)賽亞軍,2017 摩拜算法挑戰(zhàn)賽季軍,2019 搜狐算法大賽冠軍。?
命名實體識別 姜興華?
命名識別任務(wù)(Named-entity recognition),簡稱 NER,是自然語言處理中的一個非常基礎(chǔ)和重要的任務(wù)。命名實體識別任務(wù)是指在非結(jié)構(gòu)化的文本中抽取出特定意義的實體,包括人名、地名、機構(gòu)名等。?
命名實體識別是未登錄詞中數(shù)量最多、識別難度最大、對分詞效果影響最大的問題,同時它也是信息抽取、信息檢索、機器翻譯、問答系統(tǒng)等多種自然語言處理技術(shù)必不可少的組成部分。?
該任務(wù)一直是 NLP 領(lǐng)域中的熱點研究問題,早期的方法包括基于規(guī)則和字典的方法,之后,有研究者基于傳統(tǒng)機器學(xué)習(xí)方法解決該問題。近幾年,很多深度學(xué)習(xí)的方法被提出,并且取得了非常好的效果。?
Bilstm+CRF?[1] 是一個非常強的 baseline 模型,是目前基于深度學(xué)習(xí)的 NER 方法中最主流的模型。該模型主要包括 Embedding 層,雙向 LSTM 層和 CRF 層。?
最近兩年,基于語言模型的多任務(wù)遷移學(xué)習(xí)取得了非常大的進步,比如:ELMO [2],GPT [3] 和 Bert [4]。這些預(yù)訓(xùn)練的語言模型在各項任務(wù)中都達到了 SOTA 的效果。
ELMO 是基于雙向 LSTM 的語言模型,GPT 是單向 Transformer 模型,Bert 是雙向 Transformer 模型。NLP 領(lǐng)域已經(jīng)開始從單一任務(wù)學(xué)習(xí),發(fā)展為多任務(wù)兩階段學(xué)習(xí):第一階段利用語言模型進行預(yù)訓(xùn)練;第二個階段在下游任務(wù)上 finetune。這些語言模型在命名實體識別任務(wù)上都達到了非常好的效果。?
本次比賽提供了全新的數(shù)據(jù)集,包括一個大規(guī)模的未標注的語料和一個 10000 條標注數(shù)據(jù)的文檔多字段抽取數(shù)據(jù)集。同時,數(shù)據(jù)集還做了獨特的加密,只提供單詞的 id,并不提供單詞的字符串(很多預(yù)訓(xùn)練好的模型比如 word2vec, elmo 和 bert 都沒法直接使用)。?
參賽選手可以直接使用標注數(shù)據(jù)集訓(xùn)練單任務(wù)模型,比如:bilstm+crf 模型,因為該數(shù)據(jù)集沒有原始的單詞字符串表示,所以沒法使用 Pos-tagger 等信息輔助算法學(xué)習(xí)。另外,本比賽提供了一個大規(guī)模的未標注語料,參賽者也可以使用 word2vec [7], Glove[8]?等工具訓(xùn)練詞向量,將詞向量作為單任務(wù)模型的詞向量初始化。為了更好地利用這個未標注語料,參賽者也可以訓(xùn)練語言模型(ELMO, Bert 等),然后在語言模型上進行下游的 NER 任務(wù) [1-3]。?
參考文獻:
[1] Huang, Zhiheng, Wei Xu, and Kai Yu. "Bidirectional LSTM-CRF models for sequence tagging." arXiv preprint arXiv:1508.01991 (2015).?
[2] Peters, Matthew E., et al. "Deep contextualized word representations." arXiv preprint arXiv:1802.05365 (2018).?
[3] Radford, A. & Salimans, T. Improving Language Understanding by Generative Pre-Training. (2018).?
[4] Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. (2018).?
[5] Clark, Kevin, et al. "Semi-supervised sequence modeling with cross-view training." arXiv preprint arXiv:1809.08370 (2018).?
[6] Akbik, Alan, Tanja Bergmann, and Roland Vollgraf. "Pooled contextualized embeddings for named entity recognition." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019.?
[7] Mikolov, Tomas, et al. "Distributed representations of words and phrases and their compositionality." Advances in neural information processing systems. 2013.?
[8] Pennington, Jeffrey, Richard Socher, and Christopher Manning. "Glove: Global vectors for word representation." Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.?
命名實體識別比賽感想 崔德盛?
算法比賽雖然有著很多的細分領(lǐng)域,然而總體上來說都是從數(shù)據(jù),特征,模型三個方面提升。在不同的比賽任務(wù)中,不同的隊伍側(cè)重點都有所不同。?
以剛剛結(jié)束的搜狐 2019 校園算法賽為例,蘇大的隊伍側(cè)重于數(shù)據(jù)分析和模型結(jié)構(gòu)的調(diào)整,重郵的隊伍側(cè)重于單模型的訓(xùn)練技巧,北郵的隊伍側(cè)重于特征工程和模型融合方案等。其實這些方案雖然在榜上的分數(shù)有細微的差異,但是本身并沒有高下之分。?
我認為,算法比賽中最重要的就是從數(shù)據(jù)出發(fā),找到自己對于問題或數(shù)據(jù)的獨到理解,通常也是算法效果的提升點,并在解決方案中得到體現(xiàn)。?
就本次的比賽來說,相較于搜狐比賽,最大的難點在于所有的字符 ID 化使得類似 BERT 等的預(yù)訓(xùn)練模型很難發(fā)揮作用,文本的 embed 表示需要根據(jù)提供的無標注數(shù)據(jù)進行重新構(gòu)建。
此外,數(shù)據(jù)分析的難度也會更大。在比賽初期可以從簡單的序列標注模型出發(fā),例如 BI_LSTM+CRF,逐步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),例如一些節(jié)點的超參數(shù)和網(wǎng)絡(luò)層(Attention,Transformer 等)的嘗試、embed 的構(gòu)建方式和模型的訓(xùn)練策略,最終達到較好的模型結(jié)果。其中 embed 的構(gòu)建方式,最簡單的方法就是 word2vec,也可以嘗試較為復(fù)雜的 ELMo,GPT 和 Bert 等(可根據(jù)實驗環(huán)境對模型做刪減)。?
論文參考:
?
- Bidirectional LSTM-CRF Models for Sequence Tagging?
[ https://arxiv.org/pdf/1508.01991.pdf ]?
- Deep contextualized word representations?
[ https://arxiv.org/pdf/1802.05365.pdf ]?
- Attention is all you need?
[ https://arxiv.org/pdf/1706.03762.pdf ]?
- Pre-training of Deep Bidirectional Transformers for Language Understanding?
[ https://arxiv.org/pdf/1810.04805.pdf ]?
看完以上攻略,大家是不是躍躍欲試了呢?達觀數(shù)據(jù)在過去的幾屆比賽中,已經(jīng)積攢了上萬名 NLP 領(lǐng)域的優(yōu)秀選手和長勝將軍,其中很多人已經(jīng)加入了達觀數(shù)據(jù)成為企業(yè)的重要力量,或是借助競賽的經(jīng)歷在科研生涯中獲得了高起點。快掃描下方的二維碼或點擊“原文鏈接”參加比賽吧!
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 報名參賽
總結(jié)
以上是生活随笔為你收集整理的第三届“达观杯”文本智能算法大赛参赛指南的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一文详解Google最新NLP模型XLN
- 下一篇: 清华大学人工智能研究院成立自然语言处理与