WSDM Cup 2019自然语言推理任务获奖解题思路
WSDM(Web Search and Data Mining,讀音為Wisdom)是業(yè)界公認(rèn)的高質(zhì)量學(xué)術(shù)會(huì)議,注重前沿技術(shù)在工業(yè)界的落地應(yīng)用,與SIGIR一起被稱為信息檢索領(lǐng)域的Top2。
剛剛在墨爾本結(jié)束的第12屆WSDM大會(huì)傳來(lái)一個(gè)好消息,由美團(tuán)搜索與NLP部NLP中心的劉帥朋、劉碩和任磊三位同學(xué)組成的Travel團(tuán)隊(duì),在WSDM Cup 2019大賽 “真假新聞?wù)鐒e任務(wù)” 中獲得了第二名的好成績(jī)。隊(duì)長(zhǎng)劉帥朋受邀于2月15日代表團(tuán)隊(duì)在會(huì)上作口頭技術(shù)報(bào)告,向全球同行展示了來(lái)自美團(tuán)點(diǎn)評(píng)的解決方案。本文將詳細(xì)介紹他們本次獲獎(jiǎng)的解決方案。
1. 背景
信息技術(shù)的飛速發(fā)展,催生了數(shù)據(jù)量的爆炸式增長(zhǎng)。技術(shù)的進(jìn)步也使得了人們獲取信息的方式變得更加便捷,然而任何技術(shù)都是一把“雙刃劍”,信息技術(shù)在為人們的學(xué)習(xí)、工作和生活提供便利的同時(shí),也對(duì)人類社會(huì)健康持續(xù)的發(fā)展帶來(lái)了一些新的威脅。目前亟需解決的一個(gè)問(wèn)題,就是如何有效識(shí)別網(wǎng)絡(luò)中大量存在的“虛假新聞”。虛假新聞傳播了很多不準(zhǔn)確甚至虛構(gòu)的信息,對(duì)整個(gè)線上資訊的生態(tài)造成了很大的破壞,而且虛假新聞會(huì)對(duì)讀者造成誤導(dǎo),干擾正常的社會(huì)輿論,嚴(yán)重的危害了整個(gè)社會(huì)的安定與和諧。因此,本屆WSDM Cup的一個(gè)重要議題就是研究如何實(shí)現(xiàn)對(duì)虛假新聞的準(zhǔn)確甄別,該議題也吸引了全球眾多數(shù)據(jù)科學(xué)家的參與。
雖然美團(tuán)點(diǎn)評(píng)的主營(yíng)業(yè)務(wù)與在線資訊存在一些差異,但本任務(wù)涉及的算法原理是通用的,而且在美團(tuán)業(yè)務(wù)場(chǎng)景中也可以有很多可以落地,例如虛假評(píng)論識(shí)別、智能客服中使用的問(wèn)答技術(shù)、NLP平臺(tái)中使用的文本相似度計(jì)算技術(shù)、廣告匹配等。于是,Travel團(tuán)隊(duì)通過(guò)對(duì)任務(wù)進(jìn)行分析,將該問(wèn)題轉(zhuǎn)化為NLP領(lǐng)域的“自然語(yǔ)言推理” (NLI)任務(wù),即判斷給定的兩段文本間的邏輯蘊(yùn)含關(guān)系。因此,基于對(duì)任務(wù)較為深入理解和平時(shí)的技術(shù)積累,他們提出了一種解決方案——一種基于多層次深度模型融合框架的虛假新聞?wù)鐒e技術(shù),該技術(shù)以最近NLP領(lǐng)域炙手可熱的BERT為基礎(chǔ)模型,并在此基礎(chǔ)上提出了一種多層次的模型集成技術(shù)。
2. 數(shù)據(jù)分析
為了客觀地衡量算法模型的效果,本屆大會(huì)組織方提供了一個(gè)大型新聞數(shù)據(jù)集,該數(shù)據(jù)集包含32萬(wàn)多個(gè)訓(xùn)練樣本和8萬(wàn)多個(gè)測(cè)試樣本,這些數(shù)據(jù)樣本均取材于互聯(lián)網(wǎng)上真實(shí)的數(shù)據(jù)。每個(gè)樣本包含有兩個(gè)新聞標(biāo)題組成的標(biāo)題對(duì),其中標(biāo)題對(duì)類別標(biāo)簽包括Agreed、Disagreed、Unrelated等3種。他們的任務(wù)就是對(duì)測(cè)試樣本的標(biāo)簽類別進(jìn)行預(yù)測(cè)。
“磨刀不誤砍柴功”,在一開(kāi)始,Travel團(tuán)隊(duì)并沒(méi)有急于搭建模型,而是先對(duì)數(shù)據(jù)進(jìn)行了全面的統(tǒng)計(jì)分析。他們認(rèn)為,如果能夠通過(guò)分析發(fā)現(xiàn)數(shù)據(jù)的一些特性,就會(huì)有助于后續(xù)采取針對(duì)性的策略。
首先,他們統(tǒng)計(jì)了訓(xùn)練數(shù)據(jù)中的類別分布情況,如圖1所示,Unrelated類別占比最大,接近70%;而Disagreed類占比最小,不到3%。訓(xùn)練數(shù)據(jù)存在嚴(yán)重的類別不均衡問(wèn)題,如果直接用這樣的訓(xùn)練數(shù)據(jù)訓(xùn)練模型,這會(huì)導(dǎo)致模型對(duì)占比較大類的學(xué)習(xí)比較充分,而對(duì)占比較小的類別學(xué)習(xí)不充分,從而使模型向類別大的類別進(jìn)行偏移,存在較嚴(yán)重的過(guò)擬合問(wèn)題。后面也會(huì)介紹他們針對(duì)該問(wèn)題提出的對(duì)應(yīng)解決方案。
然后,Travel團(tuán)隊(duì)對(duì)訓(xùn)練數(shù)據(jù)的文本長(zhǎng)度分布情況進(jìn)行了統(tǒng)計(jì),如圖2所示,不同類別的文本長(zhǎng)度分布基本保持一致,同時(shí)絕大多數(shù)文本長(zhǎng)度分布在20~100內(nèi)。這些統(tǒng)計(jì)信息對(duì)于后面模型調(diào)參有著很大的幫助。
3. 數(shù)據(jù)的預(yù)處理與數(shù)據(jù)增強(qiáng)
本著“數(shù)據(jù)決定模型的上限,模型優(yōu)化只是不斷地逼近這個(gè)上限”的想法,接下來(lái),Travel團(tuán)隊(duì)對(duì)數(shù)據(jù)進(jìn)行了一系列的處理。
在數(shù)據(jù)分析時(shí),他們發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)存在一定的噪聲,如果不進(jìn)行人工干預(yù),將會(huì)影響模型的學(xué)習(xí)效果。比如新聞文本語(yǔ)料中簡(jiǎn)體與繁體共存,這會(huì)加大模型的學(xué)習(xí)難度。因此,他們對(duì)數(shù)據(jù)進(jìn)行繁體轉(zhuǎn)簡(jiǎn)體的處理。同時(shí),過(guò)濾掉了對(duì)分類沒(méi)有任何作用的停用詞,從而降低了噪聲。
此外,上文提到訓(xùn)練數(shù)據(jù)中,存在嚴(yán)重的樣本不均衡問(wèn)題,如果不對(duì)該問(wèn)題做針對(duì)性的處理,則會(huì)嚴(yán)重制約模型效果指標(biāo)的提升。通過(guò)對(duì)數(shù)據(jù)進(jìn)行了大量的分析后,他們提出了一個(gè)簡(jiǎn)單有效的緩解樣本不均衡問(wèn)題的方法,基于標(biāo)簽傳播的數(shù)據(jù)增強(qiáng)方法。具體方法如圖3所示:
如果標(biāo)題A與標(biāo)題B一致,而標(biāo)題A與標(biāo)題C一致,那么可以得出結(jié)論,標(biāo)題B與標(biāo)題C一致。同理,如果標(biāo)題A與標(biāo)題B一致,而標(biāo)題A與標(biāo)題D不一致,那么可以得出結(jié)論,標(biāo)題B與標(biāo)題D也不一致。此外,Travel團(tuán)隊(duì)還通過(guò)將新聞對(duì)中的兩條文本相互交換位置,來(lái)擴(kuò)充訓(xùn)練數(shù)據(jù)集。
4. 基礎(chǔ)模型
BERT是Google最新推出的基于雙向Transformer的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,在11項(xiàng)NLP任務(wù)中奪得SOTA結(jié)果,引爆了整個(gè)NLP界。BERT取得成功的一個(gè)關(guān)鍵因素是Transformer的強(qiáng)大特征提取能力。Transformer可以利用Self-Attention機(jī)制實(shí)現(xiàn)快速并行訓(xùn)練,改進(jìn)了RNN最被人所詬病的“訓(xùn)練慢”的缺點(diǎn),可以高效地對(duì)海量數(shù)據(jù)進(jìn)行快速建模。同時(shí),BERT擁有多層注意力結(jié)構(gòu)(12層或24層),并且在每個(gè)層中都包含有多個(gè)“頭”(12頭或16頭)。由于模型的權(quán)重不在層與層之間共享,一個(gè)BERT模型相當(dāng)于擁有12×12=224或24×16=384種不同的注意力機(jī)制,不同層能夠提取不同層次的文本或語(yǔ)義特征,這可以讓BERT具有超強(qiáng)的文本表征能力。
本賽題作為典型的自然語(yǔ)言推理(NLI)任務(wù),需要提取新聞標(biāo)題的高級(jí)語(yǔ)義特征,BERT的超強(qiáng)文本表征能力正好本賽題所需要的。基于上述考慮,Travel團(tuán)隊(duì)的基礎(chǔ)模型就采用了BERT模型,其中BERT網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示:
在比賽中,Travel團(tuán)隊(duì)在增強(qiáng)后的訓(xùn)練數(shù)據(jù)上對(duì)Google預(yù)訓(xùn)練BERT模型進(jìn)行了微調(diào)(Finetune),使用了如圖5所示的方式。為了讓后面模型融合增加模型的多樣性,他們同時(shí)Finetune了中文版本和英文版本。
5. 多層次深度模型融合框架
模型融合,是指對(duì)已有的多個(gè)基模型按照一定的策略進(jìn)行集成以提升模型效果的一種技術(shù),常見(jiàn)的技術(shù)包括Voting、Averaging、Blending、Stacking等等。這些模型融合技術(shù)在前人的許多工作中得到了應(yīng)用并且取得了不錯(cuò)的效果,然而任何一種技術(shù)只有在適用場(chǎng)景下才能發(fā)揮出最好的效果,例如Voting、Averaging技術(shù)的融合策略較為簡(jiǎn)單,一般來(lái)說(shuō)效果提升不是非常大,但優(yōu)點(diǎn)是計(jì)算邏輯簡(jiǎn)單、計(jì)算復(fù)雜度低、算法效率高;而Stacking技術(shù)融合策略較復(fù)雜,一般來(lái)說(shuō)效果提升比較明顯,但缺點(diǎn)是算法計(jì)算復(fù)雜度高,對(duì)計(jì)算資源的要求較苛刻。
本任務(wù)使用的基模型為BERT,該模型雖然擁有非常強(qiáng)大的表征建模能力,但同時(shí)BERT的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,包含的參數(shù)眾多,計(jì)算復(fù)雜度很高,即使使用了專用的GPU計(jì)算資源,其訓(xùn)練速度也是比較慢的,因此這就要求在對(duì)BERT模型融合時(shí)不能直接使用Stacking這種高計(jì)算復(fù)雜度的技術(shù),因此我們選擇了Blending這種計(jì)算復(fù)雜度相對(duì)較低、融合效果相對(duì)較好的融合技術(shù)對(duì)基模型BERT做融合。
同時(shí),Travel團(tuán)隊(duì)借鑒了神經(jīng)網(wǎng)絡(luò)中網(wǎng)絡(luò)分層的設(shè)計(jì)思想來(lái)設(shè)計(jì)模型融合框架,他們想既然神經(jīng)網(wǎng)絡(luò)可以通過(guò)增加網(wǎng)絡(luò)深度來(lái)提升模型的效果,那么在模型融合中是否也可以通過(guò)增加模型融合的層數(shù)來(lái)提升模型融合的效果呢?基于這一設(shè)想,他們提出了一種多層次深度模型融合框架,該框架通過(guò)增加模型的層數(shù)進(jìn)而提升了融合的深度,最終取得了更好的融合效果。
具體來(lái)說(shuō),他們的框架包括三個(gè)層次,共進(jìn)行了兩次模型融合。第一層采用Blending策略進(jìn)行模型訓(xùn)練和預(yù)測(cè),在具體實(shí)踐中,他們選定了25個(gè)不同的BERT模型作為基模型;第二層采用5折的Stacking策略對(duì)25個(gè)基模型進(jìn)行第一次融合,這里他們選用了支持向量機(jī)(SVM)、邏輯回歸(LR)、K近鄰(KNN)、樸素貝葉斯(NB),這些傳統(tǒng)的機(jī)器學(xué)習(xí)模型,既保留了訓(xùn)練速度快的優(yōu)點(diǎn),也保證了模型間的差異性,為后續(xù)融合提供了效率和效果的保證;第三層采用了一個(gè)線性的LR模型,進(jìn)行第二次模型融合并且生成了最終的結(jié)果。模型融合的架構(gòu)如圖6所示:
整體方案模型訓(xùn)練分為三個(gè)階段,如圖7所示:
- 第一個(gè)階段,將訓(xùn)練數(shù)據(jù)劃分為兩部分,分別為Train Data和Val Data。Train Data用于訓(xùn)練BERT模型,用訓(xùn)練好的BERT模型分別預(yù)測(cè)Val Data和Test Data。將不同BERT模型預(yù)測(cè)的Val Data和Test Data的結(jié)果分別進(jìn)行合并,可以得到一份新的訓(xùn)練數(shù)據(jù)New Train Data和一份新的測(cè)試數(shù)據(jù)New Test Data。
- 第二階段,將上一階段的New Train Data作為訓(xùn)練數(shù)據(jù),New Test Data作為測(cè)試數(shù)據(jù)。本階段將New Train Data均勻的劃分為5份,使用“留一法”訓(xùn)練5個(gè)SVM模型,用這5個(gè)模型分別去預(yù)測(cè)剩下的一份訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),將5份預(yù)測(cè)的訓(xùn)練數(shù)據(jù)合并,可以得到一份新的訓(xùn)練數(shù)據(jù)NewTrainingData2,將5份預(yù)測(cè)的測(cè)試數(shù)據(jù)采用均值法合并,得到一份新的測(cè)試數(shù)據(jù)NewTestData2。同樣的方法再分別訓(xùn)練LR、KNN、NB等模型。
- 第三階段,將上一階段的NewTrainingData2作為訓(xùn)練數(shù)據(jù),NewTestData2作為測(cè)試數(shù)據(jù),重新訓(xùn)練一個(gè)LR模型,預(yù)測(cè)NewTestData2的結(jié)果作為最終的預(yù)測(cè)結(jié)果。為了防止過(guò)擬合,本階段采用5折交叉驗(yàn)證的訓(xùn)練方式。
6. 實(shí)驗(yàn)
6.1 評(píng)價(jià)指標(biāo)
為了緩解數(shù)據(jù)集中存在的類別分布不均衡問(wèn)題,本任務(wù)使用帶權(quán)重的準(zhǔn)確率作為衡量模型效果的評(píng)價(jià)指標(biāo),其定義如下所示:
$$ weightedAccuracy(y,\hat{y},ω) = \frac{1}{n}\sum_{i=1}^n\frac{ω_i(y_i = \hat{y})}{\sumω_i} $$
其中,y為樣本的真實(shí)類別標(biāo)簽,$\hat{y}$為模型的預(yù)測(cè)結(jié)果,$ω_i$為數(shù)據(jù)集中第i個(gè)樣本的權(quán)重,其權(quán)重值與類別相關(guān),其中Agreed類別的權(quán)重為1/15,Disagreed類別的權(quán)重為1/5,Unrelated類別的權(quán)重為1/16。
6.2 實(shí)驗(yàn)結(jié)果
在官方測(cè)試集上,Travel團(tuán)隊(duì)的最優(yōu)單模型的準(zhǔn)確率達(dá)到0.86750,25個(gè)BERT模型簡(jiǎn)單平均融合后準(zhǔn)確率達(dá)0.87700(+0.95PP),25個(gè)BERT模型結(jié)果以加權(quán)平均的形式融合后準(zhǔn)確率達(dá)0.87702(+0.952PP),他們提出的多層次模型融合技術(shù)準(zhǔn)確率達(dá)0.88156(+1.406PP)。實(shí)踐證明,美團(tuán)NLP中心的經(jīng)驗(yàn)融合模型在假新聞分類任務(wù)上取得了較大的效果提升。
7. 總結(jié)與展望
本文主要對(duì)解決方案中使用的關(guān)鍵技術(shù)進(jìn)行了介紹,比如數(shù)據(jù)增強(qiáng)、數(shù)據(jù)預(yù)處理、多層模型融合策略等,這些方法在實(shí)踐中證明可以有效的提升預(yù)測(cè)的準(zhǔn)確率。由于參賽時(shí)間所限,還有很多思路沒(méi)有來(lái)及嘗試,例如美團(tuán)使用的BERT預(yù)訓(xùn)練模型是基于維基百科數(shù)據(jù)訓(xùn)練而得到的,而維基百科跟新聞在語(yǔ)言層面也存在較大的差異,所以可以將現(xiàn)有的BERT在新聞數(shù)據(jù)上進(jìn)行持續(xù)地訓(xùn)練,從而使其能夠?qū)π侣剶?shù)據(jù)具有更好的表征能。
參考文獻(xiàn)
- [1] Dagan, Ido, Oren Glickman, and Bernardo Magnini. 2006. The PASCAL recognising textual entailment challenge, Machine learning challenges. evaluating predictive uncertainty, visual object classification, and recognising tectual entailment. Springer, Berlin, Heidelberg, 177-190.
- [2] Bowman S R, Angeli G, Potts C, et al. 2015. A large annotated corpus for learning natural language inference. In proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).
- [3] Adina Williams, Nikita Nangia, and Samuel R Bowman. 2018. A broad-coverage challenge corpus for sentence understanding through inference. In NAACL.
- [4] Rajpurkar P, Zhang J, Lopyrev K, et al. 2016. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250.
- [5] Luisa Bentivogli, Bernardo Magnini, Ido Dagan, Hoa Trang Dang, and Danilo Giampiccolo. 2009. The fifth PASCAL recognizing textual entailment challenge. In TAC. NIST.
- [6] Hector J Levesque, Ernest Davis, and Leora Morgenstern. 2011. The winograd schema challenge. In Aaai spring symposium: Logical formalizations of commonsense reasoning, volume 46, page 47.
- [7] Bowman, Samuel R., et al. 2015. “A large annotated corpus for learning natural language inference.” arXiv preprint arXiv:1508.05326.
- [8] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. 2018. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv preprint arXiv:1804.07461.
- [9] Chen, Q., Zhu, X., Ling, Z., Wei, S., Jiang, H., & Inkpen, D. 2016. Enhanced lstm for natural language inference. arXiv preprint arXiv:1609.06038.
- [10] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language understanding with unsupervised learning. Technical report, OpenAI.
- [11] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
- [12] David H. Wolpert. 1992. Stacked generalization. Neural Networks (1992). https: //doi.org/10.1016/S0893- 6080(05)80023- 1.
作者簡(jiǎn)介
- 劉帥朋,碩士,美團(tuán)點(diǎn)評(píng)搜索與NLP部NLP中心高級(jí)算法工程師,目前主要從事NLU相關(guān)工作。曾任中科院自動(dòng)化研究所研究助理,主持研發(fā)的智能法律助理課題獲CCTV-1頻道大型人工智能節(jié)目《機(jī)智過(guò)人第二季》報(bào)道。
- 劉碩,碩士,美團(tuán)點(diǎn)評(píng)搜索與NLP部NLP中心智能客服算法工程師,目前主要從事智能客服對(duì)話平臺(tái)中離線挖掘相關(guān)工作。
- 任磊,碩士,美團(tuán)點(diǎn)評(píng)搜索與NLP部NLP中心知識(shí)圖譜算法工程師,目前主要從事美團(tuán)大腦情感計(jì)算以及BERT應(yīng)用相關(guān)工作。
- 會(huì)星,博士,擔(dān)任美團(tuán)點(diǎn)評(píng)搜索與NLP部NLP中心的研究員,智能客服團(tuán)隊(duì)負(fù)責(zé)人。目前主要負(fù)責(zé)美團(tuán)智能客服業(yè)務(wù)及智能客服平臺(tái)的建設(shè)。在此之前,會(huì)星在阿里達(dá)摩院語(yǔ)音實(shí)驗(yàn)室作為智能語(yǔ)音對(duì)話交互專家,主要負(fù)責(zé)主導(dǎo)的產(chǎn)品有斑馬智行語(yǔ)音交互系統(tǒng),YunOS語(yǔ)音助理等,推動(dòng)了阿里智能對(duì)話交互體系建設(shè)。
- 富崢,博士,擔(dān)任美團(tuán)點(diǎn)評(píng)搜索與NLP部NLP中心的研究員,帶領(lǐng)知識(shí)圖譜算法團(tuán)隊(duì)。目前主要負(fù)責(zé)美團(tuán)大腦項(xiàng)目,圍繞美團(tuán)吃喝玩樂(lè)場(chǎng)景打造的知識(shí)圖譜及其應(yīng)用,能夠打通餐飲、旅行、休閑娛樂(lè)等各個(gè)場(chǎng)景數(shù)據(jù),為美團(tuán)各場(chǎng)景業(yè)務(wù)提供更加智能的服務(wù)。張富崢博士在知識(shí)圖譜、個(gè)性化推薦、用戶畫(huà)像、時(shí)空數(shù)據(jù)挖掘等領(lǐng)域展開(kāi)了眾多的創(chuàng)新性研究,并在相關(guān)領(lǐng)域的頂級(jí)會(huì)議和期刊上發(fā)表30余篇論文,如KDD、WWW、AAAI、IJCAI、TKDE、TIST等,曾獲ICDM2013最佳論文大獎(jiǎng),出版學(xué)術(shù)專著1部。
- 仲遠(yuǎn),博士,美團(tuán)點(diǎn)評(píng)搜索與NLP部負(fù)責(zé)人。在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議發(fā)表論文30余篇,獲得ICDE 2015最佳論文獎(jiǎng),并是ACL 2016 Tutorial “Understanding Short Texts”主講人,出版學(xué)術(shù)專著3部,獲得美國(guó)專利5項(xiàng)。此前,博士曾擔(dān)任微軟亞洲研究院主管研究員,以及美國(guó)Facebook公司Research Scientist。曾負(fù)責(zé)微軟研究院知識(shí)圖譜、對(duì)話機(jī)器人項(xiàng)目和Facebook產(chǎn)品級(jí)NLP Service。
總結(jié)
以上是生活随笔為你收集整理的WSDM Cup 2019自然语言推理任务获奖解题思路的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 使用Spring StateMachin
- 下一篇: Litho在美团动态化方案MTFlexb