开源开放 | Beyond 预训练语言模型,NLP还需要什么样的知识?
近年來(lái),深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于NLP領(lǐng)域,但實(shí)際應(yīng)用效果往往受限于缺乏大規(guī)模高質(zhì)量監(jiān)督樣本。2018年底,預(yù)訓(xùn)練語(yǔ)言模型橫空出世,極大緩解了這個(gè)問(wèn)題,通過(guò)“超大規(guī)模無(wú)監(jiān)督語(yǔ)料上的預(yù)訓(xùn)練語(yǔ)言模型+相對(duì)少量的監(jiān)督樣本進(jìn)行任務(wù)精調(diào)(fine-tuning)”,可以大幅提升各類NLP任務(wù)的效果。
由于效果顯著和應(yīng)用機(jī)制簡(jiǎn)單,預(yù)訓(xùn)練語(yǔ)言模型以前所未有的速度在業(yè)界得到廣泛應(yīng)用,各大廠紛紛發(fā)布自己的預(yù)訓(xùn)練模型。現(xiàn)在,我們已毫不懷疑預(yù)訓(xùn)練語(yǔ)言模型的能力,并堅(jiān)信它的發(fā)展必將持續(xù)提升各類NLP任務(wù)的效果。但是,對(duì)其能力的上限仍有疑問(wèn):預(yù)訓(xùn)練語(yǔ)言模型能帶領(lǐng)我們徹底理解語(yǔ)言嗎?
預(yù)訓(xùn)練語(yǔ)言模型的不足
2020年,GPT-3[1] 發(fā)布,再一次引發(fā)大家對(duì)“通用人工智能”的熱情。在一開(kāi)始被GPT-3的效果驚艷之后,GPT-3的不足也暴露出來(lái):雖然GPT-3能自動(dòng)從海量的無(wú)監(jiān)督語(yǔ)料中學(xué)習(xí)到豐富的共現(xiàn)知識(shí),并成功應(yīng)用于下游任務(wù)上,但GPT-3并未真正理解語(yǔ)言,它只是成功地記住和擬合了語(yǔ)料。
如上圖GPT-3關(guān)于眼睛的問(wèn)答例子所示,如果一個(gè)事實(shí)沒(méi)有出現(xiàn)在語(yǔ)料中,預(yù)訓(xùn)練語(yǔ)言模型只能通過(guò)已經(jīng)記住的語(yǔ)料分布去泛化,這會(huì)導(dǎo)致出現(xiàn)不可控的答案。因?yàn)?#xff0c;大量的事實(shí)知識(shí)是不能泛化的,即使個(gè)體是相似的,它們各自的屬性值也不能隨意互換。舉個(gè)例子,如果一個(gè)模型的訓(xùn)練語(yǔ)料是童話故事,那么它從故事中學(xué)到的事實(shí)知識(shí)(如,太陽(yáng)是個(gè)老爺爺)是無(wú)法用于現(xiàn)實(shí)世界的。
這自然引出了一個(gè)問(wèn)題,模型沒(méi)有見(jiàn)過(guò)的事實(shí),通過(guò)知識(shí)去補(bǔ)足它,無(wú)法泛化的事實(shí),通過(guò)知識(shí)去約束它,是否可行呢?這就是知識(shí)圖譜在嘗試解決的問(wèn)題。
用知識(shí)彌補(bǔ)模型的不足
知識(shí)圖譜通過(guò)將客觀世界中實(shí)體、概念、及其事實(shí)性描述以結(jié)構(gòu)化的方式顯示表述出來(lái),提供了一種更好地組織、管理、理解和使用知識(shí)的能力,并在搜索推薦、智能問(wèn)答、大數(shù)據(jù)分析與決策等領(lǐng)域得到了成功應(yīng)用。
不同領(lǐng)域的知識(shí)圖譜有不同的知識(shí)表示范圍和問(wèn)題解決目標(biāo),例如:醫(yī)療圖譜主要描述疾病、癥狀、藥物、診斷相關(guān)知識(shí),可用于輔助問(wèn)診、輔助診斷、治療方案推薦等場(chǎng)景;商品知識(shí)圖譜主要描述商品屬性、特征、關(guān)聯(lián)關(guān)系等,可用于導(dǎo)購(gòu)、客服、營(yíng)銷等場(chǎng)景。
那么,除了這些具體的領(lǐng)域事實(shí)知識(shí)和領(lǐng)域應(yīng)用之外,還有哪些通用知識(shí)是模型欠缺的,能幫助模型像人一樣理解語(yǔ)言?
實(shí)際上,人對(duì)事實(shí)知識(shí)的記憶能力是遠(yuǎn)遜于模型的(模型可以輕易記住上億的精準(zhǔn)事實(shí)知識(shí),而人做不到),但人的語(yǔ)言理解能力卻遠(yuǎn)遠(yuǎn)超過(guò)任何模型。每個(gè)人的知識(shí)背景都不盡相同,但不同年齡、不同國(guó)家、不同專業(yè)的人,互相之間可以交流。一本架空小說(shuō),描述的事實(shí)和我們生活的真實(shí)世界完全不同,但讀者卻可以無(wú)障礙地理解。
我們自然會(huì)認(rèn)為,一定存在一個(gè)通用且相對(duì)穩(wěn)定的知識(shí)體系,能夠讓不同的人互相交流,能夠讓人讀懂從未見(jiàn)過(guò)的文章,能夠讓一個(gè)人給另一個(gè)人講解清楚新出現(xiàn)的名詞。但是,這樣的通用知識(shí)體系是什么樣的?如何表征和構(gòu)建?如何應(yīng)用到NLP模型和任務(wù)中?遺憾的是,在人工智能領(lǐng)域,雖然從幾十年前已開(kāi)始研究這些問(wèn)題,但目前仍無(wú)共識(shí)性的答案,依然是大家共同努力探索的方向。
百度發(fā)布“解語(yǔ)”開(kāi)源工具集,就是嘗試從中文詞匯理解和句子理解的角度,對(duì)這些問(wèn)題進(jìn)行初步探索:構(gòu)建一個(gè)通用且相對(duì)穩(wěn)定的中文詞匯知識(shí)體系,將文本與詞匯知識(shí)體系相關(guān)聯(lián),讓模型對(duì)中文句子的理解能力更接近于人。
直播提醒
7月21日19:00,本文作者將直播分享項(xiàng)目詳情!加入PaddleNLP技術(shù)交流群即可觀看。
解語(yǔ):
關(guān)聯(lián)中文文本與詞匯知識(shí)
為了能夠區(qū)分通用知識(shí)和領(lǐng)域知識(shí),我們選擇這樣的切入點(diǎn):當(dāng)一個(gè)人看到一個(gè)句子,如果事先不知道句子涉及的事實(shí)知識(shí),怎么理解這個(gè)句子?
顯然,人對(duì)句子的理解至少包括以下三層:
理解句子里都有哪些詞;
理解這些詞大概的意義,即便有不認(rèn)識(shí)的詞,也能大概猜出這個(gè)詞指的是一個(gè)人、一件事、還是一種疾病;
理解這些詞之間的關(guān)系,并與腦海里已有的知識(shí)關(guān)聯(lián)。
基于這樣的考慮,我們構(gòu)建了“解語(yǔ)”,主要包括兩部分:
百科知識(shí)樹(TermTree):是一個(gè)描述所有中文詞匯(包括概念、實(shí)體/專名、領(lǐng)域術(shù)語(yǔ)、語(yǔ)法詞等,統(tǒng)一稱之為Term)的樹狀知識(shí)庫(kù)。
中文詞類知識(shí)標(biāo)注工具(WordTag):是首個(gè)能夠覆蓋所有中文詞匯的詞類知識(shí)標(biāo)注工具,結(jié)合百科知識(shí)樹可實(shí)現(xiàn)定制化詞類序列標(biāo)注。
解語(yǔ)主頁(yè):
https://www.paddlepaddle.org.cn/textToKnowledge
百科知識(shí)樹(TermTree)
百科知識(shí)樹由兩部分構(gòu)成:
TermType詞類體系:覆蓋所有中文詞匯詞類的樹狀知識(shí)體系,是對(duì)中文詞匯集合的一種全劃分層次表示;
Term關(guān)系和屬性值:描述具體Term之間關(guān)系和Term屬性值網(wǎng)狀圖譜,用于整合各應(yīng)用知識(shí)圖譜;
本次開(kāi)源的百科知識(shí)樹V1.0試用版中,包含了簡(jiǎn)化版的TermType體系,以及約100萬(wàn)數(shù)量的term集合。
下載鏈接:
https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz
與其他常見(jiàn)應(yīng)用知識(shí)圖譜不同,百科知識(shí)樹的核心是概念詞,而非專名實(shí)體詞。因?yàn)樵谥形奈谋局?#xff0c;概念詞的含義是相對(duì)穩(wěn)定的,而專名實(shí)體詞隨應(yīng)用變化(例如,不同電商有不同的商品實(shí)體集,不同的小說(shuō)站有不同的小說(shuō)實(shí)體集),因此,百科知識(shí)樹通過(guò) “提供常用概念集 + 可插拔的應(yīng)用實(shí)體集/應(yīng)用知識(shí)圖譜” 來(lái)達(dá)到支持不同的應(yīng)用適配。
百科知識(shí)樹的主要特點(diǎn):
1. 采用樹狀結(jié)構(gòu)(Tree),而不是網(wǎng)狀結(jié)構(gòu)(Net/Graph)
樹結(jié)構(gòu)是對(duì)知識(shí)空間的全劃分,網(wǎng)狀結(jié)構(gòu)是對(duì)相關(guān)關(guān)系的描述和提煉。樹結(jié)構(gòu)能夠更加方便做到對(duì)詞類體系的全面描述,也可以方便地與網(wǎng)狀結(jié)構(gòu)結(jié)合使用;
樹結(jié)構(gòu)適合概念層次的泛化推理,網(wǎng)狀結(jié)構(gòu)適合相關(guān)性的泛化推理。樹結(jié)構(gòu)的知識(shí)對(duì)統(tǒng)計(jì)相關(guān)知識(shí)有很好的互補(bǔ)作用,在應(yīng)用中能夠更好地彌補(bǔ)統(tǒng)計(jì)模型的不足。
2. 覆蓋所有中文詞匯詞類,經(jīng)過(guò)大規(guī)模產(chǎn)業(yè)應(yīng)用實(shí)踐
百科知識(shí)樹的詞類體系是在大規(guī)模產(chǎn)業(yè)應(yīng)用實(shí)踐(如百科文本解析挖掘、query理解)中打磨出來(lái)的中文詞類體系,在理論上可能不是一個(gè)完備體系,但很適合通用領(lǐng)域中文解析挖掘任務(wù)。
中文詞類知識(shí)標(biāo)注工具
(WordTag)
WordTag是首個(gè)能夠覆蓋所有中文詞匯的詞類知識(shí)標(biāo)注工具,旨在為中文文本解析提供全面、豐富的知識(shí)標(biāo)注結(jié)果,可以應(yīng)用于模板(挖掘模板、解析模板)生成與匹配、知識(shí)挖掘(新詞發(fā)現(xiàn)、關(guān)系挖掘)等自然語(yǔ)言處理任務(wù)中,提升文本解析與挖掘精度;也可以作為中文文本特征生成器,為各類機(jī)器學(xué)習(xí)模型提供文本特征。
使用WordTag工具可以方便為中文句子標(biāo)注上詞類序列知識(shí)。如下圖所示,在PaddleNLP工具包中只需要三句代碼,就可以得到給定中文句子的詞類序列標(biāo)注結(jié)果:
Wordtag與中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等工具的區(qū)別如下圖所示:
由于中文是孤立語(yǔ),沒(méi)有詞的形態(tài)變化,句法結(jié)構(gòu)弱,主要依賴“詞+詞序”表達(dá)語(yǔ)義。通過(guò)WordTag詞類知識(shí)標(biāo)注產(chǎn)出完整的Term邊界以及上位詞類序列,能夠?yàn)槲谋咎峁└迂S富的詞匯知識(shí)特征,比一般分詞粒度穩(wěn)定,比詞性特征區(qū)分度高,比命名實(shí)體識(shí)別覆蓋面廣,無(wú)論是直接用于挖掘,還是作為知識(shí)特征加入到DNN模型中,都是更全面的知識(shí)補(bǔ)充。
WordTag的理想目標(biāo)是在詞類序列標(biāo)注這一維度上逼近人對(duì)句子的理解能力,也就是說(shuō),當(dāng)句子中出現(xiàn)未知詞匯時(shí),能夠通過(guò)句子中其他的詞及詞類知識(shí)劃分它的邊界并分辨出它大概率是什么詞類。當(dāng)前WordTag的效果距離這個(gè)目標(biāo)還有相當(dāng)大的距離,但通過(guò)不斷基于百科知識(shí)樹擴(kuò)充和優(yōu)化訓(xùn)練樣本,WordTag會(huì)持續(xù)優(yōu)化,逐步逼近這個(gè)目標(biāo)。
不同場(chǎng)景下的文本解析可能有各自的特殊需求,結(jié)合百科知識(shí)樹,WordTag可實(shí)現(xiàn)定制化詞類序列標(biāo)注。
解語(yǔ)的應(yīng)用場(chǎng)景示例
應(yīng)用場(chǎng)景1:
分詞、命名實(shí)體識(shí)別、專名挖掘
有別于其他的分詞工具,WordTag的切分目標(biāo)是盡可能將Term的完整邊界切分出來(lái),使之更加適用于下游的挖掘任務(wù),在實(shí)際應(yīng)用中,也可以結(jié)合其他基礎(chǔ)粒度的中文分詞結(jié)果共同使用。
同時(shí),WordTag的標(biāo)注詞類覆蓋了中文所有詞匯,其結(jié)果可以直接作為命名實(shí)體識(shí)別的候選結(jié)果使用,也可以結(jié)合百科知識(shí)樹進(jìn)行更細(xì)粒度的詞類篩選,或直接用于專名挖掘。
例如上文的例子:
WordTag結(jié)果:李偉\人物類_實(shí)體 拿出\場(chǎng)景事件 具有\(zhòng)肯定詞 科學(xué)性\信息資料 、\w 可操作性\信息資料 的\助詞 《\w 陜西省高校管理體制改革實(shí)施方案\作品類_實(shí)體 》\w
可直接作為分詞結(jié)果,也可通過(guò)作品類_實(shí)體標(biāo)簽、人物類_實(shí)體標(biāo)簽得到實(shí)體候選,還可以結(jié)合百科知識(shí)樹進(jìn)行其他詞類的挖掘和過(guò)濾。
應(yīng)用場(chǎng)景2:
文本挖掘模板/解析模板生成與匹配
在知識(shí)挖掘、query解析、語(yǔ)義一致性判定等應(yīng)用中,文本挖掘/解析模板是最常用的規(guī)則模型。WordTag包含了覆蓋中文所有詞匯的詞類標(biāo)注體系,在生成模板以及模板匹配上有著天然的優(yōu)勢(shì)。用戶可以根據(jù)WordTag標(biāo)注的樣本詞類序列,自動(dòng)生成或配置更加豐富、精準(zhǔn)的挖掘/解析模板,然后對(duì)目標(biāo)文本使用WordTag標(biāo)注,即可利用模板進(jìn)行匹配,從而大大降低人工配置模板的代價(jià),顯著提升生產(chǎn)效率。
例如,輸入文本:美人魚是周星馳執(zhí)導(dǎo)的電影,可將抽取出的詞類直接構(gòu)造成為挖掘匹配模板:
[作品類_實(shí)體][肯定詞|是][人物類_實(shí)體][場(chǎng)景事件|執(zhí)導(dǎo)][作品類_概念|電影]
利用該模板,以及結(jié)合百科知識(shí)樹進(jìn)行概念擴(kuò)展,可以匹配出所有該句式的文本,例如:
《狂人日記》是魯迅創(chuàng)作的第一個(gè)短篇白話日記體小說(shuō)
《千王之王2000》是一部王晶于1999年執(zhí)導(dǎo)的喜劇電影
《射雕英雄傳》是金庸創(chuàng)作的長(zhǎng)篇武俠小說(shuō)
WordTag的標(biāo)注結(jié)果中,區(qū)分了“人物類_實(shí)體”和“人物類_概念”,以及“作品類_實(shí)體”和“作品類_概念”,使得模板生成更為精準(zhǔn)。同時(shí),百科知識(shí)樹中也區(qū)分了命名實(shí)體詞(eb: entity base)與非實(shí)體詞(cb: concept base),這樣,可以利用百科知識(shí)樹分別進(jìn)行實(shí)體擴(kuò)展(e.g., 周星馳->王晶)和概念擴(kuò)展(e.g., 電影->小說(shuō)),生成更加豐富多樣的模板,支持更細(xì)化的應(yīng)用場(chǎng)景。
此外,模板也可用于文本分類和文本挖掘的樣本優(yōu)化:使用WordTag產(chǎn)出樣本模板,再利用百科知識(shí)樹進(jìn)行泛化約束,篩選出高置信度的樣本,或者過(guò)濾不合格的樣本。
應(yīng)用場(chǎng)景3:
詞類知識(shí)增強(qiáng)的DNN模型
很多研究在嘗試將知識(shí)引入模型,以獲得更好的應(yīng)用效果。例如,[2]提出在關(guān)系抽取模型中增加實(shí)體類型的信息,以達(dá)到更優(yōu)的知識(shí)抽取效果。
開(kāi)發(fā)者們可以利用WordTag生成詞類特征,與知識(shí)增強(qiáng)的挖掘模型結(jié)合,應(yīng)用于自己的中文挖掘任務(wù);研究者們也可以利用WordTag與百科知識(shí)樹提供的豐富的詞類特征,探索更好的知識(shí)增強(qiáng)的中文挖掘模型。
除下游任務(wù)外,也可以將詞類知識(shí)應(yīng)用于預(yù)訓(xùn)練中,例如使用詞類知識(shí)控制預(yù)訓(xùn)練語(yǔ)言模型的掩碼過(guò)程,讓預(yù)訓(xùn)練語(yǔ)言模型具備更強(qiáng)的通用知識(shí)。
總結(jié)與展望
讓NLP模型對(duì)語(yǔ)言的理解能力逼近人類,是所有NLPer的努力目標(biāo)。一方面,我們希望模型能自動(dòng)學(xué)得語(yǔ)料中隱含的知識(shí),另一方面,我們也希望將人類積累的通用知識(shí)通過(guò)更高效的方式融入到模型中,彌補(bǔ)語(yǔ)料的分布缺陷。
“解語(yǔ)”是從中文詞匯理解和句子理解的角度嘗試構(gòu)建詞匯層次上的通用知識(shí),并將其應(yīng)用到中文文本知識(shí)標(biāo)注中。目前的知識(shí)體系及標(biāo)注效果還在持續(xù)優(yōu)化中,此次作為開(kāi)源數(shù)據(jù)和工具發(fā)布,也希望能和大家共同探索通用知識(shí)的表征與應(yīng)用方案,打造更具有知識(shí)理解能力的NLP模型。
直播提醒
看完文章是不是有很多疑問(wèn)想與作者交流?
請(qǐng)鎖定飛槳B站直播間!
7月21日19:00
本文作者將直播分享項(xiàng)目詳情!
掃描下方二維碼進(jìn)入PaddleNLP技術(shù)交流群,技術(shù)專家在線答疑解惑,直播鏈接也將同步到交流群中。
解語(yǔ)試用地址:
https://www.paddlepaddle.org.cn/textToKnowledge
解語(yǔ)項(xiàng)目地址:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_to_knowledge
訪問(wèn)PaddleNLP了解更多應(yīng)用,Star 收藏跟進(jìn)最新功能吧:
https://github.com/PaddlePaddle/PaddleNLP
參考資料
[1] Brown T B, Mann B, Ryder N, et al. Language models are few-shot learners[J]. arXiv preprint arXiv:2005.14165, 2020.
[2] Zhong Z, Chen D. A Frustratingly Easy Approach for Entity and Relation Extraction[J]. arXiv preprint arXiv:2010.12812, 2020.
END
?
OpenKG
OpenKG(中文開(kāi)放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開(kāi)放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開(kāi)源開(kāi)放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的开源开放 | Beyond 预训练语言模型,NLP还需要什么样的知识?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 应用实践 | 电商应用——一种基于强化学
- 下一篇: 程序员真的只能干到35岁?——我的35岁