天天说常识推理,究竟常识是什么?
文 | 花小花Posy
寫這篇文章的時(shí)候,我去搜了搜常識(shí)的例子。
“睜開(kāi)眼睛打噴嚏是不可能的。(還真沒(méi)留意。)““北極熊是左撇子。“”長(zhǎng)頸鹿沒(méi)辦法咳嗽。”
呃?好吧,我需要補(bǔ)一補(bǔ)自己的常識(shí)。那么這些所謂的“常識(shí)”真的是常識(shí)嗎?
關(guān)于常識(shí)的研究近年來(lái)是比較火熱的話題,在NLP領(lǐng)域,研究的方向主要有兩條線,一是各種benchmark數(shù)據(jù)集的構(gòu)建,各種刷榜以測(cè)試我們的模型是否具備某些類型的常識(shí);二是常識(shí)知識(shí)圖譜的構(gòu)建,關(guān)注點(diǎn)主要在于如何挖掘常識(shí)知識(shí)、構(gòu)建結(jié)構(gòu)化常識(shí)知識(shí)。兩條線的交叉點(diǎn)在于如何利用常識(shí)知識(shí)輔助各類下游任務(wù)。
說(shuō)到常識(shí)知識(shí)圖譜,大家可能首先想到的是流行的ConceptNet。
和常見(jiàn)的知識(shí)圖譜一樣,常識(shí)知識(shí)圖譜用關(guān)系三元組(h,r,t)來(lái)表示一條常識(shí)知識(shí),h和t可以是自然語(yǔ)言組成的單詞、短語(yǔ)或者句子,r表示h和t之間的關(guān)系。比如在ConceptNet中,關(guān)系Causes of的一個(gè)三元組是(起床,Causes of,媽媽叫)。
那么除了ConceptNet呢?近年來(lái),得益于眾包機(jī)制,研究人員們開(kāi)始構(gòu)建各種知識(shí)圖譜(KG)。有正式命名為常識(shí)KG的,比如ATOMIC、WebChild;也有包含常識(shí)知識(shí)但非正式命名為常識(shí)KG的知識(shí)源,比如WordNet、VerbNet。
所以常識(shí)知識(shí)領(lǐng)域的研究看起來(lái)像是遍地開(kāi)花,但每個(gè)知識(shí)源的格式、創(chuàng)建的方法、知識(shí)類型的覆蓋率都各不相同。對(duì)于現(xiàn)存的常識(shí)KGs到底包含了哪些類型的常識(shí)知識(shí),每個(gè)KG對(duì)每種類型的覆蓋程度是怎樣的,以及哪些類型對(duì)于下游常識(shí)推理任務(wù)是有用的,缺乏一個(gè)統(tǒng)一的定論。今天給大家介紹的這篇文章,正好填補(bǔ)了這一空缺。
論文題目:
Dimensions of Commonsense Knowledge
論文鏈接:
https://arxiv.org/pdf/2101.04640.pdf
Arxiv訪問(wèn)慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞【0310】下載論文PDF~
本文核心想要探究?jī)蓚€(gè)問(wèn)題:
1. 如何研究現(xiàn)有常識(shí)KGs中包含了哪些維度的常識(shí)知識(shí)?
2. 對(duì)于常識(shí)推理任務(wù),常識(shí)知識(shí)圖譜有多重要?
為什么研究這兩個(gè)問(wèn)題是重要的呢?因?yàn)橹庇X(jué)上講,常識(shí)知識(shí)包含了很多世界知識(shí),將其注入下游常識(shí)推理任務(wù)可以帶來(lái)額外的推理知識(shí),從而提升模型的性能。但是實(shí)際情況卻是:注入常識(shí)知識(shí)所帶來(lái)的影響十分有限,它給下游任務(wù)帶來(lái)的提升往往比預(yù)訓(xùn)練語(yǔ)言模型要小很多。因此,統(tǒng)一化現(xiàn)有的常識(shí)KGs,并探究其重要性對(duì)常識(shí)KGs、下游推理任務(wù)的未來(lái)工作都是有啟發(fā)意義的。
常識(shí)知識(shí)的維度有哪些?
在探究常識(shí)知識(shí)圖譜的重要性之前,作者首先對(duì)現(xiàn)有的20個(gè)包含常識(shí)的知識(shí)源進(jìn)行了調(diào)研,對(duì)它們進(jìn)行概括分類,并從中挑選了7個(gè)進(jìn)行研究。研究的前提是常識(shí)知識(shí)在關(guān)系維度上的統(tǒng)一。文中對(duì)現(xiàn)有常識(shí)KGs中包含的常識(shí)知識(shí)的關(guān)系類型進(jìn)行整理、重新聚類后定義了13個(gè)常識(shí)維度(如下表)。
每個(gè)維度包含若干個(gè)具體的關(guān)系。比如維度distinctness包含ConcpetNet中的{Antonym,DistinctFrom}兩個(gè)具體關(guān)系。(ps:每個(gè)知識(shí)源的關(guān)系標(biāo)簽不一樣,所以每個(gè)維度包含的具體關(guān)系的名字也不相同,詳情參加論文中的Table2)。統(tǒng)一了維度后,就可以從維度的視角統(tǒng)一研究各個(gè)常識(shí)KGs中存在的常識(shí)知識(shí),也可以融合各個(gè)KGs的知識(shí)進(jìn)行知識(shí)的增強(qiáng)。
本文既可以看成是對(duì)常識(shí)知識(shí)的維度的正式劃分,也可以看成是對(duì)常識(shí)知識(shí)融合[1]是有意義的一個(gè)證明。
在統(tǒng)一所有常識(shí)KGs的維度的基礎(chǔ)上,本文首先對(duì)各個(gè)常識(shí)KGs中包含常識(shí)維度進(jìn)行了統(tǒng)計(jì)分析,對(duì)比了它們的維度知識(shí)的數(shù)量、覆蓋度、冗余度;然后探究哪些維度的常識(shí)有助于提升對(duì)下游常識(shí)推理任務(wù)的性能,具體的提升有多大?哪些常識(shí)維度已經(jīng)存在于預(yù)訓(xùn)練語(yǔ)言模型,哪些仍舊缺失?下面我們一起來(lái)看看這些問(wèn)題的答案吧。
各知識(shí)源包含的常識(shí)維度差距大嗎?
整體來(lái)講,部分知識(shí)源包含的維度較多,但每個(gè)維度的數(shù)量分布差距大;而另一些則是包含幾種較少的維度,但每個(gè)維度的數(shù)量都很多。維度-知識(shí)源分布數(shù)據(jù)如下:可以看出,13個(gè)關(guān)系維度在知識(shí)源中的分布是不平衡的。
被較好捕捉的關(guān)系維度更多涉及詞匯關(guān)系和分類關(guān)系,比如lexical, similarity, distinctictness, taxonomic。
而部分維度則非常罕見(jiàn),比如comparative維度只出現(xiàn)在WebChild,creation維度只出現(xiàn)在了兩個(gè)知識(shí)源中,并且只有500條三元組。
在此基礎(chǔ)上,我們可能會(huì)接著問(wèn),在多個(gè)知識(shí)源中找到的同一維度的知識(shí)有重復(fù)的嗎?作者也好奇,于是在文中對(duì)各個(gè)知識(shí)圖譜包含的相同知識(shí)的比例進(jìn)行了統(tǒng)計(jì)分析。
各知識(shí)源包含的相同常識(shí)多嗎?
當(dāng)兩個(gè)知識(shí)源A和B包含一條相同三元組時(shí),它們就包含一條相同的常識(shí)。對(duì)于每個(gè)維度,計(jì)算任意兩個(gè)知識(shí)源之間的冗余度。衡量標(biāo)準(zhǔn)是Jaccard score,即共享的三元組數(shù)量占兩個(gè)知識(shí)源的三元組的總和的比例:。
文中的統(tǒng)計(jì)數(shù)據(jù)表明,各個(gè)數(shù)據(jù)源之間的整體知識(shí)冗余度是比較低的。 常見(jiàn)的維度有稍微高一些的冗余度,比如taxonomic,similarity維度的冗余度在0.02到15.19中間波動(dòng);而其余維度,如quality,utility,temporal等的冗余度接近0。各個(gè)知識(shí)源之間的低冗余度也證明了論文中將所有常識(shí)KGs融合在一起是有意義的。
鑒于預(yù)訓(xùn)練語(yǔ)言模型(PLM)已成為各個(gè)領(lǐng)域的baseline,常識(shí)領(lǐng)域亦不例外。在后面的實(shí)驗(yàn)中,作者主要想探究PLM中包含的常識(shí)知識(shí)和常識(shí)KGs中包含的常識(shí)知識(shí)的關(guān)系是怎樣的。
語(yǔ)言模型能對(duì)常識(shí)KGs聚類嗎?
最近很多工作都證明PLM是可以捕捉到到一定程度的常識(shí)知識(shí)的。那么PLM對(duì)于常識(shí)關(guān)系的無(wú)監(jiān)督聚類和本文中的基于13個(gè)維度的聚類結(jié)果會(huì)相同嗎?
文中將使用關(guān)系模板將每一個(gè)三元組轉(zhuǎn)換為句子,并傳遞給RoBERTa-large以獲取其向量表示。得到所有邊的向量表示后,用k-Means將其聚為13類,然后與文中的13個(gè)維度的聚類進(jìn)行對(duì)比。作者發(fā)現(xiàn)基于無(wú)監(jiān)督的聚類和基于維度的聚類的相似度很低(ajusted rand index =0.235)。進(jìn)一步,作者隨機(jī)采樣5000條邊,并使用UMAP將K-means的聚類結(jié)果可視化。通過(guò)進(jìn)一步觀察每個(gè)類別中的內(nèi)容,作者發(fā)現(xiàn):
部分類別有被很好的劃分,比如上圖中的類5,其中主要包含了distinctness的信息。類[4 7 8]大部分包含similarity維度的知識(shí),類[1 6]則包括temporal、desire/goal維度的邊。
另一部分類別則沒(méi)有被很好的劃分,比如類[0, 2, 9, 10, 11, and 12],其中內(nèi)容被lexical和relational—other維度占主導(dǎo)。
對(duì)相同的5000條邊,作者使用UMAP對(duì)文中的13個(gè)維度也進(jìn)行了可視化,并比較了兩組數(shù)據(jù)中類別的Jaccard score:高Jaccard表明兩個(gè)類別包含的內(nèi)容相似度高。可以看出RoBERTa的類5和和文中定義distinctness的類的一致性是極高的,說(shuō)明RoBERTa對(duì)于該類內(nèi)容的表示與其它維度是有很好的區(qū)分性的。而其余大部分維度的相似度都是較低的。說(shuō)明語(yǔ)言模型對(duì)不同關(guān)系維度的表示和人對(duì)不同關(guān)系維度的劃分是存在較大差異的。
哪些常識(shí)維度有助于常識(shí)QA任務(wù)?
這部分終于來(lái)到了開(kāi)頭我們提出的問(wèn)題,也是小花最感興趣的問(wèn)題:各個(gè)維度常識(shí)知識(shí)給下游常識(shí)QA任務(wù)帶來(lái)的提升是怎樣的?
此處采用的模型[2]是將常識(shí)KG中的三元組知識(shí)轉(zhuǎn)換為QA數(shù)據(jù),并預(yù)訓(xùn)練語(yǔ)言模型,然后在兩個(gè)常識(shí)數(shù)據(jù)集(CSQA和SIQA)上進(jìn)行zero-shot的評(píng)估。
首先,我們看看各個(gè)維度的常識(shí)知識(shí)給下游常識(shí)QA任務(wù)帶來(lái)的整體提升是怎樣的?對(duì)比的baseline是直接應(yīng)用RoBERTa-large,沒(méi)有將任何常識(shí)KGs中的知識(shí)傳遞給模型。從表中可以看到:加入各個(gè)維度的常識(shí)都提升了模型性能,但是各個(gè)維度帶來(lái)的提升幅度差異卻很大。很明顯,紅框中的維度帶來(lái)的提升比藍(lán)框要大很多。
這會(huì)不會(huì)是因?yàn)槟承┚S度的常識(shí)已經(jīng)被語(yǔ)言模型捕捉到了呢?所以作者將RoBERTa-large直接應(yīng)用到合成的QA數(shù)據(jù),以此觀察預(yù)訓(xùn)練語(yǔ)言模型在各個(gè)維度上的表現(xiàn)。果然不出所料啊!實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),預(yù)訓(xùn)練語(yǔ)言模型在lexical維度上的正確率高達(dá)90.1%,而在其它類的正確率卻低很多。該實(shí)驗(yàn)說(shuō)明:
對(duì)于PLM本身已經(jīng)捕捉的維度,再加入外部知識(shí),意義并不大。
加入預(yù)訓(xùn)練語(yǔ)言模型中缺乏一些維度的知識(shí)(比如quality,temporal),進(jìn)一步訓(xùn)練語(yǔ)言模型才能帶來(lái)額外的提升。 這里的實(shí)驗(yàn)和分析對(duì)于往后往預(yù)訓(xùn)練語(yǔ)言模型中加入何種知識(shí)是有指導(dǎo)意義的。不過(guò)鑒于不同維度給CSQA和SIQA帶來(lái)的提升也存在差異性,具體加入什么維度知識(shí)有利于提升下游任務(wù)性能,還需要結(jié)合下游任務(wù)需要什么樣維度的知識(shí)。
除了上面的實(shí)驗(yàn)外,作者探究了各個(gè)維度的常識(shí)知識(shí)給不同類型的問(wèn)題帶來(lái)的提升是怎樣的?通過(guò)給下游任務(wù)的問(wèn)題進(jìn)行類型劃分,并對(duì)比加入不同維度知識(shí)會(huì)怎樣影響不同類型的問(wèn)題。在CSQA和SIQA任務(wù)上的實(shí)驗(yàn)結(jié)果差異較大,整體來(lái)講CSQA的問(wèn)題類型需要的常識(shí)維度比較多,而SIQA中的問(wèn)題只有加入特定維度的知識(shí)時(shí)才會(huì)對(duì)特定的問(wèn)題有提升。
小結(jié)
本文首先對(duì)于目前20個(gè)常識(shí)知識(shí)源進(jìn)行了總結(jié),并強(qiáng)調(diào)了其之間的關(guān)聯(lián)性,并由此提煉出現(xiàn)常識(shí)關(guān)系的13個(gè)維度,最終通過(guò)實(shí)驗(yàn)對(duì)各知識(shí)源所含的常識(shí)維度、冗余性,預(yù)訓(xùn)練語(yǔ)言模型包含的維度及各維度對(duì)下游常識(shí)QA任務(wù)的影響進(jìn)行了分析。實(shí)驗(yàn)表明distinctness和lexical知識(shí)對(duì)下游任務(wù)沒(méi)有明顯幫助,temporal、desire/goal維度知識(shí)對(duì)下游任務(wù)提升較大。
萌屋作者:花小花Posy
目前在墨爾本大學(xué)NLP組讀Ph.D.,主要感興趣方向包括常識(shí)問(wèn)答,知識(shí)圖譜,低資源知識(shí)遷移。期待有生之年可見(jiàn)證機(jī)器真正理解常識(shí)的時(shí)刻! 知乎ID:花小花Posy
作品推薦:
1.我拿樂(lè)譜訓(xùn)了個(gè)語(yǔ)言模型!
2.一句話超短摘要,速覽752篇EMNLP論文
3.Facebook提出生成式實(shí)體鏈接、文檔檢索,大幅刷新SOTA!
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
?
[1]CSKG: The CommonSense Knowledge Graph https://arxiv.org/pdf/2012.11490.pdf
[2]Knowledge-driven Data Construction for Zero-shot Evaluationin Commonsense Question Answering https://arxiv.org/pdf/2011.03863.pdf
總結(jié)
以上是生活随笔為你收集整理的天天说常识推理,究竟常识是什么?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 动手做个DialoGPT:生成式多轮对话
- 下一篇: 从逻辑回归到最大熵模型