知识主题间先序关系挖掘
點擊上方藍字關注我們
知識主題間先序關系挖掘
麻珂欣1,2,?魏筆凡1,2,?馬杰1,2,?劉均1,2,?黃毅3,?胡珉3,?馮俊蘭3
1?西安交通大學計算機科學與技術學院,陜西 西安 710049
2?陜西省天地網(wǎng)技術重點實驗室,陜西 西安 710049
3?中國移動研究院,北京 100032
?
摘要:先序關系指知識主題之間學習的先后依賴關系。已有的先序關系挖掘方法大多是流線型的方式,易導致錯誤累計,且嚴重依賴可能導致錯誤先序關系的超鏈接。為了解決以上問題,先對知識主題間的先序關系進行統(tǒng)計分析,發(fā)現(xiàn)了先序關系的不對稱性特征;接著提出從文本中挖掘知識主題間的先序關系的端到端先序關系挖掘模型。該模型基于文本中抽取出的術語間上下位關系,計算知識主題的相關術語集間先序關系的不對稱性,進而預測知識主題間的先序關系。實驗結果表明,該方法具有較優(yōu)的先序關系抽取性能。
關鍵詞:?先序關系,?不對稱性,?端到端模型
論文引用格式:
麻珂欣,魏筆凡,馬杰, 等. 知識主題間先序關系挖掘[J]. 大數(shù)據(jù), 2020, 6(6): 26-39.
MA K X, WEI B F, MA J, et al. Mining prerequisite relations among learning objects[J]. Big Data Research, 2020, 6(6): 26-39.
1 引言
先序關系指知識主題之間學習的先后依賴順序,即在學習一個知識主題之前必須先學習其先序知識主題。如在“概率論”課程中,學習“聯(lián)合條件概率”之前要先學習“條件概率”知識主題,“條件概率”是“聯(lián)合條件概率”的先序。先序關系是導航學習、學習計劃制定等教育類應用的基礎。
已有先序關系挖掘工作均基于學習者行為數(shù)據(jù)或文本數(shù)據(jù)挖掘先序關系。學習者行為數(shù)據(jù)指學習者的點擊日志流等行為數(shù)據(jù),其只能在成熟的課程中獲得。因此,此類方法不適用于挖掘新課程領域中的先序關系。相比于學習者行為數(shù)據(jù),文本數(shù)據(jù)更容易獲得。雖然近年來有很多從文本中挖掘知識主題間先序關系的方法,但是此類方法仍然有一些問題需要被解決。
問題一:錯誤累積。在已有方法中,以簡單規(guī)則匹配方式確定的相關術語在先序關系挖掘方法中具有重要的作用。此類方法直接確定相關術語,這會導致錯誤的相關術語無法在后續(xù)階段被修正,進而產(chǎn)生錯誤的先序結果,即錯誤累積問題。此類方法以流線型的方式挖掘先序關系。首先根據(jù)標題匹配等規(guī)則確定相關術語,然后基于超鏈接挖掘先序關系。相關術語的正確性極大地影響了先序關系的預測結果。在流線型的方法中,相關術語在確定之后,無法再根據(jù)結果進行優(yōu)化。
問題二:嚴重依賴超鏈接。大多數(shù)已有方法將超鏈接作為挖掘先序關系的重要特征。超鏈接僅能體現(xiàn)兩個頁面間存在某種關聯(lián),不能體現(xiàn)頁面間有向的先序關系。以維基百科為例,“條件概率”和“聯(lián)合條件概率”頁面中分別存在指向彼此的超鏈接,但是不能根據(jù)超鏈接指向來判斷知識主題間的先序關系。除此之外,若根據(jù)超鏈接判斷先序關系,則在“聯(lián)合條件概率”的維基百科頁面上存在的指向“條件概率”的超鏈接,將會導致錯誤的先序關系,即認為“聯(lián)合條件概率”是“條件概率”的先序,而事實上“條件概率”是“聯(lián)合條件概率”的先序。因此,在此類方法中,超鏈接的使用可能會增加挖掘先序關系的難度或導致錯誤的先序關系結果。
為了解決以上問題,本文提出端到端先序關系挖掘模型。通過對先序關系數(shù)據(jù)集的分析,發(fā)現(xiàn)了先序關系的不對稱性特征,即知識主題的相關術語集間的先序關系是不對稱的。本文提出的端到端先序關系挖掘模型基于先序關系的不對稱性特征來挖掘先序關系,使用文本中抽取出的上下位關系而不是超鏈接作為判斷先序關系不對稱性的依據(jù)。
端到端先序關系挖掘模型包含兩個模塊:文本中專業(yè)術語與上下位關系抽取模塊和先序關系判別模塊。文本中專業(yè)術語與上下位關系抽取模塊可識別文本中有效文本跨距,其將作為候選專業(yè)術語,并挖掘句子中專業(yè)術語間的上下位關系。上下位關系表明了專業(yè)術語間從屬的學習依賴關系,可體現(xiàn)專業(yè)術語間的先序關系。該模塊為先序關系的不對稱性計算提供了先序關系依據(jù),也避免了依賴超鏈接導致的錯誤。先序關系判別模塊基于專業(yè)術語間的上下位關系計算知識主題的相關術語集間先序關系的不對稱性,從而預測知識主題之間的先序關系。本文還提出兩種不同的權重策略,以探究不同相關術語對先序關系不對稱性的重要性。
2 相關工作
近年來,國內(nèi)外研究者提出了較多的先序關系抽取方法。根據(jù)挖掘先序關系時所依賴學習資源的不同,這些方法可分為4類:基于學習者行為數(shù)據(jù)、基于已有先序關系、基于長文本內(nèi)容、基于網(wǎng)頁信息。
(1)基于學習者行為數(shù)據(jù)
學習者行為數(shù)據(jù)通常指學習者在學習過程中的行為日志(如觀看課程視頻的點擊日志流)或問答等互動行為。這些行為數(shù)據(jù)體現(xiàn)了學習者的學習方法與學習者知識儲備之間的重要聯(lián)系。此類方法使用不同模型從學習者的行為數(shù)據(jù)中挖掘先序關系特征。Chen W等人通過構建知識狀態(tài)轉移模型來捕獲學習者的參與度信息,進而分析學習者的知識狀態(tài)的轉變過程。該方法首先分析學習者的行為數(shù)據(jù),如播放、暫停、快進和快退等行為,然后構建學習者行為模型,從這些數(shù)據(jù)中預測學習者轉變到特定知識狀態(tài)的概率,進而挖掘先序關系。Chaplot D S等人綜合考慮文本中概念的共現(xiàn)特征和學習者的行為特征(如課程的參與度以及測評分數(shù)),提出一種無監(jiān)督的學習依賴圖構建方法。該方法可以識別任意粒度級別(課程、單元、模塊等)之間的學習依賴關系,同時證明了學生的互動行為比文本閱讀更易反映學生的學習效果。此類方法不適用于新課程領域。
(2)基于已有先序關系
隱式的先序關系可從顯式的關系結構中發(fā)現(xiàn)。已有的先序關系可構成先序關系圖譜,通過分析該圖譜的圖特征,可預測知識主題間的先序關系。Liang C等人提出從課程先序關系中恢復概念間先序關系的方法,并指出課程之間的依賴性是由課程內(nèi)主要概念間的學習依賴關系引起的。該方法從課程的描述文本中抽取出代表該課程的概念集,通過對課程間先序關系以及已有概念間先序關系的分析,根據(jù)先序關系的因果性以及稀疏性兩個特征構建目標函數(shù),達到預測未知概念間先序關系的目標。Roy S等人假設課程間先序關系已知,且不同的課程間具有部分共同的概念。他們使用主題模型衡量概念對之間的相關性,并根據(jù)主題詞向量的聚類、稀疏性及簡單性等特征訓練神經(jīng)網(wǎng)絡,以識別概念之間的先序關系。
(3)基于長文本內(nèi)容
在非結構化的長文本中,知識主題的分布特征可反映主題間的先序關系。基于此,Liu J等人基于從文本中發(fā)現(xiàn)的學習依賴關系的兩個特征(學習依賴關系的局部性特征及術語分布的非對稱性特征)來挖掘知識主題間的學習依賴關系。Adorni G等人挖掘長文本中以線性方式分布的知識主題之間的先序關系,根據(jù)術語共現(xiàn)的特征篩選出長文本中可能存在先序關系的知識主題對,并根據(jù)知識主題在文本中出現(xiàn)的順序識別候選知識主題對的先序關系。此類方法只能挖掘文本中以特定方式組織的知識主題間的先序關系。
(4)基于網(wǎng)頁信息
開放知識源中的豐富信息為知識主題間先序關系的挖掘提供了極大便利。以維基百科為例,該知識源中的每個知識主題都具有對應的維基百科頁面。頁面中不僅包含與當前知識主題相關的完備結構化信息,同時存在指向其他相關知識主題頁面的鏈接。主題間的目錄層次關系以及鏈接關系能在一定程度上反映主題間的先序關系。因此,研究者考慮基于維基百科來實現(xiàn)先序關系的挖掘。Talukdar P和Cohen W通過分析維基百科頁面的文本內(nèi)容、超鏈接以及頁面編輯歷史等信息,使用最大熵分類器識別知識主題之間的先序關系。Gasparetti F等人從維基百科的文本、超鏈接以及目錄結構3個層次分別抽取特征,并構建分類器,以識別先序關系。Liang C等人從認知的角度出發(fā),認為理解知識主題需要學習與該知識主題在同一認知框架中的所有相關概念,并提出僅基于相關概念間超鏈接的先序關系挖掘方法RefD(reference distance)。該方法考慮了知識主題的相關概念,并根據(jù)兩個知識主題的相關概念集之間的超鏈接的差異,判斷知識主題間是否存在先序關系。由于RefD可以輕量且高效地抽取出知識主題間的先序關系,其作為一個重要特征被集成到許多監(jiān)督學習方法中。但此類方法嚴重依賴開放知識源中的超鏈接等結構化信息。一方面,超鏈接并不能直接反映先序關系的方向;另一方面,此類方法大多基于流線型的方式挖掘先序關系,存在錯誤累積的問題。
為了使先序關系挖掘方法適用于大多數(shù)領域,本文將網(wǎng)頁信息作為數(shù)據(jù)源來挖掘先序關系。不同的是,本文只關注網(wǎng)頁信息中的文本內(nèi)容,避免了嚴重依賴結構化信息的缺點。本文提出了基于不對稱性的端到端先序關系挖掘方法,避免了流線型方法錯誤累積對先序關系結果的影響。
3 先序關系不對稱性特征
通過對先序關系數(shù)據(jù)集中知識主題間先序關系的分析,發(fā)現(xiàn)了先序關系的不對稱性特征。學習者在學習新課程的某一知識主題時,為了全面理解該主題的含義,往往需要學習和理解該主題的其他相關術語。知識主題的相關術語指的是有助于學習和理解該知識主題的一些其他概念。給定某課程的兩個知識主題,一個主題的大多數(shù)相關術語的學習往往依賴另一個知識主題的相關術語的學習,即知識主題的相關術語集之間的先序關系是不對稱的。顯然,對于知識主題對(ta,tb),如果學習者在學習主題tb的大多數(shù)相關術語之前,需要先學習主題ta的大多數(shù)相關術語,則主題ta更可能是主題tb的先序。
如圖1所示,知識主題“樹”的相關術語集和知識主題“堆”的相關術語集之間的先序關系是不對稱的。例如,知識主題“樹”的相關術語有“二叉樹”“二叉搜索樹”等可幫助理解“樹”的專業(yè)術語;“堆”的相關術語有“斐波那契堆”“二叉堆”等可幫助理解“堆”的專業(yè)術語。而“樹”的大多數(shù)相關術語先于“堆”的大多數(shù)相關術語進行學習,如“樹”的相關術語“二叉搜索樹”應該在學習“堆”的相關術語“二叉堆”之前學習。因此,兩個知識主題的相關術語集之間存在的大量不對稱的先序關系表明,知識主題“樹”與知識主題“堆”之間存在先序關系,且“樹”是“堆”的先序。顯然,相關術語集之間先序關系的不對稱性可反映出知識主題之間的先序關系。
圖1???先序關系不對稱性實例
為了驗證先序關系不對稱性的有效性,對CrowdComp數(shù)據(jù)集中的先序關系樣例進行統(tǒng)計分析。首先在知識主題的描述文本中標記相關術語以及術語之間的先序關系;然后,統(tǒng)計分析是否可通過相關術語集之間先序關系的不對稱性推斷出知識主題之間的先序關系。圖2為CrowdComp數(shù)據(jù)集中是否可通過不對稱性推斷出知識主題間先序關系的統(tǒng)計結果。從圖2可以看出,大多數(shù)知識主題間的先序關系可通過不對稱性推導出。知識主題的相關術語集之間極度不對稱的先序關系導致了知識主題之間的先序關系。因此,本文可通過先序關系的不對稱性特征有效挖掘知識主題之間的先序關系。
圖2???知識主題間先序關系是否可通過先序關系不對稱性特征推導的統(tǒng)計結果
4 先序關系挖掘方法
基于先序關系的不對稱性特征,本文提出端到端的先序關系挖掘模型,如圖3所示。
對于知識主題對(ta,tb),該模型將對應知識主題的原始文本描述Da和Db作為輸入,輸出一個衡量知識主題ta和tb之間先序關系的值v:
其中,φ為先序關系判斷閾值。當v=1時,知識主題ta是知識主題tb的先序;當v=0時,知識主題ta和知識主題tb間不存在先序關系。整體來說,該模型可細分為兩個模塊:文本中專業(yè)術語與上下位關系抽取模塊和先序關系判別模塊。
文本中專業(yè)術語與上下位關系抽取模塊:該模塊挖掘文本描述D中術語間的上下位關系。首先,該模塊將文本描述D中所有有效的文本跨距作為候選的專業(yè)術語;然后,抽取專業(yè)術語之間的上下位關系。該模塊抽取出的術語間的上下位關系是先序關系判別模塊衡量先序關系不對稱性的基礎。
先序關系判別模塊:該模塊預測知識主題ta和tb之間的先序關系。該模塊首先從候選的專業(yè)術語集中識別出知識主題的相關術語,然后基于術語間的上下位關系計算知識主題的相關術語集之間先序關系的不對稱性。
圖3???端到端先序關系挖掘模型框架
4.1 文本中專業(yè)術語與上下位關系抽取模塊
在衡量先序關系的不對稱性時,首先需要識別文本中與特定知識主題相關的專業(yè)術語,挖掘每個句子中術語間的上下位關系。將文本描述D中的每一個文本跨距作為候選的專業(yè)術語。文本跨距指連續(xù)的單詞序列,如圖4所示,“紅”“紅黑”“紅黑樹”均為語句“紅黑樹是一種自平衡二叉查找樹”中的文本跨距。對于文本描述D,每個文本跨距i可用二元組(istart,iend)定位,即該文本跨距是從文本描述D中的第istart個單詞開始,到第iend個單詞結束。
圖4????文本跨距實例
該模塊包含3個部分:跨距表示、術語評估及上下位關系抽取。其中,跨距表示部分將每個語句中可能的專業(yè)術語表示為具有一定語義的跨距詞向量;術語評估部分根據(jù)跨距詞向量的語義表征進一步判定其是否為真正的專業(yè)術語;上下位關系抽取部分衡量同一語句中的不同專業(yè)術語間是否存在上下位關系。
(1)跨距表示
對于文本中的每個單詞,用預訓練好的ELMo(embeddings from language model)詞向量來表征其高層語義,則文本中每個單詞的詞向量表示為。考慮到語句中的上下文信息,本節(jié)采用雙向長短時記憶(bi-directional long shortterm memory,Bi-LSTM)網(wǎng)絡對文本中的每個語句進行重編碼,進一步獲得單詞t在當前語境下的詞向量。
任一文本跨距與其所在語句中的很多其他單詞存在語義關聯(lián),其中,第一個關聯(lián)單詞稱為該文本跨距的語義頭單詞。文本跨距和其語義頭單詞之間通常存在上下位關系。為此,本文使用頭注意力機制來預測文本跨距i的語義頭單詞。具體來說:
其中,βt為單詞t的得分,αi,t為文本跨距i的單詞t的概率分布。表示前饋神經(jīng)網(wǎng)絡。
在獲得每個文本跨距的上下文表征以及語義頭單詞的詞向量之后,將它們聚合,以獲得最終文本跨距的詞向量:
(2)術語評估
在對每個文本跨距進行語義表征后,需要準確判斷該文本跨距是否為專業(yè)術語,以達到識別專業(yè)術語間是否存在上下位關系的目的。考慮到專業(yè)術語的單詞數(shù)一般不會過長,因此過濾文本中長度大于L個單詞的文本跨距。對于剩余的文本跨距i,根據(jù)式(6)估算其屬于專業(yè)術語的得分值g(i)。
其中,表示學習的權重矩陣,FFNNm(?)表示前饋神經(jīng)網(wǎng)絡,m表示術語評估模塊。為使本文端到端先序關系抽取模型更加關注有價值的文本跨距,對術語得分值g(i)從高到低進行排序,選取得分高的前λT個文本跨距作為專業(yè)術語,記作Y={i:g(i)≥ε},其中,ε表示第λT個術語得分值,λ為保留的文本跨距的比例,T為文本描述D中包含的單詞個數(shù)。
(3)上下位關系抽取
給定文本描述D中的任一語句,對于該語句中的文本跨距對(i,j),當i∈Y且j∈Y時,文本跨距i與j都被判定為專業(yè)術語。在此基礎上,通過計算文本跨距對(i,j)的函數(shù)值r(i,j)來判定是否存在上下位關系,具體如下:
其中,表示權重參數(shù)矩陣,FFNNr()?表示前饋神經(jīng)網(wǎng)絡,r表示屬于上下位關系抽取模塊。通常,上下位關系只存在于有一定語義關聯(lián)的專業(yè)術語之間,且與某一術語存在上下位關系的其他術語是有限的。為此,在計算上下位關系得分r(i,j)時,考慮了兩個專業(yè)術語特征向量間的語義相似性(其中,?表示兩個向量的點乘操作)。同時,對于語句中的任一文本跨距i來說,最多考慮K個在當前語句中與其具有上下位關系的專業(yè)術語。
4.2 先序關系判別模塊
對于知識主題對(ta,tb),該模塊首先從文本D中識別出的專業(yè)術語集Y中選取出知識主題ta、tb的相關術語,然后進一步根據(jù)相關術語間的上下位關系來判斷ta、tb之間是否存在先序關系。
知識主題的相關術語選取:將知識主題ta表征為知識主題詞向量。基于相似函數(shù)s(ta,i)來衡量知識主題ta與文本中任意專業(yè)術語i之間的相似性。使用曼哈頓相似性定義的相似函數(shù)s(ta,i),如下:
當相似函數(shù)值s(ta,i)大于相似閾值θ時,知識主題ta與專業(yè)術語i相關。同理,使用相似函數(shù)s(tb,i)選取與知識主題tb相關的專業(yè)術語。
權重策略:不同的相關術語在計算知識主題間先序關系的不對稱性時具有不同的作用。為此,使用權重函數(shù)衡量不同相關術語在計算知識主題間不對稱性的重要性。提出以下兩種不同的權重策略。
● 相同權重:當術語與知識主題相關時,所有相關術語具有相同的重要性。權重策略
we(ta,i)定義為:
● 不同權重:在衡量知識主題對之間先序關系的不對稱性時,給予不同相關術語不同的重要性。術語與知識主題越相似,則該術語對知識主題越重要。使用相似函數(shù)s(ta,i)衡量相關術語對知識主題的重要性wd(ta,i):
不對稱性計算:知識主題的相關術語集之間的先序關系是不對稱的,該模塊根據(jù)相關術語集之間上下位關系指向的差異來衡量知識主題之間的先序關系。提出不對稱性函數(shù)f(ta,tb),以衡量先序關系指向的不對稱性。
其中,j為與文本跨距i具有上下位關系的文本跨距。用于計算知識主題ta先于知識主題tb學習的概率,即ta是tb的先序的概率。用于計算知識主題tb先于知識主題ta學習的概率,即tb是ta的先序的概率。不對稱性函數(shù)f(ta,tb)用于衡量ta的大多數(shù)相關術語是否為tb的相關術語的先序,即ta和tb之間是否存在先序關系的不對稱性。因此不對稱性函數(shù)f(ta,tb)用于計算ta和tb之間存在先序關系的概率。
4.3 損失函數(shù)
由于先序關系的稀疏性,正例先序關系的數(shù)量遠小于候選知識主題對的數(shù)量。本文使用了交叉熵損失函數(shù)L(ta,tb),使得本文提出的端到端先序關系抽取模型更加關注正例先序關系。
其中,是正例先序關系樣本的權重矩陣,u(ta,tb)是知識主題對(ta,tb)的真實先序關系標簽,為模型預測的知識主題對(ta,tb)的先序關系。當ta是tb的先序時,u(ta,tb)=1。
該模型優(yōu)化了損失函數(shù)L(ta,tb),使得模型可以更加準確地識別相關術語及抽取術語間的上下位關系。
5 實驗與分析
5.1 實驗數(shù)據(jù)集
本文在CrowdComp數(shù)據(jù)集上進行實驗,以驗證本文所提端到端先序關系抽取模型的有效性。CrowdComp數(shù)據(jù)集包含5個不同領域的先序關系數(shù)據(jù)(見表1)。在該數(shù)據(jù)集中,每對知識主題對(ta,tb)的先序關系有4種可能:ta是tb的先序;tb是ta的先序;知識主題ta與tb不相關;知識主題ta與tb間的先序關系未知。本實驗將第一類先序關系作為知識主題對先序關系的正例數(shù)據(jù),其他類作為先序關系的負例數(shù)據(jù),并使用留一法驗證本文方法在不同領域的實驗效果。
在該數(shù)據(jù)集中,每個知識主題對應一個維基百科頁面。本文將每個知識主題的維基百科頁面中的文本內(nèi)容作為知識主題的描述文本D。
5.2 模型參數(shù)
經(jīng)過多次實驗發(fā)現(xiàn),以下參數(shù)取得了最優(yōu)效果:使用1 024維ELMo詞向量以及8維卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)詞向量。前饋神經(jīng)網(wǎng)絡FFNN(?)為兩層的神經(jīng)網(wǎng)絡。有效文本跨距的最大長度L=15,且λ=0.4。每個知識主題的描述文本中,最多包含K=50個上下位關系。知識主題的相關術語相似性閾值θ=0.3,先序關系判別閾值φ=0.3。
5.3 對比實驗
選取CrowdComp數(shù)據(jù)集上3個經(jīng)典的先序關系抽取方法作為本文端到端先序關系抽取模型的對比方法。實驗結果見表2。
● 最大熵(maximum entropy, MaxEnt)方法是第一個在CrowdComp數(shù)據(jù)集上挖掘先序關系的方法。它同時考慮了基于圖的特征以及基于文本的特征,如PageRank分值、編輯歷史信息、超鏈接信息以及概念的長度等。使用最大熵分類器識別概念對的先序關系。
● RefD方法是一種僅根據(jù)引用信息衡量先序關系的方法。引用信息即頁面中存在的超鏈接或者頁面中提及的另一專業(yè)術語。RefD方法首先根據(jù)標題匹配的規(guī)則獲得知識主題的相關術語;然后,通過衡量知識主題的相關術語集之間引用的差異,判斷主題之間的先序關系。實驗證明,該單一的衡量規(guī)則可以簡單有效地衡量出概念間的先序關系。
● 多層感知機(multilayer perceptron, MLP)方法從文本資源中抽取全面的特征以識別先序關系。它從維基百科的3個層次(文本、超鏈接、目錄)分別提取特征,如文本中概念出現(xiàn)的次數(shù)、概念間存在超鏈接的數(shù)量、概念間是否存在目錄層級關系等;并使用所提出的特征訓練分類器有效識別出概念間的先序關系。
表2中,加粗字體表示該領域最優(yōu)先序關系挖掘性能。本文提出的使用不同權重策略的端到端模型在平均性能上最優(yōu),且在不同領域的性能差異較小。詳細分析如下。
使用不同權重策略的端到端模型的平均性能較使用相同權重策略的端到端模型提高了29.22%。在衡量相關術語集之間先序關系的不對稱性時,相同權重策略賦予每個相關術語相同的權重。而不同的相關術語對知識主題的重要性不同,因此在不對稱性衡量中的影響也不同。當賦予弱相關的相關術語與緊密聯(lián)系的相關術語相同的權重時,將導致最終的先序關系結果產(chǎn)生偏差。不同權重策略則賦予不同相關術語不同的權重,使得緊密聯(lián)系的相關術語在判斷先序關系結果時產(chǎn)生較大的影響。因此,不同權重策略使得端到端模型更關注可體現(xiàn)知識主題間先序關系的術語之間的關系,有助于端到端模型更加準確地計算各術語間關系對衡量先序關系不對稱性的重要性,進而使得端到端模型取得更優(yōu)的性能。
顯然,基于不同權重策略的端到端模型的性能優(yōu)于對比方法RefD。端到端模型與RefD均通過衡量知識主題的相關術語集之間互相引用的差異來預測知識主題間的先序關系。端到端模型和RefD的性能差異主要由以下兩個原因引起。
● RefD將超鏈接等引用信息作為計算知識主題相關術語間先序關系差異的依據(jù),而端到端模型將從文本中挖掘的相關術語間的上下位關系作為判斷知識主題相關術語間先序關系的依據(jù)。超鏈接等引用信息不能反映知識主題間的先序關系,僅能體現(xiàn)知識主題間存在某種聯(lián)系。因此,超鏈接不能作為判斷知識主題間先序關系的依據(jù),甚至可能導致錯誤判斷先序關系。而端到端模型使用的文本中專業(yè)術語之間有向的上下位關系則是判斷知識主題間先序關系不對稱性的有力證據(jù),其正確反映了知識主題間的不對稱性。因此,端到端模型中挖掘的文本中術語間的上下位關系有力支撐了對知識主題間先序關系不對稱性的計算。
● Ref D使用流線型的方式挖掘先序關系。其將知識主題的相關術語的確定以及相關術語集之間引用的差異視為兩個獨立的模塊進行。RefD直接確定知識主題的相關術語,并且不在后序計算過程中對相關術語進行優(yōu)化,即錯誤識別的相關術語不會被改正,該方法會造成錯誤的累積。端到端模型將整個先序關系挖掘過程視為一個整體,模型可根據(jù)最終預測出的先序關系與真實標簽之間的偏差調(diào)整對文本中術語的檢測以及術語間上下位關系抽取的正確性。即端到端模型通過不斷地迭代學習,可以更準確地識別文本中的術語及術語間的上下位關系,并為計算先序關系的不對稱性提供了有力的證據(jù)。因此,端到端模型的性能優(yōu)于RefD。
本文所提的基于不同權重策略的端到端模型的性能優(yōu)于MaxEnt和MLP。MaxEnt和MLP均根據(jù)大量的從結構化信息中提取的與先序關系直接相關的特征來預測先序關系。結構化信息在不同的學習資源中是不易獲得的。而本節(jié)所提的端到端模型僅將知識主題的文本信息作為輸入,使得端到端模型被廣泛應用到更多的領域中。表2中,MLP方法在平行假設領域的性能高于端到端模型。對平行假設領域的數(shù)據(jù)集進行分析,該領域在維基百科上存在豐富的結構化信息,而MLP方法基于從維基百科中提取的綜合的特征,獲得了全面的信息,并表現(xiàn)出很好的性能。雖然端到端模型在該領域的性能稍差于MLP方法,但是在平均性能上優(yōu)于MLP方法。MLP方法中的特征需由領域專家構建,該特征構建過程耗時且領域通用性差。而端到端模型并不使用人工提取的特征,具有更優(yōu)異的性能。
5.4 相似函數(shù)對模型的影響
由于相似函數(shù)會影響相關術語以及權重策略的確定,本文進行了對比實驗,以驗證不同相似函數(shù)對模型效果的影響,即在使用不同權重策略的端到端模型上,探究不同相似函數(shù)對模型效果的影響。使用余弦相似函數(shù)和歐幾里得相似函數(shù)進行對比實驗。
圖5為在CrowdComp數(shù)據(jù)集上使用不同相似函數(shù)的模型的實驗結果。端到端模型使用不同相似函數(shù)對模型效果影響較小,這表明先序關系判別模塊可穩(wěn)定地判別知識主題間是否存在先序關系,該模塊具有魯棒性。在精確率和召回率上,不同相似函數(shù)可能降低正例先序關系對被正確預測的概率。不同的相似函數(shù)會影響先序關系判別模塊正確地識別知識主題的相關術語,使得該模塊在計算先序關系的不對稱性時產(chǎn)生偏差,最后影響本文端到端模型的先序關系挖掘效果。當相似函數(shù)可準確識別出知識主題的相關術語時,本文所提的端到端模型可取得優(yōu)異的性能。
圖5???不同相似函數(shù)在不同領域的實驗結果
6 結束語
本文對先序關系數(shù)據(jù)集進行分析,并發(fā)現(xiàn)了先序關系的不對稱性特征。基于先序關系的不對稱性,本文提出一種從文本中挖掘知識主題間先序關系的端到端模型。該模型包含兩個模塊,文本中專業(yè)術語與上下位關系抽取模塊和先序關系判別模塊。文本中專業(yè)術語與上下位關系抽取模塊挖掘文本中專業(yè)術語間的上下位關系,上下位關系是一類有向的學習依賴關系。先序關系判別模塊在上下位關系的基礎上,識別知識主題的相關術語,并計算知識主題的相關術語集間先序關系的不對稱性,從而預測知識主題間的先序關系。在CrowdComp數(shù)據(jù)集上進行實驗,并驗證了本文所提端到端模型的性能,相比于其他算法,本文所提方法取得了最優(yōu)的性能。
由于部分專業(yè)術語間的先序關系需進行跨句子的關系推理才可得出,而本文僅考慮了單一句子中存在的專業(yè)術語間先序關系。因此在未來的工作中,需進一步考慮跨句子的專業(yè)術語間先序關系,為知識主題間先序關系判斷提供更多更有利的關系依據(jù),從而更準確地挖掘知識主題間的先序關系。
作者簡介
麻珂欣(1995-),女,西安交通大學計算機科學與技術學院碩士生,主要研究方向為先序關系抽取 。
魏筆凡(1977-),男,博士,西安交通大學計算機科學與技術學院高級工程師,主要研究方向為Web信息抽取、教育知識圖譜構建及應用 。
馬杰(1993-),男,西安交通大學計算機科學與技術學院博士生,主要研究方向為知識圖譜、機器學習、文本挖掘 。
劉均(1973-),男,博士,西安交通大學計算機科學與技術學院教授,主要研究方向為自然語言處理、計算機視覺、智慧教育 。
黃毅(1989-),男,中國移動研究院研究員,主要研究方向為自然語言處理和人機對話 。
胡珉(1981-),男,中國移動研究院主任研究員,主要研究方向為信息檢索和知識庫 。
馮俊蘭(1974-),女,博士,中國移動研究院首席科學家,主要研究方向為語音識別、語言理解和數(shù)據(jù)挖掘 。
聯(lián)系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉載、合作:010-81055537
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計算機學會大數(shù)據(jù)專家委員會學術指導,北京信通傳媒有限責任公司出版的期刊,已成功入選中文科技核心期刊、中國計算機學會會刊、中國計算機學會推薦中文科技期刊,并被評為2018年國家哲學社會科學文獻中心學術期刊數(shù)據(jù)庫“綜合性人文社會科學”學科最受歡迎期刊。
關注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結
以上是生活随笔為你收集整理的知识主题间先序关系挖掘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习网站大全
- 下一篇: C语言设计新思维分享