论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测
筆記整理 |?潘曉梅,東南大學碩士,研究方向為知識圖譜構建、自然語言處理。
來源:EMNLP 2020.
論文下載地址: https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf
項目源碼地址: https://github.com/ccclyu/ComHyper
動機
Taxonomy中包含了結構的良好的詞匯知識資源,對各種自然語言處理任務至關重要,包括問答、文本蘊含和文本生成等。當從零開始自動構建或填充手工創建taxonomy時,上下位關系檢測任務起著核心作用。對于一對查詢詞??,需要推斷??和??之間是否存在上下義關系。
目前主要有兩種方法,基于模式的方法和基于分布的方法。基于模式的方法有較高的精確度,但由于稀疏性問題導致召回率一般,并且目前已有的方法主要致力于解決第一類稀疏性問題;而基于分布的方法盡管適用范圍更廣,但整體表現較差,并且不足以填補基于模式方法由于第二類稀疏性問題帶來的數據缺失。
為了解決以上問題,作者提出了一個補充框架ComHyper模型——綜合了基于模式與基于分布方法在解決稀疏性問題上的優勢。
1概要
1.1證明當前基于模式的方法的稀疏性問題是不可忽略的;
1.2提出一種基于Hearst和分布式模型互補的框架,使得二者更加充分地發揮效果;
1.3對幾個常見的數據集進行了系統的比較,驗證了框架的優越性。
2主要內容
2.1提出基于模式的方法的缺陷之一,稀疏性的兩種表現形式(正式提出并量化論證):
2.1.1第一類稀疏性問題:x和y分別出現在一些提取的對中,但是(x, y)不存在;
2.1.2第二類稀疏性問題:x或y不包含在任何提取的配對中(看不見的關系)。
2.1.3研究現狀:通過矩陣分解或嵌入技術僅能緩解第一類稀疏性,并不能推廣到第二類。DIH能夠利用上下文來提取出一些看不見的關系,但是效果仍然不如基于模式的方法。
2.2提出兩個問題
2.2.1問題1:第二類問題在實踐中常見嗎?
經過對真實世界的語料進行分析,表明在實踐中遇到第二類問題的概率甚至可以達到50%以上,因此這是不可忽略的。
論證:
(1)將“可見的詞”定義為IP,而“不可見的詞”定義為OOP,整個訓練語料庫包含的名詞詞匯定義為V。通過統計詞頻和基于Hearst模式得到的詞匯進行統計分析計算兩條曲線之間形成的面積得出實際場景中大概有19.9%的OOP情況,如圖1所示。
圖1 語料庫中所有名詞和IP名詞的頻率
(2)同時對幾個數據集中的數據進行了統計對比,結果如圖2 所示。
圖2 幾個數據集OOP類型數據占比結果
(3)結論:有了OOP的概率,可以估計出現第二類稀疏性情況的概率,即??中有任意一項是OOP的概率,通過計算估計出現第二類問題的概率在19.9%-35.8%之間,甚至可能超過50%。
2.2.2問題2:如何用分布的方法補充基于模式無效的看不見的數據?
2.3提出框架ComHyper:利用了基于模式的模型在第一類情況下的優越性能和第二類情況下分布模型的廣泛覆蓋性。具體來說,為了處理第二類稀疏性,ComHyper使用了一個訓練階段從基于模式的輸出空間進行采樣,用于另一個由不同上下位編碼器實現的監督模型。在推理階段,ComHyper使用這兩個模型分別處理他們擅長的稀疏類型。框架結構如圖3所示:
圖3 從語料庫中檢測上下義關系的補充方法的總體框架
Pattern-Based Model:在整個框架中有兩個重要作用:(1)從P(從語料庫中提取的所有名詞)進行統計和歸納,以評估??中pair;(2)通過采樣器為后面的監督訓練提供訓練樣本,用于訓練分布模型。
Distributional Model:訓練一個監督神經網絡模型,輸入為上下詞對的上下文向量,訓練點積用于分類(0或1)。
Training the Distributional Model:損失函數設置如下:
Encoding Queried Words:
(1)Transformed Word Vector:預訓練詞嵌入,采用預訓練的向量并通過多層感知機MLP得到嵌入向量。
(2)NBOW with MEAN-Pooling:??是x的上下位語料,針對們每一個詞匯c,通過預訓練得到c的每一個??,求得平均得到c向量,在通過MLP得到輸入向量。但是這樣的方法忽略了上下文單詞的順序,可能不能很好的保留語義。
(3)CONTEXT2VEC with MEAN-Pooling:使用context2vec編碼器代替NBOW,分別使用兩個方向相反的LSTM對c進行編碼;
(4)Hierarchical Attention Networks.:將注意力放在不同的上下文單詞和文本上,通過前饋神經網絡來估計每個單詞的重要性。
3數據集
3.1Is-a關系數據集:用《Hearst patterns revisited: Automatic hypernym detection from large text corpora》發布的421K is-a關系pair。
3.2語料庫:用《Building a very large corpus of english obtained by web crawling: ukwac》中使用的Gigaword語料庫。
3.3評估數據集:BLESS (2011), VAL, LEDS, SHWARTZ , WBLESS ( 2014)
4實驗過程和實驗結果
4.1實驗過程:在框架中采用SVDPPMI作為基于模式的模型。用Skip-Gram在語料庫上預先訓練300維的單詞嵌入,以便使用分布模型。比較了W2V、NBOW/CONTEXT2VEC with MEAN-Pooling (NBOW/C2V), 和Hierarchical Attention Networks幾種嵌入方式對實驗結果的影響。編碼器的輸出向量維度設置為300。Batch=128,學習率設置為0.003。
4.2實驗結果:
(1)如圖4所示,在OOP上的表現,除了Leads數據集,模型都比其他方法有一個更好的表現。尤其是在BLESS數據集上,其cosine余弦相似度的準確率為0(這是由于余弦相似度的對稱性),但論文中提出的模型準確率可以達到0.975。
圖4 在OOP數據上的實驗結果
(2)在所有查詢對上的實驗結果如圖5所示,與僅僅只是基于模式的方法和僅僅只是基于監督模型的方法作對比,發現除了在詞匯蘊含上論文方法表現不如基于模式的方法外,在其他幾個數據及上都明顯比另外兩個單獨的方法表現更好。其中,表現最好的是HAN。
圖5 在“所有查詢對”上的實驗結果
5評估方法
5.1采用三個子任務來評估:(1)排序上位詞預測:使用BLESS, EVAL, LEDS , SHWARTZ and WBLESS等數據集進行準確率評估,正例的預測的排名應該高于負例;(2)上下位詞的方向確定:確定一對中哪個詞的意義更廣;(3)分級蘊含:預測HYPERLEX上的標量分數,評估真實標簽和預測分數之間的相關性ρ。
6總結
6.1將基于模式的方法與基于分布的方法相結合,并提出了一個互補框架來檢測上下位關系。
6.2正式定義和描述了稀疏性的兩種表現形式,并論證了第二類稀疏性情況的普遍存在性與不可忽略性。
6.3實驗對比分析驗證了互補框架能夠綜合兩種方法在解決兩類稀疏性問題上的優勢,從而提升預測上下位的表現。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文小综 | 文档级关系抽取方法(下)
- 下一篇: 一篇文章搞懂架构师的核心技能