论文浅尝 - AAAI2020 | 多通道反向词典模型
論文筆記整理:朱珈徵,天津大學碩士,自然語言處理方向。
鏈接:https://arxiv.org/pdf/1912.08441.pdf
動機
反向詞典將一段描述作為輸入,并一起輸出與該描述匹配的其他詞,具有重要實用價值和自然語言處理研究價值,例如有助于解決舌尖現象。但現有的反向詞典方法不能很好地處理高度多樣化的輸入問題且存在大量低頻詞,因此受人從描述到詞的這一推理過程的啟發,作者提出了多通道反向詞典模型,可以同時緩解這兩個問題。模型提供了一個句子編碼器和多個預測器。預測器將從輸入的描述中識別目標詞的不同特征。作者在英漢數據集上評估了文中的模型,包括字典的定義和人類的書面描述,表明該模型達到了目前最先進的性能,甚至在人類書面描述數據集上超過了最流行的商業反向字典系統。
亮點
(1)基于人的描述-詞的推斷過程,作者提出了多通道反向詞典模型,包含多個預測器,每個特征預測器都被視為搜索目標詞的信息通道,且分為兩個類型:內部通道和外部通道。內部通道與詞本身的特征相對應,包括詞性標記和語素;外部渠道則反映了與外部知識庫相關的目標詞的特征,如詞類、義原。
(2)作者通過對模型的調試,解決了一詞多義的詞典任務以及高頻和低頻單詞很難預測等難點,在真實場景數據集實現了當前最佳性能且具有相當良好的穩定性和魯棒性。
方法及模型
基本框架
該模型的基本框架與句子分類模型基本相似,由一個句子編碼器和幾個預測器組成,其整體框架如下圖所示。作者選擇雙向LSTM (Bi-LSTM)作為句子編碼器,它將一個輸入的問題編碼為一個向量。在一個句子中,不同的詞對句子的表現有不同的重要性,因此,作者將注意機制整合到Bi-LSTM中來學習更好的句子表示。
形式上,對于輸入的問題 Q={q1,...,q2}, 然后將預訓練好的 q1,...q_|Q| 得詞向量輸入Bi-LSTM,其中d為詞向量的維數,得到了兩個隱藏方向狀態的序列:
然后將雙向隱藏狀態連接,得到無方向隱藏狀態以及最后無方向性隱藏狀態加權和的句子表示。
其中αi作為注意力的權重:
接下來將輸入問題的句子向量v映射到詞向量空間中,使用點積計算每個單詞的置信分數:
其中sc_{w,word}表示w的置信分數,W_word 是權值矩陣,b_word 是偏置向量
預測器
預測器主要分為兩個通道,共有四種類型,其中內部通道有POS標簽預測器及語素預測器,外部通道有詞類預測器及義原預測器。
?????? 1、內部通道: POS標簽預測器
? 字典定義或人寫的對一個詞的描述通常能夠反映該詞相應意義的詞性標簽。作者認為,預測目標詞的詞性標簽可以緩解現有逆向詞典模型中返回詞性標簽與輸入查詢相矛盾的問題,所以作者將輸入問題v的句子向量傳遞給單層感知機,并將得到某個詞w對POS標簽的預測得分之和作為該詞在POS標簽預測器上的置信得分:
?? 其中記錄每個POS標簽的預測得分,為權值矩陣,為偏置向量,返回的POS標簽索引。
?????? 2、內部通道: 語素預測器
??? 大多數單詞是由一個以上語素組成的復合詞。詞語的語素與詞語的定義或描述之間存在著一種局部語義對應關系。逆向詞典通過輸入問題來預測目標詞的語素,從而獲取目標詞的組合信息,并補充了詞向量的上下文信息。作者設計了一個特殊的語素預測器,與POS標記預測器不同,它允許每個隱藏狀態直接參與語素預測,并進行最大池運算獲得最終的語素預測分數。具體來說,我們將每個無方向性隱藏狀態輸入到一個單層感知器中,得到局部語素預測分數,然后對所有局部語素預測分數進行最大池化,得到全局語素預測分數,最后得出語素預測器對某個詞w的置信度得分
?????? 3、外部通道: 詞類預測器
?????? 語義相關的詞盡管它們有緊密的詞向量,但是通常屬于不同的類別,如“car”和“road”。詞匯類別信息有助于從反向詞典的結果中剔除語義相關但不相似的詞?;诖俗髡咴O計了一個層次預測器來計算詞類的預測分數
?????? 具體地說,每個詞在詞的層次結構的每一層都屬于一個特定的范疇,所以計算各層的單詞類別預測得分,則某個詞w在詞類預測器上的最終置信度得分為其在各層類別預測得分的加權和:
?????? 4、外部通道: 義原預測器
?????? 在語言學中,義原是自然語言的最小語義單位,知網(HowNet)是目前世界上最著名的義原知識庫。它定義了大約2000個義原,并用它們手工注釋了10萬多個中文和英文單詞,被廣泛應用于各種自然語言處理任務。知網中詞語的義原標注既包括義原的層次結構,也包括義原與義原之間的關系。為簡單起見,我們為每個詞提取一組非結構化義原,在這種情況下,一個詞的義原可以看作是該詞的多個語義標簽。
作者發現,詞匯的義原與詞語的描述也存在著局部語義對應關系。因此,設計了一種與語素預測器相似的義原預測器。用S來表示所有義原的集合,Sw為單詞w的義原集合,將每個隱藏狀態傳遞給一個單層感知器來計算局部義原預測分數,通過最大池化得到最終的義原預測分數,最后從義原預測器得到單詞w的置信度得分。
多通道反向詞典模型
結合直接詞預測中的句子編碼器和間接特征預測中的預測器得到的置信度得分,得到多通道反向詞典模型中給定詞w的最終置信度得分:
其中 C = {pos, mor, cat,? sem} 是各個通道的輸出數據,λ_word 和 λ_c 為控制相應項相對權重的超參數。
實驗
作者將本文中的多通道反向詞典模型與其他反向詞典模型的性能和魯棒性進行比較,進行了詳細的定量分析和案例研究,來探討影響反求字典任務的因素,并展示了該模型的優點和缺點。實驗中的評價指標主要有三個:目標詞的中位排名(越低越好)、目標詞出現在top 1/10/100的準確率(越高越好)、目標詞排名的標準差(越低越好)。
上表展示了所有模型在三個測試集上的反詞典性能,其中“Mor”、“Cat”和“Sem”分別代表語素、詞類和義原預測器。從表中可以看出:
1、與除OneLook之外的所有基準方法相比,文中的多通道模型在無定義數據集和描述集上取得了顯著的性能提升,驗證了該模型在推廣到新的輸入問題上的絕對優勢。
2、當輸入問題是字典定義時,OneLook的性能顯著優于我們的模型。這個結果是預期的,因為輸入字典定義已經存儲在OneLook的數據庫中,即使簡單的文本匹配也可以輕松處理這種情況。但是,反向字典的輸入問題實際上不可能是精確的字典定義。在描述集上,多通道模型取得了比單視圖更好的整體性能。
3、MS-LSTM在可見定義集上表現良好,在描述集上表現較差,說明其泛化能力和實用價值有限。
4、通過各預測器加強的BiLSTM變體(+Mor、+Cat、+Sem)均優于BiLSTM。這些結果證明了在反向詞典任務中預測目標詞特征的有效性。與單通道模型相比,多通道模型的性能得到了進一步的提高,證明了特征融合的有效性,也驗證了多通道模型的有效性。
5、BOW表現優于RNN,然而BiLSTM遠遠超過BOW和RNN。這驗證了在神經網絡模型中進行雙向編碼的必要性,也表明了神經網絡的潛力。
此外作者還對進行了魯棒性方面的實驗,上圖為各模型分別對不同義項數量、詞頻和查詢長度這三個影響因素的實驗。
首先在義項數方面,所有模型的性能都隨著義項數的增加而下降,說明一詞多義是反向詞典任務中的難點。但多通道模型表現出了出色的魯棒性,即使在最具意義的詞語上,其性能也幾乎沒有下降;
其次在詞頻因素上,盡管最頻繁和最不頻繁的單詞都很難預測,但模型仍有著非凡的穩定性;
最后在查詢長度上,當輸入只有一個詞時,各個系統的性能都較差,是因為從輸入查詢中提取的信息非常有限,但模型仍在輸入超過兩個詞時的性能較為優越。
總結
在文章中,作者創新地提出了一個多通道反向詞典模型,該模型包含多個預測器來預測給定輸入查詢的目標詞的特征。實驗結果和分析表明,文章提出的模型達到了最先進的性能,并具有良好的魯棒性。
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - AAAI2020 | 多通道反向词典模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 通过文本到文本神经问题生成
- 下一篇: 阿里P8架构师谈:分布式架构设计12精讲