生活随笔
收集整理的這篇文章主要介紹了
Enhanced LSTM for Natural Language Inference-学习笔记
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
Enhanced LSTM for Natural Language Inference
自然語言推理(NLI: natural language inference)問題:即判斷能否從一個(gè)前提p中推導(dǎo)出假設(shè)h,簡單來說,就是判斷給定兩個(gè)句子的三種關(guān)系:蘊(yùn)含、矛盾或無關(guān)。 論文中的自然語言推理網(wǎng)絡(luò)由以下部分組成:輸入編碼(Input Encoding ),局部推理模型(Local Inference Modeling ),和推理合成(inference composition)。 若有兩個(gè)句子a=(a1,...,ala) 和 b=(b1,...,blb), 其中a為前提,b為假設(shè)。ai和bj都是l維的向量,可以由提前訓(xùn)練好的詞向量進(jìn)行初始化,并且由分析樹(parse tree)進(jìn)行組織。 input encoding使用 BiLSTM 分別學(xué)習(xí)a 和 b 的詞與上下文信息,得到新的向量表示:隨后會(huì)用BiLSTM來進(jìn)行推斷的合成,從而進(jìn)行最后的預(yù)測。 BiLSTM是Bi-directional Long Short-Term Memory的縮寫,是由前向LSTM與后向LSTM組合而成。這兩個(gè)LSTM在每個(gè)時(shí)間步生成的隱藏狀態(tài)被連接一起,以表示這一時(shí)間步以及它的上下文。LSTM和BiLSTM在自然語言處理任務(wù)中都常被用來建模上下文信息。通過BiLSTM可以更好的捕捉雙向的語義依賴。(https://www.jiqizhixin.com/articles/2018-10-24-13) local inference modeling使用軟對齊的方法 (soft alignment or soft attention)。 treeLSTM: 語法樹的結(jié)構(gòu)幫助收集短語和從句之間的局部信息。(HIM才做,ESIM不做) Tai等人2015年提出了Tree-LSTM模型,將序列的LSTM模型擴(kuò)展到樹結(jié)構(gòu)上,即可以通過LSTM的忘記門機(jī)制,跳過(忘記)整棵對結(jié)果影響不大的子樹,而不僅僅是一些可能沒有語言學(xué)意義的子序列。 要想做局部推斷,必須要把兩個(gè)句子的子部分做一定程度的對齊(嚴(yán)格對齊或者軟對齊),這里是使用句子間對齊(inter-sentence attention)。 Attention機(jī)制的實(shí)質(zhì)其實(shí)就是一個(gè)尋址(addressing)的過程。注意力機(jī)制可以分為三步:一是信息輸入;二是計(jì)算注意力分布α;三是根據(jù)注意力分布α 來計(jì)算輸入信息的加權(quán)平均。 軟性注意力機(jī)制(soft Attention):注意力分布()可以解釋為在上下文查詢q時(shí),第i個(gè)信息受關(guān)注的程度,采用一種“軟性”的信息選擇機(jī)制對輸入信息X進(jìn)行編碼為:,軟性注意力機(jī)制有兩種:普通模式(Key=Value=X)和鍵值對模式(Key!=Value)。 硬性注意力有兩種實(shí)現(xiàn)方式:(1)一種是選取最高概率的輸入信息;(2)另一種硬性注意力可以通過在注意力分布式上隨機(jī)采樣的方式實(shí)現(xiàn)。 ESIM在inter-sentence attention,就是soft_align_attention,這一步中讓要比較的兩句話產(chǎn)生了交互。 使用torch.cat((A,B),dim)時(shí),除拼接維數(shù)dim數(shù)值可不同外其余維數(shù)數(shù)值需相同,方能對齊。
?
?
總結(jié)
以上是生活随笔 為你收集整理的Enhanced LSTM for Natural Language Inference-学习笔记 的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔 網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔 推薦給好友。