NLP领域近期有哪些值得读的开源论文?
在碎片化閱讀充斥眼球的時代,越來越少的人會去關注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區,查看更多最新論文推薦。
這是 PaperDaily 的第 133?篇文章@paperweekly 推薦
#Relation Extraction
本文是清華大學徐葳老師組和劉知遠老師組發表于 ACL 2019 的工作,論文在遠程監督與弱監督融合兩種技術之間搭建起了一座橋梁,既通過自動生成模式減輕了對領域專家在技能和工作量上的要求,又通過主動式的少量人工標注自動精煉高質量模式,從而賦能在新關系領域上的快速泛化。
此外,DIAG-NRE 不僅能有效抑制標簽噪聲,同時可以診斷不同關系類型上噪聲類型、嚴重程度等方面,進而直觀解釋了噪聲標簽因何而起,又是如何得到抑制。
論文詳細解讀:ACL 2019 | 面向遠程監督關系抽取的模式診斷技術
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3109
源碼鏈接
https://github.com/thunlp/DIAG-NRE
@tobiaslee 推薦
#Extractive Summarization
本文是 BERT 在摘要任務上的一次嘗試,主要關注抽取式的摘要。對于每個文檔中的句子,在句子之前設置一個 CLS,利用 BERT 的設置得到句子的表示,在此基礎之上判斷是否選取這個句子。進一步地,為了整合 Document-Level 的信息,再得到句子表示之后(即 CLS token),可以再做一次 self-attention 或者是過一層 RNN。此外,除了 BERT 原有的 Positional Encoding,文章為了區別句子(某些詞屬于某個句子),額外增加了一個 Segment Encoding,對句子進行交錯編碼。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3110
源碼鏈接
https://github.com/nlpyang/BertSum
@zhoujie 推薦
#Sentiment Classification
本文是一篇綜述,對目前基于深度學習的 Aspect-level Sentiment Classification 進行了概括總結,對當前各種方法進行了分類。該論文整理了關于 Aspect-level Sentiment Classification 的目前比較常用的數據集,并提供了統一下載的地方。該論文對比了目前比較經典的 state-of-the-art 的模型,并在 5 個數據集上進行實驗看模型效果。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3081
源碼鏈接
https://github.com/12190143/Deep-Learning-for-Aspect-Level-Sentiment-Classification-Baselines
@IndexFziQ 推薦
#Commonsense Reasoning
本文是 Allen 實驗室發表在 ACL2019 的一篇關于自動常識知識庫構建的文章。作者提出了Commonsense Transformers (COMET) 生成模型,主體框架是 Transformer 語言模型,在 ATOMIC 和 ConceptNet 知識種子訓練集上訓練,自動構建常識知識庫。COMET與許多使用規范模板存儲知識的傳統知識庫相反,常識知識庫僅存儲松散結構的開放式知識描述。
實證結果表明,COMET 能夠產生新的人類評價為高質量的知識,高達 77.5%(ATOMIC)和 91.7%(ConceptNet)精度。使用常識生成模型 COMET 進行自動構建常識知識庫也許就會成為知識抽取的合理替代方案。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3100
源碼鏈接
https://github.com/atcbosselut/comet-commonsense
@vertigo?推薦
#Sentence Representation
本文是杜克大學發表于 ACL 2019 的工作。文章動機在于學習更加 compact 的 general-purpose sentence representations,以便于將其運用到移動設備上(內存較小,運算能力有限)。作者提出了學習 binary 的 sentence embeddings,即句子向量的每一維是 0 或者 1,這樣降低了儲存 sentence embeddings 的內存,也加快了比較句子相似度的計算量(只需要計算 hamming distance)。
作者試驗了一系列從 continous(real-valued)的句子向量 infer 出 binary 句子向量的辦法。其中,autoencoder 加上一種 semantic-preserving loss 得到了很好的結果——在 10 個 downstream tasks 上,binary representations 達到了和 continous representations 很接近的結果。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3115
源碼鏈接
https://github.com/Linear95/BinarySentEmb
@tobiaslee 推薦
#Text Style Transfer
本文是騰訊微信 AI 和北大計算語言所發表在 ACL 2019 上的論文,關注的是無監督的文本風格轉換任務。已有工作往往基于分步走的策略:先從文本中分離出內容,再通過一個風格融合模塊來進行目標風格文本的生成,而這種策略無法捕獲內容和風格之間的隱式關聯,容易造成內容缺失等問題。
為了解決這個問題,作者基于 Dual RL 框架,分別學習了兩個 seq2seq 模型,一個負責將源輸入轉換為目標風格輸出,另一個恰好相反,這樣就能直接完成輸入到輸出的轉換而不需要分步走。reward 是調和平均風格獎賞(分類器判定為目標風格的概率)和內容獎賞(通過生成的文本重構原文本的概率),訓練的時候交替更新兩個 seq2seq 直到收斂。
另外,為了解決強化學習在生成過程中容易遇到的兩個問題:需要預訓練和在 RL 過程中語言模型容易崩壞,作者通過基于模板的方法來構建偽并行語料集來完成預訓練,并且提出了 Annealing Pseudo Teacher-Forcing 來緩解后一問題。
實驗部分,文章提出的模型在 YELP (情感極性轉換)和 GYAFC (formality transfer)都取得了最佳的性能,并且發現 RL 方法對于風格遷移的準確度有所提升,但是在流暢程度上相比 MLE 有所欠缺。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3060
源碼鏈接
https://github.com/luofuli/DualLanST
@paperweekly 推薦
#Sentence Representation
本文是清華大學和華為諾亞方舟實驗室發表于 ACL 2019 的工作,論文提出將知識圖譜的信息加入到模型的訓練中,這樣模型就可以從大規模的文本語料和先驗知識豐富的知識圖譜中學習到字、詞、句以及知識表示等內容,從而有助于其解決更加復雜、更加抽象的自然語言處理問題。實驗表明,本文模型在多項 NLP 任務上的表現超越 BERT。
論文詳細解讀:ACL 2019 | 基于知識增強的語言表示模型,多項NLP任務表現超越BERT
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3057
源碼鏈接
https://github.com/thunlp/ERNIE
@O3oBigFace?推薦
#Multimodal Sentiment Analysis
本文是清華大學和 CMU 發表于 AAAI 2019 的工作。論文研究的內容是非文本的多模態數據對文本的情感極性的影響。在日常生活中,除了說話內容,說話時的語調、面部表情、手勢等等音頻-視覺信息也是影響情感表達的重要部分。單純利用文本詞嵌入進行情感識別,會忽略掉重要的多模態信息。
本文提出了一個多模態情感分析模型,能夠根據音頻-視覺的多模態信息來動態地調整詞嵌入的情感極性。首先,模型根據文本中的每一個單詞切分出對應的音頻和視頻片段,并利用 LSTM 分別對音頻-視覺信息進行特征提取。然后,上一步抽取出的特征流入門控模態混合網絡,該網絡利用原始單詞的詞向量,以跨模態注意力的方式,來計算非文本特征的調整值。最后,加權合并原始詞向量和對應的調整值,得到最終的多模態調整的詞向量。
該模型使用了多模態融合機制(門控注意力)來融合不同模態之間的相關特征(視頻-文本、音頻-文本),最后用加權和的方式對文本特征進行調整;使用了多模態表示實現了文本與非文本特征的聯合表示。結果比得上現有的情感分析模型,可能存在的問題:時間成本有點高、多模態注意力的實現方式有待商榷。
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/2980
源碼鏈接
https://github.com/victorywys/RAVEN
@paperweekly 推薦
#Natural Language Sentence Matching
本文是騰訊、哈工大和 IBM 發表于 ACL 2019 的工作。在本文中,作者調研了六個 NLSM 數據集,發現這些數據集中廣泛地存在一種樣本選擇偏差,以致于只使用三種和語義完全無關的特征,就可以在一些數據集上達到和 LSTM 差不多的準確率,針對這種偏差,作者提出了一種不需要任何額外資源的去偏訓練、評估方法,實驗證明本文方法能提升模型的真實泛化能力并提供更可靠的評估結果。
論文詳細解讀:ACL 2019開源論文 | 句對匹配任務中的樣本選擇偏差與去偏方法
▲?論文模型:點擊查看大圖
論文鏈接
https://www.paperweekly.site/papers/3113
源碼鏈接
https://github.com/arthua196/Leakage-Neutral-Learning-for-QuoraQP
@tobiaslee 推薦
#Story Ending Generation
本文是 UW 的 Yejin Choi 組的工作,核心的一個想法是數據集應該和模型一起進化。SWAG 是 18 年提出的一個推理數據集(給定上文,判斷一個句子是否是對應的結尾),人類能夠達到 88% 的準確率,BERT之前的 state-of-the-art 是 60% 不到,而 BERT 則能達到 86% 的準確率。
那么為什么 BERT 效果這么好?實驗證明,BERT 并不具備很強的常識推理能力,而是通過 fine-tune 階段習得的數據分布的歸納偏好(dataset-specific distribution biases),實現了接近人類的性能。
下一個問題就是,如何難倒 BERT 呢?解鈴還須系鈴人,文章使用 adversarial filtering 技術,隨機將數據集分成訓練集和測試集,然后在訓練集上訓練分類器,利用 Pre-train Language Model 來生成假的 candidate,并且不斷替換能夠被分類器輕松識別的候選句子,直到在這些具有對抗性的候選答案上的準確率收斂為止,從而構建出一個即使是 BERT 也無法輕松正確判斷的數據集。
文章一個有意思的是對 BERT 在 SWAG 取得較好性能的探究,首先是對 fine-tune 數據集的 size 做了探究,發現只要十幾個樣本 BERT 就能達到 76% 的準確率,當然這并不能得出是來對 data set 的 fit 所致。
為此,文章還做了一個實驗,發現即使是不給上文,也能達到 75% 的準確率,說明 fit 故事結尾就能夠學習到很多的 bias,此外,即使是打亂結尾的句子詞序,帶來的性能降低也不足 10%,因此得出了 BERT 在 SWAG 上的出色表現來自于對于 surface 的學習,學習到合理結尾的某些 realization pattern 的結論。
▲ ?論文模型:點擊查看大圖論文鏈接
https://www.paperweekly.site/papers/3112
源碼鏈接
https://github.com/rowanz/hellaswag
#推 薦 有 禮#
本期所有入選論文的推薦人
均將獲得PaperWeekly紀念周邊一份
▲?深度學習主題行李牌/卡套 + 防水貼紙
?禮物領取方式?
推薦人請根據論文詳情頁底部留言
添加小助手領取禮物
*每位用戶僅限領取一次
想要贏取以上周邊好禮?
點擊閱讀原文即刻推薦論文吧!
點擊以下標題查看往期推薦:?
??開學綜合癥有救了!17篇最新AI論文不容錯過
??NLP、CV、ML方向最新論文清單
??本周值得讀的15篇AI論文,還有源碼搭配服用
??近期我們在讀的那些優質論文,你不了解下?
??近期必讀的12篇「推薦系統」相關論文
??知識圖譜合輯:從NeurIPS 2018到AAAI 2019
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取更多論文推薦
總結
以上是生活随笔為你收集整理的NLP领域近期有哪些值得读的开源论文?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI未来说 | 听大牛论自动驾驶领域干货
- 下一篇: CVPR 2019开源论文 | Rob-