ICLR 2021投稿中值得一读的NLP相关论文
我們從?ICLR 2021開放投稿的3000篇論文中,粗略篩選了近100篇與自然語言處理領域中也許值得一讀的論文,供大家查閱。
理論、模型與經驗性分析:38篇
問答與閱讀理解:4篇
知識圖譜:4篇
文本生成:9篇
機器翻譯:7篇
對抗攻擊:4篇
文本分類:2篇
信息抽取:4篇
可解釋性:1篇
模型壓縮與集成:4篇
數據增強:2篇
向量表示:12篇
其他:5篇
注,由于論文過多,故直接使用谷歌翻譯機翻了論文部分摘要作為文章主旨的參考(結果表明,NMT仍然有極大發展空間),對于過于離譜的翻譯轉為人工校對。之后我們會陸續選取部分文章進行詳細介紹,其中的不便還望讀者諒解。
理論、模型與經驗性分析
論文標題:Isotropy in the Contextual Embedding Space: Clusters and Manifolds
論文鏈接:https://openreview.net/forum?id=xYGNO86OWDH
論文摘要:近年來,諸如BERT和ERNIE的深度語言模型的上下文嵌入空間的幾何特性引起了相當大的關注。對上下文嵌入的研究表明,強烈的各向異性空間使得大多數矢量都落在一個狹窄的圓錐體中,從而導致較高的余弦相似度。在本文中,我們認為從不同但更具建設性的角度來看,各向同性確實存在于空間中。我們在上下文嵌入空間中識別孤立的簇和低維流形,并介紹工具進行定性和定量分析。
論文標題:Hopfield Networks is All You Need
論文鏈接:https://openreview.net/forum?id=tL89RnzIiCd
論文摘要:我們介紹了具有連續狀態和相應更新規則的現代Hopfield網絡。新的Hopfield網絡可以按指數形式(按維度)存儲許多模式,一次更新即可收斂,并且檢索誤差呈指數形式。
論文標題:VECO: Variable Encoder-Decoder Pretraining for Cross-Lingual Understanding and Generation
論文鏈接:https://openreview.net/forum?id=YjNv-hzM8BE
論文摘要:本文提出可變的編碼器-解碼器預訓練方法,將Transformer的三個主要模塊分開,對不同的預訓練任務加以組合,然后再對下游任務微調。不但可以節約參數,還能取得較好的效果。
論文標題:AlgebraNets
論文鏈接:https://openreview.net/forum?id=guEuB3FPcd
論文摘要:常規的神經網絡由實值加權和激活以及實值算子組成。我們提出了AlgebraNets,這是一種一般范式,可以用其他方式從其他關聯代數中替換權重和運算符來代替實際價值權重和運算符。
論文標題:EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets
論文鏈接:https://openreview.net/forum?id=I-VfjSBzi36
論文摘要:在本文中,我們提出了EarlyBERT,這是用于大規模語言模型預訓練和微調的有效訓練框架。EarlyBERT會在早期階段識別結構化的中獎彩票,然后使用經過修剪的網絡進行有效訓練。
論文標題:Variational Information Bottleneck for Effective Low-Resource Fine-Tuning
論文鏈接:https://openreview.net/forum?id=kvhzKz-_DMF
論文摘要:我們建議在對低資源目標任務進行微調時使用變分信息瓶頸(VIB)來抑制不相關的功能,并表明我們的方法成功地減少了過擬合。此外,我們表明,我們的VIB模型發現的句子表示形式對自然語言推理數據集中的偏倚更為魯棒,從而獲得了對域外數據集的更好概括。
論文標題:Transformers are Deep Infinite-Dimensional Non-Mercer Binary Kernel Machines
論文鏈接:https://openreview.net/forum?id=AVKFuhH1Fo4
論文摘要:在本文中,我們提出了一個新的視角,以了解Transformer的工作方式。尤其是,我們證明了可以將Transformer操作的核心點積注意力描述為一對Banach空間上的核學習方法。特別是,Transformer的內核具有無限的特征尺寸。在此過程中,我們將標準內核學習問題概括為所謂的“二進制”內核學習問題,其中數據來自兩個輸入域,并且為每個跨域對定義了一個響應。
論文標題:Pretrain Knowledge-Aware Language Models
論文鏈接:https://openreview.net/forum?id=OAdGsaptOXy
論文摘要:在本文中,我們將知識意識納入語言模型預訓練中,而無需更改Transformer架構,插入明確的知識層或添加語義信息的外部存儲。相反,我們只是通過實體擴展的標記器在預訓練中向Transformer的輸入簡單地表示實體的存在。在輸出處,還有一個額外的實體預測任務。
論文標題:Structured Prediction as Translation between Augmented Natural Languages
論文鏈接:https://openreview.net/forum?id=US-TP-xnXI
論文摘要:我們提出了一個新的框架,即增強自然語言之間的翻譯(TANL),以解決許多結構化預測語言任務,包括聯合實體和關系提取,嵌套命名實體識別,關系分類,語義角色標簽,事件提取,共指解析和對話狀態跟蹤。
論文標題:Information-theoretic Vocabularization via Optimal Transport
論文鏈接:https://openreview.net/forum?id=1fLunL_hDj_
論文摘要:我們發現信息理論功能與NLP任務(例如具有給定詞匯的機器翻譯)的性能之間存在令人興奮的關系。通過這種觀察,我們將找到具有適當大小的最佳令牌詞典作為最佳傳輸問題。然后,我們提出info-VOT,這是一種簡單有效的解決方案,無需對下游任務進行全面且昂貴的試用訓練。
論文標題:Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning
論文鏈接:https://openreview.net/forum?id=n1HD8M6WGn
論文摘要:在本文中,我們的主要貢獻是進一步了解EncoderFusion。我們發現編碼器嵌入層比其他中間編碼器層更重要。此外,最上層的解碼器層始終在NLP任務中更加關注編碼器嵌入層。基于此觀察,我們通過僅融合softmax層的編碼器嵌入層,提出了一種簡單的融合方法SurfaceFusion。
論文標題:On Position Embeddings in BERT
論文鏈接:https://openreview.net/forum?id=onxoVA9FxMw
論文摘要:我們提出了在向量空間中捕獲單詞距離的PE的三個預期特性:平移不變性,單調性和對稱性。這些屬性可以正式捕獲PE的行為,并允許我們以有原則的方式重新解釋正弦PE。對七個PE(及其組合)進行分類和跨度預測的經驗評估表明,可完全學習的絕對PE在分類中表現更好,而相對PE在跨度預測中表現更好。
論文標題:MVP-BERT: Redesigning Vocabularies for Chinese BERT and Multi-Vocab Pretraining
論文鏈接:https://openreview.net/forum?id=sxZvLS2ZPfH
論文摘要:我們首先提出一種新穎的方法,借助中文分詞(CWS)和子詞標記化來形成中文BERT的詞匯。然后,我們提出了三種版本的多詞匯量預訓練(MVP),以提高模型的表達能力。
論文標題:Progressively Stacking 2.0: A multi-stage layerwise training method for BERT training speedup
論文鏈接:https://openreview.net/forum?id=2LiGI26kRdt
論文摘要:我們提出了一種有效的多階段分層訓練(MSLT)方法,以減少BERT的訓練時間。我們將整個訓練過程分解為幾個階段。訓練從只有幾個編碼器層的小模型開始,然后我們通過添加新的編碼器層來逐漸增加模型的深度。在每個階段,我們只訓練最頂層(在輸出層附近)幾個新添加的編碼器層。該方法可以大大減少訓練時間,而不會明顯降低性能。
論文標題:Length-Adaptive Transformer: Train Once with Length Drop, Use Anytime with Search
論文鏈接:https://openreview.net/forum?id=tqc8n6oHCtZ
論文摘要:我們訓練一個大型Transformer,稱為“長度自適應Transformer”,并將其用于各種推理場景而無需重新訓練。為此,我們使用LengthDrop訓練Transformer,它隨機確定每一層序列的長度。然后,我們使用多目標進化搜索來找到長度配置,該長度配置可在任何給定的計算預算下最大化準確性并最小化計算復雜性。
論文標題:On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and Strong Baselines
論文鏈接:https://openreview.net/forum?id=nzpLWnVAyah
論文摘要:確定了觀察到BERT微調不穩定的兩個潛在原因:災難性的遺忘和微調數據集的小規模。在本文中,我們證明了這兩種假設都無法解釋微調的不穩定性。我們分析了BERT,RoBERTa和ALBERT,并根據GLUE基準對常用數據集進行了微調,并表明觀察到的不穩定性是由導致梯度消失的優化困難引起的。此外,我們表明,下游任務性能的剩余差異可以歸因于泛化差異,其中具有相同訓練損失的微調模型表現出明顯不同的測試性能。
論文標題:Learning Better Structured Representations Using Low-rank Adaptive Label Smoothing
論文鏈接:https://openreview.net/forum?id=5NsEIflpbSv
論文摘要:我們提出了低階自適應標簽平滑(LORAS):一種簡單而新穎的方法,用于對學習的軟目標進行訓練,該方法可以概括標簽平滑并適應結構化預測任務中標簽空間的潛在結構。具體來說,我們評估了我們針對面向任務的語義解析任務的方法,并表明,與適當的普通標簽平滑相比,僅通過使用適當平滑的軟目標進行訓練,就可以將模型的準確性提高多達2%,并將校準錯誤減少55%平滑。
論文標題:Multi-Head Attention: Collaborate Instead of Concatenate
論文鏈接:https://openreview.net/forum?id=bK-rJMKrOsm
論文摘要:注意層廣泛用于自然語言處理(NLP)中,并開始影響計算機視覺體系結構。但是,它們遭受過度參數化的困擾。我們提出了一個協作的多頭關注層,該層使學習者能夠學習共享的預測。我們的方案減少了注意層中的參數數量,并且可以用作任何Transformer體系結構中的替代品。
論文標題:Sequence-Level Features: How GRU and LSTM Cells Capture N-grams
論文鏈接:https://openreview.net/forum?id=Au1gNqq4brw
論文摘要:現代的遞歸神經網絡(RNN),如門控遞歸單元(GRU)和長短期記憶(LSTM),已在涉及順序數據的實踐中證明了令人印象深刻的結果。我們提出了一項研究,通過數學擴展和展開隱藏狀態來理解GRU / LSTM單元捕獲的基本特征。具體而言,我們表明在某些溫和的假設下,Cell的基本成分將由類似于N-gram的序列級特征組成。基于這樣的發現,我們還發現,用近似的隱藏狀態表示替換標準單元并不一定會降低情感分析和語言建模任務的性能。
論文標題:You Only Sample (Almost) Once: Linear Cost Self-Attention Via Bernoulli Sampling
論文鏈接:https://openreview.net/forum?id=7K0UUL9y9lE
論文摘要:我們表明,基于局部敏感哈希(LSH)的伯努利抽樣注意機制,將二次復雜度降低為線性。我們通過將自我注意力視為與伯努利隨機變量相關聯的單個標記的總和來繞過二次成本,原則上可以通過單個散列一次對其進行采樣(盡管實際上,此數字可能是一個小常數)。這導致一種有效的抽樣方案來估計自我注意力,該方案依賴于LSH的特定修改(基于在GPU架構上部署的可行性)。我們在GLUE基準上以標準的512序列長度評估了我們提出的算法,并且我們的方法與標準的預訓練Transformer相比具有可比甚至更好的性能。為了評估我們的方法是否確實可以處理更長的序列,我們在長序列(4096)語言模型預訓練上進行了實驗,并獲得了一致的結果,作為標準的自我注意,同時觀察到了相當大的推理速度和內存節省。
論文標題:Representational correlates of hierarchical phrase structure in deep language models
論文鏈接:https://openreview.net/forum?id=mhEd8uOyNTI
論文摘要:盡管基于Transformer的體系結構的上下文表示為許多NLP任務設置了新的標準,但尚未完全了解其內部工作原理。特別是,尚不清楚這些表示法捕獲了句子級語法的哪些方面,也不清楚(如果有的話)它們是如何沿著網絡的堆疊層構建的。在本文中,我們旨在通過基于輸入擾動的通用類分析來解決此類問題。從計算和認知神經科學中引入表示不變性的概念,我們執行了一系列旨在測試Transformer表示對句子中幾種結構的敏感性的探針。每個探查都涉及交換句子中的單詞,并將被干擾的句子中的表示與原始表達進行比較。
論文標題:Why is Attention Not So Interpretable?
論文鏈接:https://openreview.net/forum?id=pQhnag-dIt
論文摘要:本文從因果效應估計的角度分析了為什么有時注意機制無法提供可解釋的結果,并提供了兩種方法來提高注意機制的可解釋性。
論文標題:Revisiting Few-sample BERT Fine-tuning
論文鏈接:https://openreview.net/forum?id=cO1IH43yUF
論文摘要:本文是對BERT上下文表示的微調研究,重點是在少數樣本情況下通常觀察到的不穩定性。我們確定了導致這種不穩定的幾個因素:帶有偏斜估計的非標準優化方法的普遍使用;BERT網絡的重要部分在下游任務中的適用性有限;以及使用預定的少量訓練迭代的普遍做法。
論文標題:Later Span Adaptation for Language Understanding
論文鏈接:https://openreview.net/forum?id=HMEiDPTOTmY
論文摘要:我們提出了一種新穎的方法,該方法將跨度信息組合到微調階段的PrLM生成的表示中,以提供更好的靈活性。這樣,跨度級別文本的建模過程可以更適應于不同的下游任務。詳細地說,我們根據預采樣字典生成的分段將句子分為幾個跨度。基于PrLM提供的子令牌級別表示,我們增強了每個跨度中令牌之間的連接,并獲得具有增強的跨度級別信息的表示。
論文標題:DeLighT: Deep and Light-weight Transformer
論文鏈接:https://openreview.net/forum?id=ujmgfuxSLrO
論文摘要:本文提出DeLight,一種輕巧的深度Transformer,可在標準機器翻譯和語言建模任務中將參數降低或降低2至3倍,從而達到或提高基準Transformer的性能。
論文標題:Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking
論文鏈接:https://openreview.net/forum?id=WznmQa42ZAx
論文摘要:我們介紹了一種事后方法來解釋GNN的預測,該方法可以識別不必要的邊。給定訓練的GNN模型,我們將學習一個簡單的分類器,該分類器可針對每一層的每個邊預測是否可以丟棄該邊。
論文標題:Adaptive Self-training for Neural Sequence Labeling with Few Labels
論文鏈接:https://openreview.net/forum?id=ARFshOO1Iu
論文摘要:我們開發了自訓練和元學習技術來解決神經序列標簽模型的標簽稀缺性挑戰。自我訓練是從大量未標記數據中學習的有效機制,而元學習可幫助對樣本進行自適應加權,從而減輕了嘈雜的偽標記的錯誤傳播。
論文標題:Random Feature Attention
論文鏈接:https://openreview.net/forum?id=QtTKTdVrFBB
論文摘要:我們提出了一種基于隨機特征的注意力,該注意力在序列長度上線性擴展,并且在語言建模和機器翻譯方面與強大的Transformer基線相當。
論文標題:Learning to Disentangle Textual Representations and Attributes via Mutual Information
論文鏈接:https://openreview.net/forum?id=qJIvFn8sOs
論文摘要:我們調查了學習通過相互信息最小化來解開文本表示形式和屬性的問題,并將其應用于公平分類和句子生成。
論文標題:Synthesizer: Rethinking Self-Attention for Transformer Models
論文鏈接:https://openreview.net/forum?id=H-SPvQtMwm
論文摘要:我們提出合成注意力矩陣,并實現簡單,高效和有競爭力的表現。
論文標題:The Lipschitz Constant of Self-Attention
論文鏈接:https://openreview.net/forum?id=DHSNrGhAY7W
論文摘要:理論研究表明,標準點積的自注意力不是Lipschitz,并且提供了基于L2距離的Lipschitz的自我注意的替代表達。
論文標題:K-Adapter: Infusing Knowledge into Pre-Trained Models with Adapters
論文鏈接:https://openreview.net/forum?id=CLnj31GZ4cI
論文摘要:我們提出K-Adapter,它保持了預先訓練模型的原始參數不變,并支持持續的知識注入。以RoBERTa為預訓練模型,K-Adapter具有用于每種注入的知識的神經適配器,在不同的適配器之間沒有信息流,因此以分布式方式有效地訓練了不同的適配器。
論文標題:Rethinking Positional Encoding in Language Pre-training
論文鏈接:https://openreview.net/forum?id=09-528y2Fgf
論文摘要:在這項工作中,我們研究了語言預訓練中使用的位置編碼方法(例如BERT),并確定了現有公式中的幾個問題。我們提出了一種新的位置編碼方法,TUPE。在自我注意模塊中,TUPE使用不同的參數化分別計算單詞上下文相關性和位置相關性,然后將它們加在一起。
論文標題:Rethinking Attention with Performers
論文鏈接:https://openreview.net/forum?id=Ua6zuk0WRH
論文摘要:我們介紹了Performer,僅使用線性(而不是二次)空間和時間復雜度,而無需依賴于諸如稀疏性或低等級的先驗條件。為了近似softmax注意力內核,Performer使用一種新穎的通過正正交隨機特征方法(FAVOR +)實現的快速注意力,它對于可擴展內核方法可能是獨立關注的。
論文標題:Efficiently labelling sequences using semi-supervised active learning
論文鏈接:https://openreview.net/forum?id=BHBb-QVVkNS
論文摘要:我們提出一種使用主動學習的序列標記方法,該方法結合了標記和未標記的數據。我們以半監督的方式訓練具有深層非線性潛力的局部上下文條件隨機場,將未標記句子的缺失標記視為潛在變量。
論文標題:Taking Notes on the Fly Helps Language Pre-Training
論文鏈接:https://openreview.net/forum?id=lU5Rs_wCweN
論文摘要:我們采用“動態記錄”(TNF),它會在預訓練期間即時記錄稀有單詞,以幫助模型在下次出現時理解它們。具體而言,TNF會維護注釋詞典,并在句子中出現稀有單詞時將稀有單詞的上下文信息保存為注釋。當在訓練過程中再次出現相同的稀有單詞時,可以使用事先保存的筆記信息來增強當前句子的語義。
論文標題:Reservoir Transformers
論文鏈接:https://openreview.net/forum?id=5FRJWsiLRmA
論文摘要:我們證明,即使某些層被隨機初始化并且從未更新,Transformer也能獲得令人印象深刻的性能。
論文標題:Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning in NLP Using Fewer Parameters & Less Data
論文鏈接:https://openreview.net/forum?id=de11dbHzAMF
論文摘要:我們提出了一種基于Transformer的新型體系結構,該體系結構由新的條件注意機制以及一組有助于權重分配的任務條件模塊組成。通過這種構造,我們可以通過保持固定的預訓練模型權重的一半固定來實現更有效的參數共享并減輕遺忘。我們還使用一種新的多任務數據采樣策略來減輕跨任務數據不平衡的負面影響。
問答與閱讀理解
論文標題:Is Retriever Merely an Approximator of Reader?
論文鏈接:https://openreview.net/forum?id=dvXFpV6boX
論文摘要:開放域問答(QA)的最新技術依賴于有效的檢索器,該檢索器可大大減少昂貴閱讀器的搜索空間。在社區中,一個相當被忽視的問題是檢索者和讀者之間的關系,特別是如果檢索者的全部目的僅僅是讀者的快速近似。我們的經驗證據表明答案是否定的,即使僅在準確性方面,閱讀器和檢索器也是互補的。
論文標題:Cluster-Former: Clustering-based Sparse Transformer for Question Answering
論文鏈接:https://openreview.net/forum?id=VyENEGiEYAQ
論文摘要:在本文中,我們提出了Cluster-Former,這是一種新穎的基于聚類的稀疏Transformer,可在分塊序列之間進行關注。所提出的框架集中在兩種獨特的Transformer層類型上:滑動窗口層和Cluster-Former層,它們共同并迭代地編碼局部序列信息和全局上下文。這種新設計允許在本地窗口之外進行信息集成,這對于依賴于遠程依賴關系的問答(QA)任務特別有用。
論文標題:Open Question Answering over Tables and Text
論文鏈接:https://openreview.net/forum?id=MmCRswl1UYl
論文摘要:我們提出了通過網絡表格和文本回答開放域問題的新任務,并設計了新技術:1)融合檢索2)跨塊閱讀器,以解決新任務帶來的挑戰。
論文標題:Uncertainty-Based Adaptive Learning for Reading Comprehension
論文鏈接:https://openreview.net/forum?id=s4D2nnwCcM
論文摘要:我們提出了一種用于閱讀理解的基于不確定性的自適應學習算法,該算法將數據注釋和模型更新交織在一起,以減輕標簽的需求。
知識圖譜
論文標題:Learning Contextualized Knowledge Graph Structures for Commonsense Reasoning
論文鏈接:https://openreview.net/forum?id=lJuOUWlAC8i
論文摘要:在本文中,我們提出了一種新的神經符號方法,稱為混合圖網絡(HGN),該方法可聯合生成新三元組的特征表示(作為對KG中現有邊緣的補充),確定三元組與推理環境的相關性,并學習用于對關系信息進行編碼的圖形模型參數。我們的方法通過過濾對推理過程無用的邊來學習緊湊的圖結構(包含檢索的邊和生成的邊)。
論文標題:Language Models are Open Knowledge Graphs
論文鏈接:https://openreview.net/forum?id=aRTRjVPkm-
論文摘要:本文介紹了由預先訓練的語言模型(例如BERT,GPT-2)構建的知識圖(KGs),無需人工監督。在本文中,我們提出了一種無監督的方法來將語言模型中的學習知識作為KG進行回憶。
論文標題:Interpreting Knowledge Graph Relation Representation from Word Embeddings
論文鏈接:https://openreview.net/forum?id=gLWj29369lW
論文摘要:基于對詞嵌入的最新理論理解,我們將知識圖關系分為三種類型,每種類型都推導了它們表示的明確要求。我們表明,關系表示的經驗性質和領先的知識圖表示方法的相對性能通過我們的分析是合理的。
論文標題:QuatRE: Relation-Aware Quaternions for Knowledge Graph Embeddings
論文鏈接:https://openreview.net/forum?id=hga0T0Qcli5
論文摘要:我們提出了一種有效的嵌入模型QuatRE,以學習知識圖中實體和關系的四元數嵌入。QuatRE的目的是在四元數空間內具有漢密爾頓積的關系下增強頭和尾實體之間的相關性。QuatRE通過進一步將每個關系與兩個關系感知的四元數向量(分別用于旋轉頭和尾實體的四元數嵌入)相關聯來實現此目標。
論文標題:JAKET: Joint Pre-training of Knowledge Graph and Language Understanding
論文鏈接:https://openreview.net/forum?id=SOVSJZ9PTO7
論文摘要:一個聯合的預訓練框架,可以同時對知識圖和文本進行建模,并且可以在微調期間輕松適應新領域中看不見的知識圖。
文本生成
論文標題:CoCon: A Self-Supervised Approach for Controlled Text Generation
論文鏈接:https://openreview.net/forum?id=VD_ozqvBy4W
論文摘要:我們使用Content-Conditioner(CoCon)來以細粒度級別控制具有內容輸入的LM的輸出文本。在我們的自我監督方法中,CoCon塊學習通過以LM保留的內容輸入為條件來幫助LM完成部分可觀察的文本序列。
論文標題:GeDi: Generative Discriminator Guided Sequence Generation
論文鏈接:https://openreview.net/forum?id=TJSOfuZEd1B
論文摘要:我們使用GeDi作為將較小的LM用作生成鑒別符的有效方法,以指導大型LM的生成,使其更安全,更可控。GeDi通過對兩個類條件分布進行歸一化,通過貝葉斯規則計算所有可能的下一個標記的分類概率,從而指導每一步的生成;一個以期望的屬性或控制代碼為條件,而另一個以不期望的屬性或反控制代碼為條件。
論文標題:A Distributional Approach to Controlled Text Generation
論文鏈接:https://openreview.net/forum?id=jWkw45-9AbL
論文摘要:我們提出了一種分布式方法來解決從預訓練的語言模型(LM)生成受控文本的問題。這種觀點允許在單個正式框架中定義目標LM的“逐點”約束和“分布”約束,同時將初始LM的KL差異最小化分配。然后,將最佳目標分布唯一確定為明確的EBM(基于能量的模型)表示。從最佳表示中,我們然后通過策略梯度的自適應分布變量訓練目標受控自回歸LM。
論文標題:Resurrecting Submodularity for Neural Text Generation
論文鏈接:https://openreview.net/forum?id=FVhZIBWqykk
論文摘要:我們定義了具有亞模塊功能的一類新穎的注意力機制,進而證明了有效神經覆蓋的亞模塊性。所得的注意模塊提供了一種體系結構簡單且憑經驗有效的方法,可改善神經文本生成的覆蓋范圍。
論文標題:Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation
論文鏈接:https://openreview.net/forum?id=JAlqRs9duhz
論文摘要:我們基于梯度分析提出了對MLE的簡單修改,并在不同任務中對Token級退化進行了重大改進。
論文標題:A Text GAN for Language Generation with Non-Autoregressive Generator
論文鏈接:https://openreview.net/forum?id=wOI9hqkvu_
論文摘要:我們提出了帶有非自回歸生成器的文本GAN,可以使用基于梯度的方法從頭開始對其進行有效訓練,并將其應用于需要潛在變量的文本生成應用程序。
論文標題:Pre-training Text-to-Text Transformers to Write and Reason with Concepts
論文鏈接:https://openreview.net/forum?id=3k20LAiHYL2
論文摘要:為了增強常識性的預訓練語言模型,我們提出了生成性和對比性目標,作為一般預訓練和下游特定任務的微調之間的中間自我監督式預訓練任務。我們還提出了一個聯合訓練框架,以統一生成目標和對比目標,從而使這些目標更加有效。
論文標題:TextSETTR: Label-Free Text Style Extraction and Tunable Targeted Restyling
論文鏈接:https://openreview.net/forum?id=T6RYeudzf1
論文摘要:我們提出了一種在完全沒有標簽的情況下訓練樣式轉移模型的技術,并顯示了生成的模型可以在測試時控制許多不同的樣式屬性(情感,方言,形式等)。
論文標題:Contrastive Learning with Adversarial Perturbations for Conditional Text Generation
論文鏈接:https://openreview.net/forum?id=Wga_hrCa3P3
論文摘要:我們通過將正對與負對進行對比來解決條件文本生成問題,從而使模型暴露于輸入的各種有效或不正確的擾動下,以提高通用性。我們通過還在輸入序列中添加較小的擾動以最小化其條件可能性來生成否定示例,并通過在施加較大的擾動的同時將其強制具有較高的條件可能性來生成正示例。
機器翻譯
論文標題:Learning to Use Future Information in Simultaneous Translation
論文鏈接:https://openreview.net/forum?id=YjXnezbeCwG
論文摘要:我們提出了一種同時翻譯的新方法,該方法由控制器(通過強化學習進行訓練)指導,可以自適應地利用將來的信息來提高翻譯質量。
論文標題:Self-supervised and Supervised Joint Training for Resource-rich Machine Translation
論文鏈接:https://openreview.net/forum?id=1yDrpckYHnN
論文摘要:自我監督的文本表示形式的預訓練已成功應用于低資源神經機器翻譯(NMT)。但是,它通常無法在資源豐富的NMT上獲得顯著收益。在本文中,我們提出了一種聯合訓練方法F2-XEnDec,以結合自我監督和監督學習來優化NMT模型。為了利用互補的自我監督信號進行監督學習,NMT模型在樣本上進行了訓練,這些樣本是通過一種稱為交叉編碼器/解碼器的新過程從單語和并行句子中雜交而來的。
論文標題:Hybrid-Regressive Neural Machine Translation
論文鏈接:https://openreview.net/forum?id=jYVY_piet7m
論文摘要:當使用小批量時,具有多次迭代的常規非自回歸翻譯不能加速解碼,因此我們提出了混合回歸翻譯(HRT)來解決此問題。
論文標題:Gradient Vaccine: Investigating and Improving Multi-task Optimization in Massively Multilingual Models
論文鏈接:https://openreview.net/forum?id=F1vEjWK-lH_
論文摘要:在本文中,我們嘗試通過損失函數幾何的形式窺視多語言優化的黑匣子。我們發現沿優化軌跡測得的梯度相似度是一個重要信號,不僅與語言接近度而且與整體模型性能都很好地相關。這樣的觀察有助于我們發現現有基于梯度的多任務學習方法的關鍵局限性,因此,我們得出了一個簡單且可擴展的優化程序,名為“梯度疫苗”,該方法鼓勵針對完成任務的幾何排列參數更新。
論文標題:Meta Back-Translation
論文鏈接:https://openreview.net/forum?id=3jjmdp7Hha
論文摘要:在本文中,我們提出了一種生成偽并行數據以進行反翻譯的新方法,該方法可直接優化最終模型的性能。具體來說,我們提出了一種元學習框架,其中反向翻譯模型學習將開發數據上的正向翻譯模型的梯度與偽并行數據上的梯度進行匹配。
論文標題:Nearest Neighbor Machine Translation
論文鏈接:https://openreview.net/forum?id=7wCBOfJ8hJM
論文摘要:我們使用最近的鄰居分類器擴展了經過預訓練的機器翻譯模型的解碼器,從而在沒有任何其他訓練的情況下,極大地提高了單語言對,多語言和領域自適應設置下的性能。
論文標題:Deep Encoder, Shallow Decoder: Reevaluating Non-autoregressive Machine Translation
論文鏈接:https://openreview.net/forum?id=KpfasTaLUpq
論文摘要:我們研究具有不同深度的編碼器和解碼器的自回歸模型。在給定足夠深的編碼器的情況下,單層自回歸解碼器可以以可比的推理速度大大勝過強大的非自回歸模型。我們表明,與非自回歸方法相比,自回歸基線的速度劣勢在三個方面被高估了:欠佳的層分配,速度測量不足和缺乏知識提煉。
對抗攻擊
論文標題:Grey-box Extraction of Natural Language Models
論文鏈接:https://openreview.net/forum?id=cotg54BSX8
論文摘要:在本文中,我們介紹了在灰盒設置中針對大規模自然語言模型的代數攻擊,其目標模型是經過預先訓練的(公共)編碼器,然后是單個(私有)分類層。我們的主要觀察結果是,一小組任意的嵌入向量很可能構成分類層輸入空間的基礎,而灰匣子對手可以計算輸入空間。
論文標題:InfoBERT: Improving Robustness of Language Models from An Information Theoretic Perspective
論文鏈接:https://openreview.net/forum?id=hpH98mK5Puk
論文摘要:我們提出了一種新穎的學習框架InfoBERT,用于從信息論的角度對預訓練語言模型進行魯棒的微調,并在NLI和QA任務的多個對抗性數據集上實現了最新的魯棒性。
論文標題:Towards Robustness Against Natural Language Word Substitutions
論文鏈接:https://openreview.net/forum?id=ks5nebunVn_
論文摘要:我們介紹了一種新穎的對抗性稀疏凸組合(ASCC)方法。我們將單詞替換攻擊空間建模為凸包,并利用正則化項對實際替換實施擾動,從而使我們的建模與離散文本空間更好地保持一致。基于ASCC方法,我們進一步提出了ASCC防御,該防御利用ASCC生成最壞情況的擾動并將對抗性訓練納入魯棒性。
論文標題:Better Fine-Tuning by Reducing Representational Collapse
論文鏈接:https://openreview.net/forum?id=OQ08SN70M1V
論文摘要:我們提出了一種對標準微調的輕量級增強功能,用參數噪聲(從正態分布或均勻分布采樣)替換了以前使用的對抗目標,從而在可能的情況下阻止了微調過程中的表示變化而不會損害性能。其性能優于整體方法,同時在計算上比其他微調方法廉價。
文本分類
論文標題:Neural Text Classification by Jointly Learning to Cluster and Align
論文鏈接:https://openreview.net/forum?id=PTG9NdIn3wt
論文摘要:分布文本聚類提供語義上有意義的表示,并捕獲每個單詞與語義聚類質心之間的相關性。我們通過潛在變量模型誘導聚類中心并與分布詞嵌入進行交互,從而將神經文本聚類方法擴展到文本分類任務,以豐富標記的表示并測量標記與每個可學習的聚類質心之間的相關性。
論文標題:Cluster & Tune: Enhance BERT Performance in Low Resource Text Classification
論文鏈接:https://openreview.net/forum?id=Oz_4sa7hKhl
論文摘要:我們建議在調優之前和對BERT進行預訓練之后添加一個無監督的中間分類步驟,并表明它可以提高數據受限情況下的性能。
信息抽取
論文標題:Counterfactual Thinking for Long-tailed Information Extraction
論文鏈接:https://openreview.net/forum?id=xYJpCgSZff
論文摘要:信息提取(IE)旨在從非結構化文本中提取結構化信息。但是,在實踐中,長尾數據不平衡可能會導致深度學習模型出現嚴重的偏差問題,這是因為用于尾類的訓練實例很少。為此,我們提出了一種基于語言結構和因果推理的新穎框架(名為Counterfactual-IE)三個關鍵成分。首先,通過將語法信息融合到各種主流的IE任務的結構化因果模型中,包括關系提取(RE),命名實體識別(NER)和事件檢測(ED),我們的方法能夠從不平衡的數據集。其次,基于事實語言結構生成反事實,以更好地計算推斷階段的直接影響。第三,我們提出了一種靈活的去偏方法,以便在推理階段進行更可靠的預測。
論文標題:Prototypical Representation Learning for Relation Extraction
論文鏈接:https://openreview.net/forum?id=aCgLmfhIy_f
論文摘要:本文旨在從文本數據中學習預測性,可解釋性和魯棒性的關系表示形式,這些表示形式在不同的情況下均有效,包括監督學習,遠程監督學習和few-shot學習。我們建議不要從上下文信息中推斷每個關系的潛在原型,而不是僅僅依靠標簽的監督,以最好地探索關系的內在語義。
論文標題:Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition
論文鏈接:https://openreview.net/forum?id=5jRVa89sZk
論文摘要:通過對綜合數據集進行的經驗研究,我們發現了性能下降的兩個原因。一種是減少帶注釋的實體,另一種是將未標記的實體視為否定實例。我們提出了一種通用方法,該方法能夠消除未標記實體帶來的誤導。核心思想是使用負采樣將未標記實體進行訓練的概率保持在非常低的水平。
論文標題:Segmenting Natural Language Sentences via Lexical Unit Analysis
論文鏈接:https://openreview.net/forum?id=PQlC91XxqK5
論文摘要:在這項工作中,我們提出了詞法單元分析(LUA),這是用于一般序列分割任務的框架。給定自然語言句子后,LUA會為所有有效的細分候選者評分,并利用動態編程(DP)來提取得分最高的一個。
可解釋性
論文標題:Unsupervised Discovery of Interpretable Latent Manipulations in Language VAEs
論文鏈接:https://openreview.net/forum?id=DGttsPh502x
論文摘要:在這項工作中,我們邁出了在語言潛在空間中無監督地解釋可理解方向的第一步。令人驚訝地,我們發現在訓練數據的VAE表示上運行PCA始終優于沿坐標和隨機方向的移動。這種方法簡單,可適應數據,不需要訓練,并且可以發現有意義的方向。
模型壓縮與集成
論文標題:MixKD: Towards Efficient Distillation of Large-scale Language Models
論文鏈接:https://openreview.net/forum?id=UFGEelJkLu5
論文摘要:我們使用數據混合蒸餾框架MixKD,該框架利用簡單而有效的數據擴充方法Mixup,為生成的模型賦予更強的泛化能力。具體而言,除了原始的訓練示例外,還鼓勵學生模型在示例對的線性插值上模仿老師的行為。我們從理論上證明,MixKD在泛化誤差和經驗誤差之間產生了較小的差距。
論文標題:Task-Agnostic and Adaptive-Size BERT Compression
論文鏈接:https://openreview.net/forum?id=wZ4yWvQ_g2y
論文摘要:我們提出了NAS-BERT,它利用神經結構搜索對自適應模型大小和跨下游任務的BERT壓縮。
論文標題:Knowledge Distillation based Ensemble Learning for Neural Machine Translation
論文鏈接:https://openreview.net/forum?id=dGF96IxczpW
論文摘要:我們為NMT提出了一種基于知識蒸餾的集成學習方法,可以將多個模型的知識匯總到一個模型中。
論文標題:Structural Knowledge Distillation
論文鏈接:https://openreview.net/forum?id=3Jldbtfqfa
論文摘要:在本文中,我們推導了用于結構化預測的知識蒸餾目標的因式分解形式,對于教師和學生模型的許多典型選擇而言,該形式易于處理。特別是,我們展示了在四種不同情況下,序列標簽和依賴關系解析模型之間的結構知識精煉的可操作性和經驗有效性:1)師生共享輸出結構評分函數的相同分解形式;2)與教師分解相比,學生分解產生的子結構更小;3)教師分解比學生分解產生的子結構小;4)教師和學生的因式分解形式不兼容。
數據增強
論文標題:CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for Natural Language Understanding
論文鏈接:https://openreview.net/forum?id=Ozk9MrX1hvA
論文摘要:在本文中,我們提出了一種名為CoDA的新型數據增強框架,該框架通過有機地整合多個轉換來合成各種信息豐富的增強示例。此外,引入了對比正則化以捕獲所有數據樣本之間的全局關系。
論文標題:XLA: A Robust Unsupervised Data Augmentation Framework for Cross-Lingual NLP
論文鏈接:https://openreview.net/forum?id=w5uur-ZwCXn
論文摘要:我們提出了XLA,這是一種在零資源轉移學習場景中用于自我監督學習的新穎數據增強框架。特別地,假設目標語言任務中沒有訓練標簽,XLA旨在解決從源語言任務分發到未知目標語言任務分發的跨語言適應問題。XLA的核心是通過數據增強和無監督樣本選擇來同時進行自我訓練。
向量表示
論文標題:Universal Sentence Representations Learning with Conditional Masked Language Model
論文鏈接:https://openreview.net/forum?id=WDVD4lUCTzU
論文摘要:本文提出了一種新的訓練方法,即條件屏蔽語言建模(CMLM),以有效地學習大規模未標記語料庫中的句子表示。CMLM通過以相鄰句子的編碼向量為條件,將句子表示學習整合到MLM訓練中。
論文標題:Rethinking Embedding Coupling in Pre-trained Language Models
論文鏈接:https://openreview.net/forum?id=xpFFI_NtgpW
論文摘要:我們在最新的預訓練語言模型中重新評估在輸入和輸出嵌入之間共享權重的標準做法。我們表明,解耦的嵌入提供了增加的建模靈活性,從而使我們能夠在多語言模型的輸入嵌入中顯著提高參數分配的效率。通過在Transformer層中重新分配輸入的嵌入參數,我們可以在微調期間以相同數量的參數在標準自然語言理解任務上獲得顯著更好的性能。我們還表明,為輸出嵌入分配額外的容量可以為模型提供好處,即使在預訓練后將輸出嵌入丟棄,該模型也可以在微調階段持續存在。
論文標題:Disentangling Representations of Text by Masking Transformers
論文鏈接:https://openreview.net/forum?id=Dmpi13JiqcX
論文摘要:我們探討了是否有可能通過識別預編碼模型中的子網來學習解糾纏的表示形式,這些模型對表示形式的不同互補方面進行編碼。具體來說,我們學習關于Transformer權重或隱藏單位的二進制掩碼,以發現與特定變化因子相關的特征子集。這回避了在特定領域內從頭開始訓練解開模型的需求。
論文標題:Polar Embedding
論文鏈接:https://openreview.net/forum?id=TLfjwEFI527
論文摘要:層次結構的有效表示對于開發智能系統至關重要,因為大多數現實世界中的對象都按層次結構排列。我們使用極坐標嵌入來學習極坐標系統的表示形式。在極坐標中,對象用兩個獨立變量表示:半徑和角度,這使我們可以根據層次結構中對象的普遍性和相似性的明確對應關系分別優化其值。此外,我們介紹了一種優化方法,該方法結合了控制梯度的損失函數和分布的迭代均勻化。
論文標題:Discrete Word Embedding for Logical Natural Language Understanding
論文鏈接:https://openreview.net/forum?id=4LHz4IFGLQ-
論文摘要:我們提出了一種無監督的神經模型,用于學習單詞的離散嵌入。與現有的離散嵌入不同,我們的二進制嵌入支持類似于連續嵌入的矢量算術運算。我們的嵌入將每個單詞表示為一組命題陳述,描述了經典/ STRIPS規劃形式主義中的過渡規則。這使得嵌入與符號化,最新的經典規劃求解器直接兼容。
論文標題:Filtered Inner Product Projection for Multilingual Embedding Alignment
論文鏈接:https://openreview.net/forum?id=A2gNouoXE7
論文摘要:在本文中,我們提出了一種將內部嵌入映射到公共表示空間的方法,即過濾內積投影(FIPP)。由于語義變化在語言和領域中無處不在,因此FIPP首先在兩個嵌入中標識出通用的幾何結構,然后僅在該通用結構上對齊這些嵌入的Gram矩陣。
論文標題:Anchor & Transform: Learning Sparse Embeddings for Large Vocabularies
論文鏈接:https://openreview.net/forum?id=Vd7lCMvtLqg
論文摘要:通過貝葉斯非參數解釋對大型詞匯的稀疏嵌入進行端到端學習,從而使嵌入表縮小多達40倍。
論文標題:Ruminating Word Representations with Random Noise Masking
論文鏈接:https://openreview.net/forum?id=pXi-zY262sE
論文摘要:我們介紹了一種更好的單詞表示和性能訓練方法,該方法是在訓練模型后,逐步地,反復地向詞嵌入中添加隨機噪聲和偏差,然后從頭開始重新訓練模型,但使用有噪聲的詞嵌入進行初始化。
論文標題:Neural Topic Model via Optimal Transport
論文鏈接:https://openreview.net/forum?id=Oos98K9Lv-k
論文摘要:本文提出了一種通過最佳傳輸的神經主題模型,該模型可以發現更連貫和多樣的主題,并為常規文本和短文本提供更好的文檔表示形式。
論文標題:Probing BERT in Hyperbolic Spaces
論文鏈接:https://openreview.net/forum?id=17VnwXYZyhH
論文摘要:這項工作提出了一系列幾何上特殊的空間,即雙曲空間,它們對層次結構表現出更好的歸納偏差,并且可能更好地揭示了在上下文表示中編碼的語言層次。我們引入Poincare probe,可將這些嵌入投射到具有明確定義的層次結構的Poincaré子空間中。
論文標題:Contrasting distinct structured views to learn sentence embeddings
論文鏈接:https://openreview.net/forum?id=ZlIfK1wCubc
論文摘要:我們提出了一種自我監督的方法,該方法可通過多種顯式句法結構的組合來構建句子嵌入。
論文標題:On Learning Universal Representations Across Languages
論文鏈接:https://openreview.net/forum?id=Uu1Nw-eeTxJ
論文摘要:在這項工作中,我們擴展了預訓練的語言模型,以學習多種語言之間的通用表示,并展示了對跨語言理解和生成的有效性。
其他
論文標題:Transformer protein language models are unsupervised structure learners
論文鏈接:https://openreview.net/forum?id=fylclEqgvgd
論文摘要:無監督的接觸預測對于揭示蛋白質結構確定和設計的物理,結構和功能限制至關重要。我們證明了Transformer注意圖是從無監督語言建模目標中學習聯系的。
論文標題:Token-Level Contrast for Video and Language Alignment
論文鏈接:https://openreview.net/forum?id=GRbZ91LKIya
論文摘要:建立視頻和語言理解模型需要將語言概念和視頻內容置于一個共享空間中。本文介紹了一種通過語法類(例如名詞和動詞)告知的簡單令牌級別的對比損失(ToCo),以迫使模型優先考慮具體的語義方位詞。ToCo不會掩蓋輸入,而是以對比方式為多模式對齊提供局部(上下文標記)和全局(詞法類型)壓力。
論文標題:Learning Chess Blindfolded
論文鏈接:https://openreview.net/forum?id=DGIXvEAJVd
論文摘要:我們提出了國際象棋語言建模的任務,以評估語言模型如何很好地捕獲世界(棋盤)狀態。國際象棋的簡單而精確的動態特性允許(a)訓練具有各種顯式狀態的模型,以及(b)在細粒度的水平上評估模型預測。
論文標題:Long Range Arena : A Benchmark for Efficient Transformers
論文鏈接:https://openreview.net/forum?id=qVyeW-grC2k
論文摘要:本文提出了一個系統且統一的基準,即“Long Range Arena”,專門用于評估在長上下文情況下的模型質量。我們的基準測試是一整套任務,由從1K到16K Token的一系列序列組成,涵蓋了廣泛的數據類型和形式,例如文本,自然,合成圖像以及需要相似,結構和視覺空間推理的數學表達式。
論文標題:BERTology Meets Biology: Interpreting Attention in Protein Language Models
論文鏈接:https://openreview.net/forum?id=YWtLZvLmud7
論文摘要:我們分析了蛋白質語言模型的內部表示,并更廣泛地介紹了分析基于注意力的模型的方法。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ICLR 2021投稿中值得一读的NLP相关论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 企新立交桥站到滦县的汽车末班几点?
- 下一篇: 二手车交易市场没有交强险可以买卖么?