Word Embedding List|ACL 2020 词嵌入长文汇总及分类
ACL 2020 于 5 月 17 日放榜啦,在此祝賀、羨慕每一位論文被接收的朋友。以下匯總并嘗試按主題分類了 37 篇與 word embedding 有關的長文,讓我們一起看看今年詞嵌入的研究又有哪些新進展。
關于作者:張正,坐標巴黎,上班NLP,下班詞嵌入。
縱向分類
一千個人眼里有一千個分類方法。在此我從兩個維度做分類:
涉及語言數量:單語言;跨(多)語言。
詞嵌入類型:語境詞嵌入(contextualized word embedding);傳統詞嵌入(上下文無關,如word2vec,fastText,GloVe等)兩個子類。
當然還有一些文章目前找不到公開版本,我將其暫時分到“未分類”大類。等有更多信息時再修改。
橫向標簽
為了方便關于特定主題的搜索,每篇文章我也添加了#標簽:
#monolingual
#cross-lingual
#contextualized
#unsupervised
#BERT
#bias
#word-sense
#distillation
#overview
#mid-resource
#rare-word
#domain-adaptation
單語言(monolingual)語境詞嵌入(contextualized word embedding)
論文標題:A Monolingual Approach to Contextualized Word Embeddings for Mid-Resource Languages
關鍵詞:#monolingual #contextualized #mid-resource #cross-lingual
之所以加 cross-lingual 因為從 abstract 來看,作者在多個語種上進行了單語詞嵌入訓練,并最終和 multilingual BERT 做比較。
論文標題:Analysing Lexical Semantic Change with Contextualised Word Representations
關鍵詞:#monolingual #contextualized #word-sense
論文鏈接:https://arxiv.org/abs/2004.14118
在語境詞嵌入上做 clustering。
論文標題:Autoencoding Pixies: Amortised Variational Inference with Graph Convolutions for Functional Distributional Semantics
關鍵詞:#monolingual #contextualized
論文鏈接:https://arxiv.org/abs/2005.02991
Functional Distributional Semantics provides a linguistically interpretable framework for distributional semantics, by representing the meaning of a word as a function (a binary classifier), instead of a vector.
論文標題:BERTRAM: Improved Word Embeddings Have Big Impact on Contextualized Model Performance
關鍵詞:#monolingual #contextualized #rare-word #BERT
論文鏈接:https://arxiv.org/abs/1910.07181
如何訓練好罕見詞。
論文標題:CamemBERT: a Tasty French Language Model
關鍵詞:#monolingual #contextualized #BERT
論文鏈接:https://arxiv.org/abs/1911.03894
法國人的驕傲我向來理解不了。。。
論文標題:Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
關鍵詞:#monolingual #contextualized #BERT #domain-adaptation
論文鏈接:https://arxiv.org/abs/2004.10964
論文標題:Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning
關鍵詞:#monolingual #contextualized #BERT #unsupervised
論文鏈接:https://arxiv.org/abs/2004.08097
論文標題:FastBERT: a Self-distilling BERT with Adaptive Inference Time
關鍵詞:#monolingual #contextualized #BERT #distillation
論文鏈接:https://arxiv.org/pdf/2004.02178.pdf
蒸餾肯定是熱點,但我個人不是很懂,還得多學習。
論文標題:Improving Transformer Models by Reordering their Sublayers
關鍵詞:#monolingual #contextualized
論文鏈接:https://arxiv.org/abs/1911.03864
這篇我不確定是否應該歸到 word embedding 相關。但是當 Omer Levy 和 Noah A. Smith 聯手研究模型內部的時候,看了是絕不會吃虧的。
論文標題:Interpreting Pretrained Contextualized Representations via Reductions to Static Embeddings
關鍵詞:#monolingual #contextualized
雖然文章還沒公開,但我猜的話是 cluster+word sense。
論文標題:nvestigating Word-Class Distributions in Word Vector Spaces
這篇也是文章還沒出來,但我做跟上篇一樣的猜測。
論文標題:MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices
關鍵詞:#monolingual #contextualized #BERT #distillation
論文鏈接:https://arxiv.org/abs/2004.02984
有哪位好心人(非化學專業)可以給我講下蒸餾。
論文標題:Moving Down the Long Tail of Word Sense Disambiguation with Gloss Informed Bi-encoders
關鍵詞:#monolingual #contextualized #BERT #word-sense
論文鏈接:https://arxiv.org/abs/2005.02590
已經不知道是第多少次看到 clsuter,word sense 了。
論文標題:schuBERT: Optimizing Elements of BERT
關鍵詞:#monolingual #contextualized #BERT
論文鏈接:https://arxiv.org/abs/2005.06628
論文標題:SenseBERT: Driving Some Sense into BERT
關鍵詞:#monolingual #contextualized #BERT #word-sense
論文鏈接:https://arxiv.org/abs/1908.05646
cluster, word sense。。。
論文標題:Spying on your neighbors: Fine-grained probing of contextual embeddings for information about surrounding words
關鍵詞:#monolingual #contextualized #BERT
論文鏈接:https://arxiv.org/abs/2005.01810
乍一看標題,我還以為是某國總統的新推。
單語言(monolingual)傳統詞嵌入(word embedding)
論文標題:Double-Hard Debias: Tailoring Word Embeddings for Gender Bias Mitigation
關鍵詞:#monolingual #Bias
論文鏈接:https://arxiv.org/abs/2005.00965
基于 GloVe 訓練的 embedding。
論文標題:Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer
關鍵詞:#monolingual #bias #BERT
論文鏈接:https://arxiv.org/abs/2005.00699
既有 fastText 也有 mBERT。
論文標題:Multidirectional Associative Optimization of Function-Specific Word Representations
關鍵詞:#monolingual
論文鏈接:https://arxiv.org/abs/2005.05264
這篇比較獨特,不好歸類。如有錯誤請指正。
We present a neural framework for learning associations between interrelated groups of words such as the ones found in Subject-Verb-Object (SVO) structures.
論文標題:What are the Goals of Distributional Semantics?
關鍵詞:#monolingual
論文鏈接:https://arxiv.org/abs/2005.02982
從語言學的角度來做分析。
論文標題:When do Word Embeddings Accurately Reflect Surveys on our Beliefs About People?
關鍵詞:#monolingual #bias
論文鏈接:https://arxiv.org/abs/2004.12043
fastText, word2vec, GloVe,傳統詞嵌入三板斧。
跨語言(cross-lingual) 語境詞嵌入(contextualized word embedding)
論文標題:CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multiple Languages
關鍵詞:#cross-lingual #contextualized #BERT #word-sense
論文鏈接:https://www.researchgate.net/publication/341151563_CluBERT_A_Cluster-Based_Approach_for_Learning_Sense_Distributions_in_Multiple_Languages
用 cluster 解決 word sense 問題,列表里的第二篇,上一篇是單語言。
論文標題:Emerging Cross-lingual Structure in Pretrained Language Models
關鍵詞:#cross-lingual #contextualized #BERT
論文鏈接:https://arxiv.org/abs/1911.01464
mBERT,XLM。FAIR 的 Alexis Conneau 在跨語言詞嵌入上的研究值得一看。
論文標題:Finding Universal Grammatical Relations in Multilingual BERT
關鍵詞:#cross-lingual #contextualized #BERT
論文鏈接:https://arxiv.org/pdf/2005.04511.pdf
列表里的第三次 cluster。對了,這篇文章的通訊作者是 Manning 教授,必讀。
論文標題:On the Cross-lingual Transferability of Monolingual Representations
關鍵詞:#cross-lingual #contextualized #BERT #unsupervised
論文鏈接:https://arxiv.org/abs/1910.11856
一二作 Mikel Artetxe 和 Sebastian Ruder,請配合他們的另一篇搭配閱讀,效果更佳。
論文標題:Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT
關鍵詞:#cross-lingual #contextualized #BERT
論文鏈接:https://arxiv.org/abs/2004.14786
論文標題:Similarity Analysis of Contextual Word Representation Models
關鍵詞:#cross-lingual #contextualized
論文鏈接:https://arxiv.org/abs/2005.01172
個人認為當前急需的工作,因為目前用于評價跨語言語境嵌入的資源并不多。
論文標題:Unsupervised Cross-lingual Representation Learning at Scale
關鍵詞:#cross-lingual #contextualized #unsupervised
論文鏈接:https://arxiv.org/abs/1911.02116
XLM-R, Alexis Conneau
論文標題:Unsupervised Domain Clusters in Pretrained Language Models
關鍵詞:#cross-lingual #contextualized #BERT #word-sense
論文鏈接:https://arxiv.org/abs/2004.02105
cluster, word sense, 通訊作者 Yoav Goldberg,必讀必讀。
論文標題:XtremeDistil: Multi-stage Distillation for Massive Multilingual Models
關鍵詞:#cross-lingual #contextualized #BERT #distillation
論文鏈接:https://arxiv.org/abs/2004.05686
跨語言(cross-lingual) 傳統詞嵌入(word embedding)
論文標題:A Call for More Rigor in Unsupervised Cross-lingual Learning
關鍵詞:#cross-lingual #unsupervised #overview
論文鏈接:https://arxiv.org/abs/2004.14958
一二作 Mikel Artetxe 和 Sebastian Ruder 都是總結歸納能力很強的人,他們的綜述文章值得一看。
論文標題:Revisiting the Context Window for Cross-lingual Word Embeddings
關鍵詞:#cross-lingual #unsupervised
論文鏈接:https://arxiv.org/abs/2004.10813
2020 年讀到 word2vec,就當是一場夢,醒了之后依舊很感動。。。
論文標題:Should All Cross-Lingual Embeddings Speak English?
關鍵詞:#cross-lingual
論文鏈接:https://arxiv.org/abs/1911.03058
打響跨語言訓練反英語 c 位第一槍。
未分類
[1] A Comprehensive Analysis of Preprocessing for Word Representation Learning in Affective Tasks
[2] A Graph-based Coarse-to-fine Method for Unsupervised Bilingual Lexicon Induction
Adaptive Compression of Word Embeddings
[3] Connecting Embeddings for Knowledge Graph Entity Typing
整理后的第一感覺
語境詞嵌入遠多于傳統詞嵌入;
關于傳統詞嵌入的研究(word2vec,fastText,GloVe 等),主要圍繞在 bias、語言學等方向;
無論單語、跨語言,語境詞嵌入空間中,clustering 將語義帶入 word sense 級別的研究令人期待,相關工作入選很多。但如何對其質量做評價的研究還不多;
蒸餾技術也有幾篇文章,但我在這方面懂得不多,不多做評價,求大佬指導。
另外,由于時間精力有限,難免出現錯誤、遺漏,如發現,請留言指正。我會盡快修改。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的Word Embedding List|ACL 2020 词嵌入长文汇总及分类的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 平安银行信用卡取现手续费及利息怎么算
- 下一篇: 腾旅通和腾付通是什么关系