写了一篇关于 NLP 综述的综述!
文 | 小軼
綜述,往往是了解一個子領(lǐng)域最為高效的起點。然而,對于AI這樣一個日新月異高速發(fā)展的行業(yè),時效性也自然地成為了我們選擇綜述的衡量指標之一。即使一篇 AI 綜述具有超高 citation,如果它寫于 20 年前,那對今天的我們來說,這份綜述的總結(jié)必然是不夠全面的。那么,站在 NLP 發(fā)展軌跡中的此時此刻,哪些綜述是當前最值得閱讀的呢?
本文參考了 Elvis Saravia 相關(guān)主題的 twitter[1],以及其他網(wǎng)友的推薦,為大家整理了 13 篇高質(zhì)量綜述,囊括了該細分領(lǐng)域的最新發(fā)展現(xiàn)狀。其中有幾篇,賣萌屋已經(jīng)在往期推送中為大家介紹過了。如果大家對其他某篇特別感興趣,也可以在評論區(qū)留言,點贊數(shù)量較多的話,賣萌屋作者團隊會在日后的推送中獻上該文的詳細解析。
Transformer 相關(guān)
改良理論總結(jié)
首先是繞不開的 Transformer 系列。自 Transformer 在17年底被提出后,又涌現(xiàn)了大量Transformer的變體,各自從不同的角度來改良Transformer。據(jù)不完全統(tǒng)計,以改進 Transformer 為主題的論文,已有 200+ 篇。
其實從去年開始就已經(jīng)陸續(xù)有了幾篇 Transformer 相關(guān)的綜述文章,賣萌屋也有過相關(guān)的推送。譬如,子龍小哥哥的這篇《Transformer哪家強?Google爸爸辨優(yōu)良!》,講的是去年年底谷歌推出的一份 Transformer 綜述。Sherry 也寫過《誰才是Transformer家族中的最強王者?谷歌告訴你答案》,這篇更于側(cè)重實驗論證,而非理論小結(jié):通過實驗比較了各類對 Transformer的改進方式,發(fā)現(xiàn)“最有效的改進反而是那些簡單而細節(jié)的變化:比如替換成GeGLU激活函數(shù),使用RMS正則化等;而反觀模型上的改進,很少的方法可以推廣到所有任務中”。
在諸多 Transformer 綜述中,我們最為推薦的是以下這篇:
論文標題:
A Survey of Transformers
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2106.04554
來自于復旦邱錫鵬老師的團隊,6月15日剛剛發(fā)表在arxiv上,應該是當前最新、最全面的 Transformer 綜述了。和之前綜述相比,這篇文章以Transformer各結(jié)構(gòu)模塊為脈絡進行總結(jié)(如下圖所示),結(jié)構(gòu)會更加清晰一些。
下游任務應用指南
上面這一篇主要是從理論角度進行總結(jié),但在實際應用中可能還是不太清楚應該采用怎樣的架構(gòu)。如果你有類似的問題,不妨閱讀以下這篇,可能會有所啟發(fā):
論文標題:
The NLP Cookbook: Modern Recipes for Transformer based Deep Learning Architectures
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2104.10640
這篇文章是基于任務場景進行總結(jié)的,相當于一個 Transformer 應用指南了。今年4月發(fā)表在arxiv上,也是時效性非常強的文章了。
另外再推薦一篇發(fā)表于今年 IJCAI'21 的 survey。這篇是專門講預訓練語言模型在文本生成上的應用。做生成的同學可以看一看:
論文標題:
Pretrained Language Models for Text Generation: A Survey
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2105.10311
輕量 Transformer
基于 Transformer 的模型往往規(guī)模宏大,訓練時間也比較長。實際應用時,往往限于實驗條件和落地場景,需要對其進行改造以提高運算效率、壓縮模型規(guī)模。以下兩篇綜述,對于如何提高 Transformer 效率的方法進行了總結(jié):
論文標題:
A Practical Survey on Faster and Lighter Transformers
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636
論文標題:
Efficient Transformers: A Survey
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2103.14636
關(guān)于輕量 Transformer,賣萌屋往期也有不少相關(guān)推送,這里推薦兩篇其中較新的:《超硬核 ICML’21 | 如何使自然語言生成提速五倍》(五星推薦(? ??_??)?),以及《Transformer太大了,我要把它微調(diào)成RNN》。
視覺 Transformer
與NLP領(lǐng)域不同,隔壁CV界長期占主導地位的還是 CNN 系列的框架。直到去年,我們無敵的 Transformer 開始向 CV 界滲透。在下圖時間軸中,羅列了 Transformer發(fā)展歷程中的幾大里程碑,其中視覺 Transformer 模型被標為紅色。
下面這篇綜述對視覺 Transformer 模型做了總結(jié)。對這個新興方向感興趣的話,不妨以它作為深入了解的起點:
論文標題:
A Survey on Visual Transformer
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2012.12556
但這篇文章寫于今年年初,有不少今年新出的相關(guān)工作并未囊括,其中就包括今年大火的、霸榜了 CV 各大榜單的 Swin Transformer(關(guān)于 Swin Transformer的介紹,可以參閱《屠榜CV還不是這篇論文的終極目標,它更大的目標其實是……》)。
GNN
圖神經(jīng)網(wǎng)絡也是現(xiàn)在大火的方向。在所有能跟邏輯結(jié)構(gòu)之類、能跟圖結(jié)構(gòu)扯上點關(guān)系的子領(lǐng)域,似乎只要在模型架構(gòu)里接個 GNN,一篇 paper 就差不多成了 (:з」∠)
關(guān)于GNN的綜述,我們推薦以下兩篇:
論文標題:
A Comprehensive Survey on Graph Neural Networks
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/1901.00596
論文標題:
Graph Neural Networks for Natural Language Processing: A Survey
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2106.06090
其中最為經(jīng)典、citation最高的是第一篇,發(fā)表于19年底,如今引用量已有1600+;篇幅也比較短(22頁)。第二篇是今年最新的綜述,篇幅有127頁之多。
對于初學者還是更推薦第一篇,可以配合下面這個視頻共同食用。這個教學視頻是李宏毅老師的 TA 補充課程,非常初學者友好。
GNN 教學視頻:
https://www.youtube.com/watch?v=eybCCtNKwzA
文本增強
數(shù)據(jù)增強,簡單來說就是構(gòu)造新數(shù)據(jù)、擴大數(shù)據(jù)量的技術(shù)。那在 NLP 領(lǐng)域,就是構(gòu)造新的文本數(shù)據(jù),也就是所謂的“文本增強”。現(xiàn)在文本增強已經(jīng)有很多現(xiàn)成的工具庫了。對于數(shù)據(jù)稀疏的場景,都可以試一試文本增強,往往能獲得意想不到的效果。在我們上月的推送《謝撩,人在斯坦福打SoTA》中,Jazon 小哥哥就是巧妙地應用了文本增強的方法,一不小心就把 CS224n 大作業(yè)刷成了 SoTA。
文本增強的綜述首推下面這篇,由 CMU 、MILA 、谷歌聯(lián)合推出,發(fā)表于今年3月:
論文標題:
A Survey of Data Augmentation Approaches for NLP
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2105.03075
這篇我們 sherry 小姐姐也已經(jīng)寫過了相關(guān)介紹:《CMU & MILA & 谷歌 | 三家巨頭發(fā)布史上最干文本增強總結(jié)》。
這里也順便給大家推薦幾個好用的文本增強工具:
NLPAUG:https://github.com/makcedward/nlpaug
TextAttack:https://github.com/QData/TextAttack
Noisemix:https://github.com/noisemix/noisemix
Textaugment:https://github.com/dsfsi/textaugment
Niacin:https://github.com/deniederhut/niacin
SeaQuBe:https://github.com/bees4ever/SeaQuBe
Multi-task Learning
多任務學習的相關(guān)工作其實一直都有。近期 NLP 界比較流行的做法是 multi-task + 預訓練的范式。最簡單的做法就是根據(jù)具體應用場景,在domain continual pretrain 的時候添加幾個輔助任務。比如,要訓一個會解數(shù)學題的 AI,就可以添一個輔助任務,讓模型根據(jù)題面預測對應知識點(參見《ACL'21 | 多模態(tài)數(shù)值推理新挑戰(zhàn),讓 AI 學解幾何題》)。只要輔助任務添加得合理,一般都是能獲得性能提升的。要是設計得比較新穎,效果比較好,說不定又是一篇 paper (:з」∠)
在 multi-task 方面最為經(jīng)典的綜述是以下這篇:
論文標題:
An Overview of Multi-Task Learning in Deep Neural Networks
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/1706.05098
AI 工業(yè)落地
最后推薦這三篇與 AI 工業(yè)落地相關(guān),并不止限于 NLP 的角度。
論文標題:
Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2106.08962
論文標題:
Requirement Engineering Challenges for AI-intense Systems Development
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2103.10270
論文標題:
Technology Readiness Levels for Machine Learning Systems
原文鏈接:
https://arxiv-download.xixiaoyao.cn/pdf/2101.03989
第一篇主要是講如何從模型設計和硬件環(huán)境等方面提高模型效率,討論了在工業(yè)落地時應該優(yōu)先考慮哪些模型效率問題,優(yōu)先從哪些角度進行優(yōu)化等等重要問題。
第二篇探討的是 AI 落地所面臨的挑戰(zhàn),包括數(shù)據(jù)需求、性能定義(評估問題)等等,并且給出了許多實用的 tips。
第三篇于今年年初發(fā)布,由12家工業(yè)&學術(shù)界巨頭聯(lián)合推出了一個所謂機器學習技術(shù)成熟度 量表,用于說明一個合格的 ML 產(chǎn)品要經(jīng)過哪些檢驗才能上線。關(guān)于這篇的詳細解讀可以參考往期推送《學術(shù)&工業(yè)界大佬聯(lián)合打造:ML產(chǎn)品落地流程指南》(出自親愛的白鳥鳥同學 (????)。
小結(jié)
以上就是我們?yōu)榇蠹彝扑]的 13 篇前沿綜述。僅僅 13 篇當然還遠不足以覆蓋到 NLP 研究的方方面面。如果有未提及的精品 NLP 綜述,也歡迎各位在評論區(qū)補充~
不知道大家是不是也和小軼一樣,每次翻到高質(zhì)量綜述的時候,就會有一種學習的熱情油然而生。仿佛只要啃完眼前這篇綜述,就可以進化了一樣!就讓我們一起加油 —— 啟 動 超 級 愛 學 習 形 態(tài) (? ??_??)?!
萌屋作者:小軼
之前的作者介紹是去年夕總幫我寫的,關(guān)注小屋比較久的小伙伴或許還記得:“本科畢業(yè)于北大計算機系的美少女學霸。原計劃赴美國就讀CMU的王牌碩士項目MCDS,不過因為疫情正處于gap year,于是就來和小夕愉快地玩耍啦......” 現(xiàn)在 gap year 快結(jié)束了,向大家更新一下最新動向。由于在過去一年突然感到前所未有的科研熱情,所以——我要讀博了。希望未來的日子里也能與賣萌屋的小伙伴們共同成長。不忘初心,保持發(fā)量!(知乎ID:小軼)
作品推薦:
有錢可以多任性?OpenAI提出人肉模型訓練,文本摘要全面超越人類表現(xiàn)!
ACL20 Best Paper揭曉!NLP模型評價體系或?qū)⒂瓉碇卮筠D(zhuǎn)折
Attention模型:我的注意力跟你們?nèi)祟惒灰粯?/p>
谷歌重磅:可以優(yōu)化自己的優(yōu)化器!手動調(diào)參或?qū)⒊蔀闅v史!?
EMNLP'20最佳論文揭曉!八塊肌肉=能打電話?!
全球44家機構(gòu),55位大佬,歷時兩年,打造最強NLG評測基準!
尋求報道、約稿、文案投放:
添加微信xixiaoyao-1,備注“商務合作”
后臺回復關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1]https://twitter.com/omarsar0/status/1406574508635525125
總結(jié)
以上是生活随笔為你收集整理的写了一篇关于 NLP 综述的综述!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: one-hot(独热)、bag of w
- 下一篇: 2021,你好哇!发个小红包可好~