论文审稿人可以下岗了?CMU都做出论文审稿机器人了!
文 | Sheryc_王蘇
機(jī)器學(xué)習(xí)真是越來越火了,這從各大會(huì)議逐年增加的投稿量上就可見一斑:AAAI'21收到了9034篇投稿,NeurIPS'20收到了9467篇投稿,一篇投稿至少要經(jīng)過3位審稿人同行評(píng)議,耗費(fèi)的人力可想而知。那么問題來了:
上哪找這么多有經(jīng)驗(yàn)的審稿人來寫評(píng)審意見呢?
這時(shí),機(jī)器學(xué)習(xí)投稿大頭兼業(yè)界翹楚CMU的研究者發(fā)表了自己的看法:同行評(píng)議本質(zhì)上不就是從輸入一篇論文,輸出評(píng)審意見的Seq2Seq嗎?讓N寶多看點(diǎn)論文,它還寫不出個(gè)審稿人意見?我們自己動(dòng)手寫個(gè)自動(dòng)的論文評(píng)審系統(tǒng)來審稿不就好了?
由三位來自CMU的研究者抱著這樣的想法真的開發(fā)出了一個(gè)這樣的論文自動(dòng)評(píng)審系統(tǒng)ReviewAdvisor(以下我們簡稱為小R),甚至還用小R自動(dòng)生成了小R論文本身的評(píng)審意見、小R論文的摘要和小R的arXiv頁面筆記。這套讓論文作者預(yù)知缺陷,讓論文讀者秒懂內(nèi)涵,讓論文評(píng)審者黯然失色的神奇系統(tǒng),不想來試試看么?
論文題目:
Can We Automate Scientific Reviewing?
論文鏈接:
https://arxiv.org/pdf/2102.00176.pdf
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號(hào)后臺(tái)回復(fù)關(guān)鍵詞【0223】下載論文PDF~
什么是好的評(píng)審意見?
對(duì)一個(gè)系統(tǒng)的評(píng)價(jià)指標(biāo)需要反應(yīng)其任務(wù)的特點(diǎn)。對(duì)于論文評(píng)審系統(tǒng),其評(píng)價(jià)指標(biāo)自然要評(píng)估自動(dòng)生成的評(píng)審意見有多“好”。
什么是一個(gè)好的評(píng)審意見呢?文章的作者在仔細(xì)分析閱讀了ICML、NeurIPS、ICLR、ACL和EMNLP等機(jī)器學(xué)習(xí)或NLP頂級(jí)會(huì)議的審稿人指南后,總結(jié)出了一篇好的審稿人意見需具有的5大要素:
決定性(Decisiveness):對(duì)論文的接受與否有較為明確的立場。
綜合性(Comprehensiveness):多維度地對(duì)文章進(jìn)行評(píng)價(jià)。從行文而言,評(píng)審意見中需要包含論文概述、主要貢獻(xiàn)和優(yōu)缺點(diǎn)等多個(gè)組成部分;從對(duì)文章的評(píng)價(jià)而言,同樣需要包含不同角度的考量。
公正性(Justification):為評(píng)審意見中所提出的批評(píng)提供理由和證據(jù),便于作者有針對(duì)性地對(duì)文章質(zhì)量進(jìn)行提升。
準(zhǔn)確性(Accuracy):保證評(píng)審意見的正確性,不能包含事實(shí)錯(cuò)誤的信息。
友好性(Kindness):在語言使用上需要保持友善和禮貌。
下文中,對(duì)于系統(tǒng)評(píng)價(jià)指標(biāo)的設(shè)計(jì)也是遵循這5大要素的。
它是怎么做到的?
訓(xùn)練小R的過程可以分為兩個(gè)部分:數(shù)據(jù)集生成和模型訓(xùn)練。
對(duì)于數(shù)據(jù)來源選取,小R是專注于機(jī)器學(xué)習(xí)領(lǐng)域的論文評(píng)審機(jī)器人,選擇的評(píng)審數(shù)據(jù)來源應(yīng)該滿足:1)論文質(zhì)量高;2)評(píng)審意見公開。作者于是爬取了2017-2020年共5192篇ICLR論文和2016-2019年共3685篇NeurIPS論文,以及它們的所有評(píng)審意見作為評(píng)審數(shù)據(jù)集。這些論文平均每篇都附有3篇以上評(píng)審意見,每篇評(píng)審意見平均超過400詞。需要注意的是,ICLR所依托的OpenReview同樣公開了所有被拒論文和其評(píng)審意見,而NeurIPS在網(wǎng)站中只能爬取到接受的論文,所以數(shù)據(jù)集中的所有標(biāo)記為Reject的論文全部來自ICLR。
對(duì)于模型選取,本文開篇提到“同行評(píng)議本質(zhì)上就是從輸入一篇論文,輸出評(píng)審意見的Seq2Seq”,小R的模型結(jié)構(gòu)確實(shí)也反應(yīng)了這一特性。小R的基礎(chǔ)模型是BART[1],一個(gè)性能較為領(lǐng)先的進(jìn)行Seq2Seq任務(wù)的預(yù)訓(xùn)練模型。
誒,不會(huì)就是爬了個(gè)數(shù)據(jù)再用了個(gè)預(yù)訓(xùn)練模型這么簡單吧(゚Д゚≡゚д゚)?當(dāng)然不會(huì)啦!既然目前已經(jīng)獲得了評(píng)審數(shù)據(jù)集和基礎(chǔ)模型,接下來的就是向模型和訓(xùn)練過程中加入額外的結(jié)構(gòu)和歸納偏置,使模型的訓(xùn)練變得可行,使低效的訓(xùn)練變得高效。
現(xiàn)有模型不可訓(xùn)練的原因在于,BART的預(yù)訓(xùn)練文本長度為1024,而一篇論文平均有將近7000個(gè)詞,經(jīng)過Tokenizer變?yōu)锽PE編碼后更是遠(yuǎn)超這個(gè)數(shù)字,所以解決輸入序列長度是需首先考慮的問題。
怎么才能更好地縮短論文長度,保留對(duì)撰寫評(píng)審意見最有用的那些論文句段呢?作者提出了3種將論文進(jìn)行有用句段提取的方法。括號(hào)中的部分表示該提取方法在論文主結(jié)果表格中的標(biāo)記:
Section Based(INTRO):只保留論文的Introduction部分。
Cross Entropy Based(CE):首先根據(jù)設(shè)定的一系列關(guān)鍵詞提取文中包含重要信息的句子集合,再根據(jù)unigram信息熵最大化的原則將提取出的句子集合壓縮至長度閾值以內(nèi)。
Hybrid(ABSCE):將論文的摘要部分與Cross Entropy Based方法提取的結(jié)果拼接。
解決了輸入長度的問題,接下來該解決模型訓(xùn)練低效的問題了。在上一節(jié)中,我們提到了好的評(píng)審意見需要滿足的五要素,但現(xiàn)有的模型和訓(xùn)練方式好像和這五個(gè)要素并不沾邊。在數(shù)據(jù)有限的情況下,一個(gè)行之有效的方法就是向模型中加入歸納偏置。在小R的論文中,我們見到的是對(duì)于“綜合性”這一要素的增強(qiáng)。
讓我們再次回顧一下綜合性這一指標(biāo)的要求:行文五臟俱全,評(píng)價(jià)角度多樣。當(dāng)這兩點(diǎn)合二為一后,我們可以發(fā)現(xiàn),一個(gè)合適的歸納偏置是給模型生成的不同文本范圍所代表的行文部分、評(píng)價(jià)角度和評(píng)價(jià)的正負(fù)傾向增加額外的正則項(xiàng),使自動(dòng)生成的評(píng)審意見在行文思路、選取的評(píng)價(jià)角度和正負(fù)傾向上更貼近真人。這里,所謂的行文部分和評(píng)價(jià)角度在文中統(tǒng)稱為“Aspect”,這也正是文章中提到的“Aspect-Based”的來源。為此,需要對(duì)數(shù)據(jù)標(biāo)注和模型設(shè)計(jì)進(jìn)行一些修改。
對(duì)于數(shù)據(jù)標(biāo)注,需要標(biāo)記出數(shù)據(jù)集里真人評(píng)審意見中不同文本范圍代表的Aspect。作者借鑒了ACL對(duì)審稿人的指導(dǎo),設(shè)計(jì)了8類14種區(qū)分正負(fù)傾向的Aspect標(biāo)簽對(duì)審稿意見的text span進(jìn)行標(biāo)注:概要(Summary),動(dòng)機(jī)/影響(Motivation/Impact),原創(chuàng)性(POS/NEG Originality),可靠性/正確性(POS/NEG Soundness/Correctness),充實(shí)性(POS/NEG Substance),可復(fù)現(xiàn)性(POS/NEG Replicability),有意義的比較(POS/NEG Meaningful Comparison)和行文清晰性(POS/NEG Clarity)。這一標(biāo)注過程首先進(jìn)行人工標(biāo)注1000條評(píng)審意見,利用其fine-tune一個(gè)BERT對(duì)其余數(shù)據(jù)進(jìn)行標(biāo)注,最終通過一些預(yù)定義的人工規(guī)則對(duì)BERT的標(biāo)注結(jié)果進(jìn)行修正,獲得最終的標(biāo)注數(shù)據(jù)。這一被標(biāo)注了Aspect范圍的數(shù)據(jù)集被稱為“ASpect-enhAnced Peer Review Dataset(ASAP-Review)”。
對(duì)于模型設(shè)計(jì),需要與數(shù)據(jù)集的標(biāo)注進(jìn)行對(duì)應(yīng)。本文在BART的解碼器輸出部分平行地設(shè)置了兩個(gè)MLP,其中一個(gè)進(jìn)行BART原始的Token預(yù)測,另外一個(gè)同步地預(yù)測當(dāng)前生成Token所屬的Aspect標(biāo)簽。訓(xùn)練過程的損失函數(shù)即為Token預(yù)測與Aspect標(biāo)簽預(yù)測損失的加權(quán)求和,預(yù)測過程取Token預(yù)測結(jié)果序列作為輸出。
它能完全代替人工嗎?
先放結(jié)論:不能,但小R依然有可取之處。
我們首先來看看模型的性能。對(duì)于論文和對(duì)應(yīng)的評(píng)審意見,設(shè)表示論文中稿與否的結(jié)果(中了=1,拒了=-1),表示評(píng)審意見的立場(推薦中=1,推薦拒=-1)。作者基于上述提出的好評(píng)審意見的5大要素提出了一系列評(píng)價(jià)指標(biāo):
決定性:推薦準(zhǔn)確度(Recommendation Accuracy, RAcc)表示評(píng)審意見的立場與論文最終中稿結(jié)果是否一致:.
綜合性:Aspect覆蓋率(Aspect Coverage, ACov)表示中的Aspect標(biāo)簽數(shù)占總14種標(biāo)簽的比例;Aspect召回率(Aspect Recall, ARec)表示中的Aspect標(biāo)簽數(shù)與所對(duì)應(yīng)的meta-review中的Aspect標(biāo)簽數(shù)的比例。
公正性:信息性(Informativeness, Info)表示在中負(fù)傾向標(biāo)簽對(duì)應(yīng)文本范圍中包含對(duì)應(yīng)證據(jù)或理由的比例。
準(zhǔn)確性:總結(jié)準(zhǔn)確性(Summary Accuracy, SAcc)表示中的論文概括是否準(zhǔn)確總結(jié)了論文;Aspect級(jí)建設(shè)性(Aspect-Level Constructiveness, ACon)表示中負(fù)傾向標(biāo)簽對(duì)應(yīng)的包含證據(jù)的文本范圍中證據(jù)是否真實(shí)準(zhǔn)確。
友好性:作者未構(gòu)建評(píng)價(jià)評(píng)審意見友好性的指標(biāo)。這一部分在文中被作為Future Work。
其他:作者利用ROUGE和BERTScore兩個(gè)衡量語義相似度的指標(biāo)評(píng)價(jià)生成評(píng)審意見與真人評(píng)審意見的相似性。
以上評(píng)價(jià)指標(biāo)除ACov、ARec、ROUGE和BERTScore外,均需要人工評(píng)價(jià)。對(duì)于一篇論文的多個(gè)真人評(píng)審意見,對(duì)各指標(biāo)分別采用得分最高的一個(gè)。小R的性能如下:
相比于第一行真人評(píng)審意見的結(jié)果,小R的優(yōu)勢在于Aspect覆蓋率(ACov)和信息性(INFO)兩個(gè)指標(biāo),表示其能夠生成比真人更加綜合且公正的評(píng)審意見。與此同時(shí),該系統(tǒng)在ABSCE組能夠取得與人類接近的總結(jié)準(zhǔn)確性(SAcc),表明其能夠在評(píng)審意見中包含較為準(zhǔn)確全面的論文總結(jié)。
不過,小R的缺點(diǎn)也十分明顯。推薦準(zhǔn)確度(RAcc)的集體負(fù)分表示小R無法對(duì)論文進(jìn)行高層的整體性評(píng)價(jià),而Aspect級(jí)建設(shè)性(ACon)的低下也說明文章對(duì)于負(fù)面傾向的細(xì)分評(píng)價(jià)給出的理由往往站不住腳。除此之外,小R還經(jīng)常給出一些模仿性或重復(fù)性的評(píng)價(jià),例如“The paper is well-written and easy to follow”這一句在多于90%的生成評(píng)審意見中都會(huì)出現(xiàn),這是因?yàn)檫@一句竟原封不動(dòng)的出現(xiàn)在了超過10%的訓(xùn)練數(shù)據(jù)中(Reviewer們夸文章寫作好的時(shí)候真是敷衍呢)。最后,小R生成的評(píng)審意見很少對(duì)文章內(nèi)容進(jìn)行提問,盡管對(duì)文章內(nèi)容的提問往往是評(píng)審意見中的關(guān)鍵部分。以上這些問題多多少少都可以在系統(tǒng)設(shè)計(jì)和數(shù)據(jù)集構(gòu)建上看出潛在的原因。
小R還暴露出了對(duì)英語母語/非母語撰寫者及匿名/非匿名投稿的偏向性。英語母語撰寫者更容易在“原創(chuàng)性(Originality)”上獲得更高評(píng)價(jià),非英語母語撰寫者更容易在“行文清晰性(Clarity)”上獲得更高評(píng)價(jià)。對(duì)于匿名/非匿名投稿也存在一些評(píng)分上的不同,非匿名投稿傾向于得到更高的分?jǐn)?shù),這可能是數(shù)據(jù)集來源導(dǎo)致的結(jié)果,不過差距相比英語母語/非母語更小一些。先別急著批判小R,即使是真人評(píng)審也會(huì)對(duì)這兩種情況產(chǎn)生或多或少的偏見,在下面對(duì)于真人/小R關(guān)于多個(gè)維度的評(píng)價(jià)分?jǐn)?shù)的雷達(dá)圖中,究竟哪一方才是更“Biased”的呢?(Reference reviews:真人評(píng)審;Generated reviews:小R評(píng)審)
對(duì)NLP的經(jīng)典的論文評(píng)審意見如何?
NLP作為一個(gè)大研究領(lǐng)域,不同人必然有自己專精的小方向,所以“經(jīng)典的NLP論文”實(shí)在是數(shù)不勝數(shù)。然而,大家心目中其實(shí)應(yīng)該都有些能稱之為“它改變了NLP”的超經(jīng)典論文。可以預(yù)見,越多人知道小R,小R的服務(wù)器就越有壓力。為了幫小R的作者分擔(dān)些重復(fù)工作,我把自己很喜歡的一部分有足夠影響力的論文選出來,看看小R能不能慧眼識(shí)珠。
近期,DeepMind提出了數(shù)據(jù)的“時(shí)間泛化”問題[2],指出訓(xùn)練和測試數(shù)據(jù)的時(shí)間來源不同可能導(dǎo)致預(yù)測性能下降。恰好,論文發(fā)表時(shí)間正是論文的一大重要特質(zhì),因此下面我們按照時(shí)間區(qū)間選取論文。由于篇幅有限,我們選取一篇早于訓(xùn)練數(shù)據(jù)年份的(Bahdanau et al.,注意力Seq2Seq),一篇理應(yīng)包含在訓(xùn)練數(shù)據(jù)中的(Vaswani et al.,自注意力+Transformer),一篇在訓(xùn)練數(shù)據(jù)年份中但未包含在訓(xùn)練數(shù)據(jù)中的(Devlin et al.,BERT)和一篇領(lǐng)先于訓(xùn)練數(shù)據(jù)年份的(Radford et al.,CLIP)。
注意力機(jī)制Seq2Seq
出處:《Neural Machine Translation by Jointly Learning to Align and Translate》(ICLR '15)
前面標(biāo)紅色的文章總結(jié)應(yīng)該是摘自摘要。后面的評(píng)價(jià)雖然列了很多點(diǎn),不過很多都有些讓人迷惑,這可能是因?yàn)槲闹械亩繉?shí)驗(yàn)中表格的安排方式與一般文章不同。第3點(diǎn)中提到的Cho et al.和Sutskever et al.兩篇提出的是基于RNN模型的Seq2Seq,Cho et al.這篇同時(shí)還提出了GRU結(jié)構(gòu),這樣說的話這篇提出Attention的論文確實(shí)是在這兩篇基礎(chǔ)上的擴(kuò)展工作。或許把表格的安排稍微改變一下,小R能為這篇論文生成一篇不錯(cuò)的評(píng)審意見出來。
自注意力機(jī)制+Transformer
出處:《Attention is All You Need》(NIPS '17)
這波是我比我自己,畢竟在訓(xùn)練過程中已經(jīng)見過了Transformer,以為這篇文章是平行世界來的另一篇Transformer,說和Transformer像也無可厚非(和繞口令一樣)。不過這個(gè)和CNN/RNN結(jié)合的點(diǎn)子倒是有點(diǎn)意思?
BERT
出處:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(NAACL '19)
雖然小R沒見過BERT原文,但各種各樣的BERT想來應(yīng)該是見了不少。這篇評(píng)審意見說的也不能算錯(cuò),BERT用的確實(shí)是來自Transformer的結(jié)構(gòu)(雖然還是出現(xiàn)了自己比自己的問題),但這個(gè)說結(jié)果不夠好的就有點(diǎn)過分了…刷GLUE這種綜合性榜單和做單任務(wù)的完全不是一個(gè)量級(jí)的難度,或許小R并不能認(rèn)識(shí)到任務(wù)和任務(wù)之間的橫向比較吧。
CLIP
出處:《Learning Transferable Visual Models From Natural Language Supervision》(OpenAI,Jan 2021)
CLIP這篇文章是2021開年的重磅炸彈,直接引爆了圖像-文本跨模態(tài)領(lǐng)域,甚至有成為下一個(gè)BERT級(jí)模型的潛力。小R對(duì)它的吐槽有些句子明顯是從文中摘的(比如ImageNet Zero-shot那句),而且小R也認(rèn)識(shí)不到zero-shot和傳統(tǒng)方法橫向相比較時(shí)所需要考慮的額外差距。不過和ConVIRT的比較或許算是合理,畢竟CLIP確實(shí)用的是簡化版的ConVIRT,而且文中說到,CLIP的區(qū)別主要在于數(shù)據(jù)集大。
不感覺這和BERT/Transformer的對(duì)比很像么?或許看多了ICLR和NeurIPS之后就會(huì)對(duì)模型相近但從數(shù)據(jù)等其他方向進(jìn)行探索的開創(chuàng)性論文有些買櫝還珠吧。但這確實(shí)也意味著一篇文章對(duì)將來的影響力與其發(fā)表的會(huì)議影響因子并不一定成正比,真正閃光的論文即使掛在ArXiv上也可能成為一座里程碑。
我有個(gè)朋友最近要投稿,能不能讓它審一審?
當(dāng)然(=?ω?=)
立即進(jìn)入 http://review.nlpedia.ai/ [3],點(diǎn)一下,玩一年,調(diào)戲小R不用一分錢(不)
首先瀏覽本地論文pdf文件,確認(rèn)用戶須知,點(diǎn)擊Upload
等待上傳完成后,點(diǎn)擊Parse Paper
等待pdf解析完成后,點(diǎn)擊Review Paper
需要注意的是,瀏覽器多開后多線程操作小R可能會(huì)有bug,還是給服務(wù)器減輕些負(fù)擔(dān)比較好~
總結(jié)
對(duì)話系統(tǒng)一直以來都被認(rèn)為是NLP領(lǐng)域皇冠上的明珠,因?yàn)橐粋€(gè)理想的對(duì)話系統(tǒng)實(shí)際需要覆蓋目前NLP領(lǐng)域各個(gè)細(xì)分任務(wù)的需求。但是,一個(gè)合格的論文評(píng)審系統(tǒng)同樣也是如此:在閱讀理解的基礎(chǔ)上,還需要指正文中的內(nèi)容錯(cuò)誤,對(duì)值得批判的部分進(jìn)行挑選,同時(shí)還需要與同時(shí)期、同領(lǐng)域的文章進(jìn)行橫向和縱向?qū)Ρ?/strong>。由此所需要的不應(yīng)該僅僅是單一文獻(xiàn)的理解,而應(yīng)該基于多篇文獻(xiàn)對(duì)比得出論文貢獻(xiàn)度和對(duì)比合理性,這需要對(duì)于文獻(xiàn)實(shí)時(shí)維護(hù)一個(gè)類似知識(shí)圖譜的結(jié)構(gòu);與此同時(shí),對(duì)于除綜合性以外的評(píng)審意見要素也同樣應(yīng)該在未來進(jìn)行數(shù)據(jù)、模型和評(píng)價(jià)指標(biāo)的革新。
雖然系統(tǒng)設(shè)計(jì)較為簡單,但從小R生成的評(píng)審意見來看算是開了個(gè)好頭,盡管包含錯(cuò)誤,但我們能夠從其詳細(xì)分析中窺探到不足之處以便后續(xù)改進(jìn)。此外,它提供的較為準(zhǔn)確的論文總結(jié)和多維度的評(píng)價(jià)也能為真人評(píng)審提供重要參考。同行評(píng)議本身是需要相當(dāng)智力水平才能完成的工作,但我們期待著能夠真正可靠地發(fā)掘文章中閃光點(diǎn)和價(jià)值的NLP系統(tǒng)的出現(xiàn),或許有一天,超級(jí)加強(qiáng)版小R的作者就會(huì)發(fā)出這樣的感慨:“Reviewer 3給了我個(gè)超低分的評(píng)審意見,笑死,那評(píng)審意見還不如論文里提出的評(píng)審系統(tǒng)寫得好”[4]。
萌屋作者:Sheryc_王蘇
北航高等理工學(xué)院CS專業(yè)的市優(yōu)秀畢業(yè)生,蒙特利爾大學(xué)/MILA博士生,資深A(yù)CG宅,目前作為實(shí)習(xí)生在騰訊天衍實(shí)驗(yàn)室進(jìn)行NLP研究。雖主攻NLP,卻對(duì)一切向更完善的智能邁進(jìn)的系統(tǒng)和方向充滿好奇。如果有一天N寶能真正理解我的文字,這個(gè)世界應(yīng)該會(huì)被賣萌占領(lǐng)吧。(還沒發(fā)過東西的)知乎ID:Sheryc
作品推薦:
NLP未來,路在何方?12位巨佬聯(lián)名指路!
這幾個(gè)模型不講“模德”,我勸它們耗子尾汁
軟硬兼施極限輕量BERT!能比ALBERT再輕13倍?!
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
?
[1]Lewis et al. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. In ACL'20. https://arxiv.org/pdf/1910.13461.pdf
[2]Lazaridou et al. Pitfalls of Static Language Modelling. In ArXiv. https://arxiv.org/pdf/2102.01951.pdf
[3]再放一下小R的鏈接:http://review.nlpedia.ai/
[4]如何寫一篇好的評(píng)審意見:Resource about Writing a Good Review. http://review.nlpedia.ai/static/html/resource.html
總結(jié)
以上是生活随笔為你收集整理的论文审稿人可以下岗了?CMU都做出论文审稿机器人了!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CS 期刊哪家强?CCF 发布最新期刊分
- 下一篇: 在斯坦福,做 Manning 的 phd