聊聊机器翻译界的“灌水与反灌水之战”!
文 | Willie_桶桶
編 | 智商掉了一地
針對機器翻譯領域如何提高和判斷實驗可信度,這篇ACL2021的oustanding paper邁出了關鍵的一步!(來讀!全文在末尾)
作為不停讀論文和調參煉丹的科研黨,也許在我們的身邊總會出現這樣類似的對話:
案例1: xxx博士不講武德,竟然讓我把一部分測試集加入到訓練集里面去,這是在公然蔑視學術道德?
案例2: 嘿嘿,調了調句子的最大長度,評測性能終于刷上去了。
案例3: 哇靠,那個人在作弊,baseline用BERT,自己的模型竟然用BERT-Large。
案例4: 就這個指標比SOTA好,其他幾個指標都不行,要不就貼好的指標吧,老天保佑reviewer不要發現這個漏洞。
案例5: 單模態的性能也太強了吧,這讓多模態效果怎么發論文?還是隨便跑跑baseline,把性能調低點。
案例6: 調了一上午的參數,這次效果終于比SOTA強了,趕緊記錄一下,順便保存好checkpoint。
案例7: 這論文寫的評測代碼竟然是錯的,我說性能怎么比我復現的好那么多。
案例8: 剛剛發郵件詢問作者為啥引用我的實驗效果那么低,他竟然說抄錯了。
隨著AI領域的持續火熱,越來越多的同學在"想方設法"地設計算法來刷新任務性能,并產出了一篇篇精妙絕倫的論文。相關領域會議投稿量呈現出爆炸式地增長,然而投稿論文的質量參差不齊,作為一個普通投稿人,如何設計實驗以更加有說服力地證明提出方法的有效性;以及作為一個審稿人,如何快速判斷這篇論文提出的算法是否可(guan)信(shui),是值得深思的問題。針對機器翻譯領域如何提高和判斷實驗可信度,下面這篇ACL2021的oustanding paper邁出了關鍵的一步!
論文標題
Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers
論文鏈接
https://aclanthology.org/2021.acl-long.566.pdf
1 背景
過去10年間涌現了大量提升機器翻譯性能的算法,這些算法通過與前人的模型對比自動評測指標,比如BLEU分數值,來凸顯其性能。隨著論文報告的分數值越來越高,我們不禁要問,這些論文的評測方式真的有說服力嗎?算法真的有效嗎?整個社區是朝著良性的方向發展,還是灌水之風日漸嚴重?
為了回答以上問題,本文評估了過往10年間(2010 ~ 2020)發表在ACL相關會議的769篇機器翻譯領域論文,著重對論文評測進行了分析,包括:
評價指標的多樣性
統計顯著性檢驗
直接復制前人實驗結果
數據劃分和預處理
基于分析結果,本文揭露了造成可疑評估的一個個陷阱,反映出當前社區正在朝著令人擔憂的方向發展。
2 令人失望的評估結果
通過對769篇論文的評估,作者揭露了當前機器翻譯評測中令人擔憂的4個陷阱。
2.1 稱霸機器翻譯的BLEU
上圖展示了10年間各種評價指標在機器翻譯論文中所占的比重,BLEU以壓倒性的優勢成為了最熱門的評價指標,幾乎99%的論文都用它來衡量算法的優越性,而其他改進的評測指標則逐漸被學者們忽視。眾所周知,BLEU作為一種自動評價指標存在一些缺陷,它僅僅能反應出模型某些特定方面的優勢,所以有很多工作致力于研究更加合理的自動評測指標。
然而,一個很諷刺的現象是:過去10年間有超過108種改進的評測指標,其中很多更容易使用并且表現出比BLEU更加契合人類的評測模式,比如chrF,但大部分從未被人使用過;長此以往,這些自動評測的研究還有存在的意義嗎?
為了說明僅僅依賴一種評價指標來衡量翻譯模型性能是不充分的,作者統計了多種提交至WMT20的模型,使用BLEU和chrF評測指標的排名情況,結果如下表所示。
從表中可以看出,使用BLEU作為評價指標時,NiuTrans系統是 → 賽道中排名第一的模型,而當使用chrF指標時,Tohoku-AIP-NTT系統要優于NiuTrans系統。這反映出僅使用BLEU是無法準確得出某個模型更優的結論,機器翻譯社區應該鼓勵使用更優的評價指標來作為BLEU的補充或者替代品。
2.2 被遺忘的統計顯著性檢驗
統計顯著性檢驗是一種確保實驗結果并非巧合的標準方法。在機器翻譯領域,統計顯著性檢驗早已被用于自動評測指標中,即評估兩個機器翻譯系統之間評測分值的差異是否巧合。直觀上,這個檢測能更加有說服力地反映算法的有效性,但近十年來使用該檢驗的論文越來越少。
上圖展示了各年ACL相關會議論文中使用統計顯著性檢驗的比例。從圖中我們可以發現,人們越來越不喜歡使用這個檢驗,即使它可以顯著的提升論文可信度,導致這種現象出現的原因是有更好的提升可信度的方式,還是因為論文頁數限制而無法添加多余實驗(xin xu)呢?
此外,作者設計了另一組驗證實驗來說明,統計顯著性檢驗結果與自動評測指標提升幅度沒有直接的聯系。在實驗中,Custom 1操作指的是將模型輸出中的最后一句替換為空白行,Custom 2操作對應將模型輸出中最后一句替換為重復同一個詞10k次的句子。
實驗結果如上表所示,其中第一行表示各系統提交到WMT20的原始結果。觀察表中結果可以發現,Custom 2操作會導致BLEU和chrF指標分值的劇烈下降,但在統計顯著性檢驗實驗中,并沒有發現任何系統要明顯優于其他的系統。
2.3 一直copy一直爽
隨著NLP論文爆發式的增長,直接復制前人報告的實驗結果進行對比,是一種省時又省力的方式,在機器翻譯領域亦是如此。
上圖是近10年間,各年直接復制前人實驗結果進行對比的論文比重。越來越多的論文更加傾向于直接復制實驗結果而不是復現相關實驗,這在2015年以后顯得尤為明顯;拷貝結果的確可以省時省力,但引發的問題是:那些論文是否提供了足夠信息,以確保它取得的分值和前人報告的結果具有可比性。
那么,稍微對模型輸出進行處理會造成性能的差異嗎?作者設計了一組實驗,測試被科研人員廣泛使用的后處理方式對性能的影響。針對模型輸出結果進行后處理的操作包括:是否完全小寫化、是否標點規范化、是否進行tokenize處理。實驗結果如上表所示,不同的后處理方式對自動評測結果有很大的影響,比如進行完全小寫化處理,可以將Tohoku-AIP-NTT系統在 → 賽道和Volctrans系統在 → 賽道的評測BLEU值分別提高1.4和1.6,這在翻譯領域可謂是顯著的提升。
2.4 評測中數據的"藝術"
數據集通常被分為訓練集、驗證集和測試集,以用于模型學習和評測,不同的數據預處理方式可以帶來各種“期待”的結論。機器翻譯領域論文大多提出新算法以提高翻譯準確度(因變量),而評測新的算法對因變量的影響時,需要保持其他所有自變量(例如數據集)不變,否則無法保證算法性能的可信度。
那么實際情況又是怎樣的呢?作者統計了近十年進行性能對比卻使用不同數據的論文比例,結果如上圖所示。十年來,越來越多的論文在進行對比實驗時使用了不一致數據,在這種設定下,我們無法判斷出性能的提升到底是因為算法的優越還是數據的"藝術"。
為了說明數據的"藝術"對性能的影響,作者設計了一組對比實驗,評估各種被廣泛使用的數據預處理方式對結果造成的影響,包括數據最大長度、是否Truecase處理、過濾其他語言文本噪音、刪減1個語料。實驗結果如上表所示,簡單地改變數據集中句子的長度或者進行Truecase操作,都會導致各種評價指標和顯著性檢驗結果劇烈波動,所以要真正凸顯算法的有效性,保證數據一致性是不可或缺的。
3 反擊灌水的攻與防
通過評估近10年769篇ACL相關會議論文,本文發現了當前機器翻譯領域普遍存在的4個陷阱,并且給出了關于如何增強論文可信度以及判別論文結果的指導方案。
針對提高論文結果可信度,需要:
不應該僅使用BLEU作為評測指標,也需要結合其他更加合適的自動評測指標及人工評測。
無論自動評測指標分值提高有多大,都應該盡量進行統計顯著性檢驗。
盡量不要直接拷貝別人的實驗結果,如果不可避免,要保證結果具有可比性。
要保證所有的數據集以及預處理方式一致。
對于評估論文實驗結果的可信度,可以通過回答以下問題進行打分(每個yes得1分,分數越高越可信):
是否使用了比BLEU更能與人類判斷相關聯的指標,或者進行了人工評估?(yes/no)
是否進行了統計顯著性檢驗?(yes/no)
是否為論文計算了自動度量分數而不是從其他工作中復制?如果復制,是否所有復制的和比較的分數都通過確保其可比性的工具(例如 SacreBLEU)計算得出?(yes/no)
如果對比的機器翻譯系統是為了凸顯算法的優越性,那么系統間是否使用了相同的數據集及預處理方式?(yes/no)
4.總結
當前對于生成任務,評價指標仍然不甚完善,各種"藝術性"操作也經常層出不窮。看慣了身邊謎之操作的你,是否愿意支持評測規范化,加入反擊的陣營呢?
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的聊聊机器翻译界的“灌水与反灌水之战”!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谁说2021届秋招算法岗一定要灰飞烟灭啦
- 下一篇: 推荐模型是怎样由窄变宽、越变越深的?