神经机器翻译推断阶段信心校准研究 原
本論文由騰訊 AI Lab 和清華大學(xué)合作完成,作者提出了一種評估神經(jīng)機(jī)器翻譯模型在推斷場景下信心校準(zhǔn)偏差的方法,并發(fā)現(xiàn) Transformer 模型的信心盡管在訓(xùn)練場景中校準(zhǔn)較好,但是在推斷場景中仍然存在較大的校準(zhǔn)偏差。以下為論文的詳細(xì)解讀。
On the Inference Calibration of Neural Machine Translation
基于概率的機(jī)器學(xué)習(xí)模型在給出預(yù)測結(jié)果的同時(shí),往往會輸出一個(gè)對應(yīng)的信心指數(shù)(i.e., confidence),該信心指數(shù)可以代表模型對自身預(yù)測結(jié)果的正確性的一個(gè)估計(jì)。在金融、醫(yī)療等安全等級較高的場景中,我們希望模型不但有較好的預(yù)測精度(i.e., accuracy),并且能夠做到“知之為知之,不知為不知”,對預(yù)測結(jié)果的正確性有準(zhǔn)確的估計(jì)。
我們可以設(shè)想一個(gè)場景:在一個(gè)共同抗擊疫情的各國聯(lián)合醫(yī)療隊(duì)中,各國醫(yī)護(hù)人員可以使用機(jī)器翻譯系統(tǒng)進(jìn)行交流。在涉及患者病情的關(guān)鍵性描述中,我們要求機(jī)器翻譯系統(tǒng)要如實(shí)反映其對翻譯結(jié)果的信心。對于模型不自信的翻譯結(jié)果,我們可以請語言專家有針對性的進(jìn)行后處理,對于大部分模型自信的結(jié)果,我們可以直接使用。由此可見,對自身輸出結(jié)果是否有一個(gè)準(zhǔn)確的信心估計(jì),是衡量機(jī)器翻譯模型能否實(shí)際部署的重要性質(zhì)。
量化模型對預(yù)測結(jié)果信心校準(zhǔn)偏差的前人工作大多是在分類任務(wù)上開展的。但是,不同于分類任務(wù)的單一輸出,包括機(jī)器翻譯在內(nèi)的生成式自然語言任務(wù)的輸出都是序列化的,并且往往具有潛在的語義結(jié)構(gòu)。如何評估序列化生成模型的信心校準(zhǔn)偏差依然是一個(gè)尚未解決的問題。
在本文中,我們對期望校準(zhǔn)偏差(Expected Calibration Error, ECE)進(jìn)行了擴(kuò)展,使其能夠應(yīng)用到序列化生成任務(wù)中來。具體地,ECE 在計(jì)算方式如下:
我們首先將模型在測試集中所有預(yù)測的 token 分為M組,分組的標(biāo)準(zhǔn)是每個(gè) token 對應(yīng)的信心指數(shù)(具體地,我們使用模型的翻譯概率作為信心指數(shù)),信心指數(shù)相近的 token 會被分到同一組。在每一組中我們計(jì)算所有 token 的平均準(zhǔn)確率和平均信心指數(shù)。對所有組的平均準(zhǔn)確率與平均信心指數(shù)的偏差進(jìn)行加權(quán)平均,將會得到最終的 ECE 結(jié)果。
為了計(jì)算 ECE,一個(gè)關(guān)鍵是如何量化每個(gè) token 的準(zhǔn)確性。為此,我們使用 TER 方法在模型譯文和參考譯文之間建立一個(gè)對應(yīng)關(guān)系,并根據(jù) TER 的標(biāo)注決定每個(gè) token 的正確性:
至此,我們就可以使用 ECE 量化序列化生成模型在推斷場景下的信心校準(zhǔn)偏差了。
在實(shí)驗(yàn)中,我們比較了機(jī)器翻譯模型分別在訓(xùn)練與推斷場景下信心校準(zhǔn)偏差的情況:
可以看到模型在推斷階段的 ECE 遠(yuǎn)遠(yuǎn)高于在訓(xùn)練階段的 ECE (15.83 > 1.39),說明推斷階段的信心校準(zhǔn)偏差對目前的機(jī)器翻譯模型來說仍然是一個(gè)問題。為了深入理解模型信心校準(zhǔn)的特性,我們分析了信心失準(zhǔn)的 token 的語言學(xué)性質(zhì)。首先,我們比較了不同頻率的 token 的特性:
實(shí)驗(yàn)發(fā)現(xiàn)模型在高頻詞上更不容易發(fā)生信心失準(zhǔn),而在中低頻詞上更容易發(fā)生信心失準(zhǔn)。我們從相對位置、繁殖力、詞性、詞粒度等角度分析了模型的信心校準(zhǔn)情況,詳情請見論文。
為了探究當(dāng)前深度學(xué)習(xí)技術(shù)與模型信心校準(zhǔn)性質(zhì)的影響,我們受 Guo et al., 2017 的啟發(fā),研究了正則化技術(shù)對機(jī)器翻譯模型的影響:
實(shí)驗(yàn)發(fā)現(xiàn),dropout 和 label smoothing 這兩個(gè)在 Transformer 模型中非常常用的正則化技術(shù)有利于降低模型的 ECE。基于實(shí)驗(yàn)發(fā)現(xiàn),我們提出了一種 Graduated label smoothing 的方法,可以進(jìn)一步減小模型在推斷場景下的 ECE。具體地,我們的設(shè)計(jì)思想是對訓(xùn)練集中模型本身預(yù)測概率較高的樣例使用較大的 smoothing 系數(shù),對于預(yù)測概率較低的樣例使用較小的 smoothing 系數(shù)。
我們還分析了 ECE 與模型大小的關(guān)系:
實(shí)驗(yàn)發(fā)現(xiàn)盡管增大模型會提高翻譯的 BLEU 值,但是也會導(dǎo)致模型的 ECE 升高,這是增大模型參數(shù)量的一個(gè)弊端。另外我們發(fā)現(xiàn)這個(gè)問題可以通過只增大編碼器,保持解碼器不變這一簡單策略在一定程度上緩解。
總結(jié)
以上是生活随笔為你收集整理的神经机器翻译推断阶段信心校准研究 原的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 啦里啦里啦里是什么歌啊?
- 下一篇: 紫薯油炸怎么做好吃呢?