谷歌提出可量化评估NLG模型性能的BLEURT指标
過(guò)去幾年,自然語(yǔ)言生成(NLG)模型得到了巨大的發(fā)展,通讀、總結(jié)文本、以及參與對(duì)話的能力都已大幅提升。為便于研究團(tuán)隊(duì)評(píng)估不同 NLG 模型的性能,搜索巨頭谷歌(Google)特地提出了一個(gè)名叫 BLEURT 量化指標(biāo)。通常情況下,我們可以通過(guò)人工和自動(dòng)化流程來(lái)評(píng)估 NLG 模型,比如雙語(yǔ)評(píng)估學(xué)習(xí)(BLEU)。前者的缺點(diǎn)是太費(fèi)人力,后者的優(yōu)勢(shì)是具有更高的準(zhǔn)確性。
(來(lái)自:MIT Tech Review)
谷歌研究人員稱,BLEURT 是一種針對(duì)自然語(yǔ)言模型(NLG)的全新自動(dòng)化評(píng)估指標(biāo),可為不同模型打出可靠的評(píng)分,結(jié)果接近、甚至超越了人類指標(biāo)。
據(jù)悉,BLEURT 的核心為機(jī)器學(xué)習(xí)。對(duì)于任何 ML 模型,最重要的就是訓(xùn)練用的數(shù)據(jù)有多豐富。然而對(duì)于 NLG 模型來(lái)說(shuō),其訓(xùn)練數(shù)據(jù)是相當(dāng)有限的。
實(shí)際上,在 WMT Metrics Task 數(shù)據(jù)集中(目前人類匯聚的最大集合),也僅收集了涵蓋新聞?lì)I(lǐng)域的大約 26 萬(wàn)數(shù)據(jù)。
若將之用作唯一的訓(xùn)練數(shù)據(jù)集,那 WMT 度量任務(wù)數(shù)據(jù)集將失去訓(xùn)練模型的通用性和魯棒性。為攻克這一問(wèn)題,研究人員采取了轉(zhuǎn)移學(xué)習(xí)的方法。
首先,研究團(tuán)隊(duì)使用了 BERT 的上下文詞,且其已順利聚合到 Yis 和 BERTscore 等 NLG 量化工具中。
接著,研究人員介紹了一種新穎的預(yù)訓(xùn)練方案,以提升 BLEURT 的魯棒性和準(zhǔn)確度,同時(shí)有助于應(yīng)對(duì)模型的質(zhì)量偏移。
在微調(diào)人工量化標(biāo)準(zhǔn)前,BLEURT 借助了數(shù)以百萬(wàn)計(jì)的合成句子,對(duì) NLG 模型展開了“預(yù)熱”訓(xùn)練。其通過(guò)來(lái)自維基百科的句子、加上隨機(jī)擾動(dòng)來(lái)生成訓(xùn)練數(shù)據(jù)。
研究團(tuán)隊(duì)未手機(jī)人工評(píng)分,而是使用了相關(guān)文獻(xiàn)(含 BLEU)中的指標(biāo)與模型集合,能夠以極低的代價(jià)來(lái)擴(kuò)大訓(xùn)練示例的數(shù)量,然后對(duì) BLEURT 進(jìn)行了兩次預(yù)訓(xùn)練。
其一階段目標(biāo)是語(yǔ)言建模,二階段目標(biāo)則是評(píng)估 NLG 模型,此后團(tuán)隊(duì)在 WMT 指標(biāo)數(shù)據(jù)集上對(duì)模型進(jìn)行了微調(diào)。一旦受過(guò)訓(xùn)練,BLEURT 就會(huì)試著與競(jìng)爭(zhēng)方案對(duì)抗,以證明其由于當(dāng)前的指標(biāo)。
據(jù)悉,BLUERT 在 Python 3 上運(yùn)行,且依賴于 TensorFlow,詳情可參閱 GitHub 項(xiàng)目介紹頁(yè)(傳送門)。有關(guān)這項(xiàng)研究的詳情,可翻看ArXiv上的預(yù)印本。
最后,研究人員還總結(jié)了其它結(jié)果,比如 BLEURT 試圖“捕獲表面重疊以外的 NLG 質(zhì)量”,該指標(biāo)在兩項(xiàng)學(xué)術(shù)基準(zhǔn)評(píng)估中獲得了 SOTA 的評(píng)價(jià)。
總結(jié)
以上是生活随笔為你收集整理的谷歌提出可量化评估NLG模型性能的BLEURT指标的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 蒙古马精神内容蒙古马精神具体表现(蒙古马
- 下一篇: 莞穗深轻轨站点?(莞穗深轻轨站点)