支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?
谷歌表示,在提高語言翻譯的質(zhì)量方面,已經(jīng)取得了進(jìn)展。在即將發(fā)表的博客文章中,該公司詳細(xì)介紹了新的創(chuàng)新技術(shù),這些創(chuàng)新技術(shù)增強(qiáng)了 Google 翻譯(Google Translate)支持的 108 種語言(特別是數(shù)據(jù)貧乏的約魯巴語和馬拉雅拉姆語)的用戶體驗(yàn),該服務(wù)平均每天翻譯 1500 億個(gè)單詞。
自谷歌翻譯首次公開亮后的 13 年間,諸如神經(jīng)機(jī)器翻譯、基于重寫的范例和本地處理之類的技術(shù)使該平臺(tái)的翻譯準(zhǔn)確性有了可量化的飛躍。但是直到最近,翻譯的最新算法表現(xiàn)也落后于人類。Google 之外的努力也說明了問題的難度,Masakhane 項(xiàng)目旨在使非洲大陸上的數(shù)千種語言能夠自動(dòng)翻譯,但它還沒有超出數(shù)據(jù)收集和轉(zhuǎn)錄階段。共同的聲音(雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))注,Common Voice 是 Mozilla 發(fā)起的一個(gè)眾包項(xiàng)目,旨在為語音識別軟件創(chuàng)建免費(fèi)的數(shù)據(jù)庫)自 2017 年 6 月推出以來,Mozilla 為建立轉(zhuǎn)錄語音數(shù)據(jù)的開源集合所做的努力僅審查了 40 種聲音。
谷歌表示,其翻譯質(zhì)量的突破并不是由單一技術(shù)推動(dòng),而是針對資源較少的語言、高質(zhì)量源語言、總體質(zhì)量、延遲和整體推理速度的技術(shù)組合。在 2019 年 5 月至 2020 年 5 月之間,通過人工評估和 BLEU(一種基于系統(tǒng)翻譯與人工參考翻譯之間相似性的指標(biāo))進(jìn)行衡量,谷歌翻譯在所有語言中平均提高了 5 分或更多,在 50 種最低水平的翻譯中平均提高了 7 分或更多。此外,谷歌表示,“翻譯”對機(jī)器翻譯聯(lián)想的功能變得更加強(qiáng)大,一種現(xiàn)象是,當(dāng)給泰盧固語字符“??????”輸入,“Shenzhen Shenzhen Shaw International Airport (SSH)”)時(shí),AI 模型會(huì)產(chǎn)生奇怪的翻譯“Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh”。
混合模型和數(shù)據(jù)挖掘器
這些技術(shù)中的第一個(gè)是翻譯模型體系結(jié)構(gòu)——一種混合體系結(jié)構(gòu),包含在 Lingvo(用于序列建模的 TensorFlow 框架)中實(shí)現(xiàn)的 Transformer 編碼器和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)解碼器。
在機(jī)器翻譯中,編碼器通常將單詞和短語編碼為內(nèi)部表示,然后解碼器將其用于生成所需語言的文本。谷歌相關(guān)研究人員于 2017 年首次提出的基于 Transformer 模型在此方面比 RNN 更為有效,但谷歌表示其工作表明大部分質(zhì)量提升僅來自于 Transformer 的一個(gè)組成部分:編碼器。那可能是因?yàn)殡m然 RNN 和 Transformer 都被設(shè)計(jì)為處理有序的數(shù)據(jù)序列,但是 Transformers 并不需要按順序處理序列。換句話說,如果所討論的數(shù)據(jù)是自然語言,則 Transformer 無需在處理結(jié)尾之前處理句子的開頭。
盡管如此,在推理時(shí),RNN 解碼器仍比“Transformer”中的解碼器“快得多”。意識到這一點(diǎn),Google Translate 團(tuán)隊(duì)在將 RNN 解碼器與 Transformer 編碼器結(jié)合之前對 RNN 解碼器進(jìn)行了優(yōu)化,以創(chuàng)建低延遲、質(zhì)量更高,比四年前基于 RNN 的神經(jīng)機(jī)器翻譯模型更穩(wěn)定的混合模型進(jìn)行替代。
圖:自 2006 年成立以來,Google 翻譯模型的 BLEU 得分。(圖片來源:Google)
除了新穎的混合模型體系結(jié)構(gòu)之外,Google 還從數(shù)以百萬計(jì)的示例翻譯中(用于文章、書籍、文檔和 Web 搜索結(jié)果)編譯了用于編譯訓(xùn)練集的數(shù)十年歷史的爬蟲。新的翻譯器基于嵌入的 14 種主流語言,而不是基于字典的-意味著它使用實(shí)數(shù)矢量表示單詞和短語-更加注重精度(相關(guān)數(shù)據(jù)在檢索到的數(shù)據(jù)中所占的比例)想到(實(shí)際檢索到的相關(guān)數(shù)據(jù)總量的一部分)。谷歌表示,在使用過程中,這使翻譯器提取的句子數(shù)量平均增加了 29%。
有噪音的數(shù)據(jù)和轉(zhuǎn)移學(xué)習(xí)
另一個(gè)翻譯性能提升來自更好地處理訓(xùn)練數(shù)據(jù)中噪聲的建模方法。觀察到有噪聲的數(shù)據(jù)(含有大量無法正確理解或解釋的大量信息的數(shù)據(jù))會(huì)損害語言的翻譯,因此 Google 翻譯團(tuán)隊(duì)部署了一個(gè)系統(tǒng),該系統(tǒng)使用經(jīng)過訓(xùn)練的模型為示例分配分?jǐn)?shù)對嘈雜的數(shù)據(jù)進(jìn)行調(diào)優(yōu),并對“干凈的”數(shù)據(jù)進(jìn)行調(diào)優(yōu)。實(shí)際上,這些模型開始對所有數(shù)據(jù)進(jìn)行訓(xùn)練,然后逐步對較小和較干凈的子集進(jìn)行訓(xùn)練,這是 AI 研究社區(qū)中稱為課程學(xué)習(xí)的方法。
在資源匱乏的語言方面,Google在翻譯中實(shí)施了反向翻譯方案,以增強(qiáng)并行訓(xùn)練數(shù)據(jù),該語言中的每個(gè)句子都與其翻譯配對。(機(jī)器翻譯傳統(tǒng)上依賴于源語言和目標(biāo)語言中成對句子的語料統(tǒng)計(jì))在這種方案中,訓(xùn)練數(shù)據(jù)會(huì)自動(dòng)與合成并行數(shù)據(jù)對齊,從而目標(biāo)文本是自然語言,但會(huì)生成源通過神經(jīng)翻譯模型。結(jié)果是谷歌翻譯利用了更豐富的單語文本數(shù)據(jù)來訓(xùn)練模型,Google 表示這對于提高流利性特別有用。
圖:帶有翻譯功能的 Google Maps。
谷歌翻譯現(xiàn)在還利用了 M4 建模,其中一個(gè)大型模型 M4 在多種語言和英語之間進(jìn)行翻譯。(M4 是于去年在一篇論文中首次提出,證明它在訓(xùn)練了 100 多種語言中的 250 億對句子對之后,提高了 30 多種低資源語言的翻譯質(zhì)量。)M4 建模使谷歌翻譯中的遷移學(xué)習(xí)成為可能,收集了包括法語、德語和西班牙語(有數(shù)十億個(gè)并行示例)的高資源語言進(jìn)行訓(xùn)練提升了表現(xiàn),從而可以應(yīng)用于翻譯諸如約魯巴語、信德語和夏威夷語(僅有數(shù)萬個(gè)示例)的低資源語言。
展望未來
根據(jù) Google 的說法,自 2010 年以來,翻譯每年至少提高了 1 個(gè) BLEU 點(diǎn),但是自動(dòng)機(jī)器翻譯絕不能解決問題。Google 承認(rèn),即使是其增強(qiáng)的模型也容易出錯(cuò),包括將一種語言的不同方言混淆,產(chǎn)生過多的直譯,以及在特定題材和非正式或口頭語言上的表現(xiàn)不佳。
微軟試圖通過各種方式解決這一問題,包括通過其谷歌翻譯社區(qū)計(jì)劃(Google Translate Community)來招募志愿者,通過翻譯單詞和短語或檢查翻譯是否正確來幫助提高低資源語言的翻譯質(zhì)量。僅在 2 月份,該程序與新興的機(jī)器學(xué)習(xí)技術(shù)相結(jié)合,就增加了翻譯,共有 7500 萬人使用了五種語言:Kinyarwanda、Odia(奧里亞語)、Tatar、Turkmen 和 Uyghur(維吾爾語)。
追求真正通用翻譯的并不只有 Google。在 2018 年 8 月,F(xiàn)acebook公開了一種 AI 模型,該模型結(jié)合了逐詞翻譯,語言模型和反向翻譯的組合,在語言配對方面表現(xiàn)更好。最近,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的研究人員提出了一種無監(jiān)督的模型,即可以從未明確標(biāo)記或分類的測試數(shù)據(jù)中學(xué)習(xí)的模型,該模型可以在兩種語言的文本之間進(jìn)行翻譯,而無需在兩種語言之間直接進(jìn)行翻譯。
谷歌在一份聲明中以外交方式表示,它對“學(xué)術(shù)界和工業(yè)界”的機(jī)器翻譯研究表示感謝,其中一些通報(bào)了自己的工作。該公司表示:“我們通過綜合和擴(kuò)展各種最新進(jìn)展來實(shí)現(xiàn)(谷歌翻譯最近的改進(jìn))。通過此更新,我們?yōu)樘峁┫鄬σ恢碌淖詣?dòng)翻譯而感到自豪,即使是在支持的 108 種語言中資源最少的情況下也是如此。”
總結(jié)
以上是生活随笔為你收集整理的支持108种语言的谷歌翻译如何用AI让翻译质量越来越好?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 灵修是什么意思香蜜沉沉烬如霜(灵修是什么
- 下一篇: 虞美人是罂粟花吗(罂粟花和虞美人的区别)