调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?
聽說(shuō)微軟搞了個(gè)AI翻譯文言文?
趕緊來(lái)試試,先來(lái)一段《曹劌論戰(zhàn)》的開頭:
我震驚了,居然能把“我”翻譯成“魯國(guó)”,“公”翻譯成“魯莊公”。
難道AI除了學(xué)習(xí)文言文詞匯和語(yǔ)法,還熟讀了《左傳》?
換成詩(shī)表現(xiàn)又將如何?
雖然翻譯出來(lái)不是很有文學(xué)性,但AI正確理解到了“望著同一個(gè)月亮”這層意思。
嚯,這個(gè)翻譯極大地引起了我的興趣。
既然翻譯出正確詞意不是太難,那文言文中的特殊語(yǔ)法AI能否掌握?
為了更好地評(píng)估微軟翻譯的能力,這里請(qǐng)出老牌選手百度翻譯,讓它們比試一下。
這里考點(diǎn)是互文的修辭方法,應(yīng)該理解成秦漢時(shí)期的明月、秦漢時(shí)期的關(guān)口。
百度的答案是:
看來(lái)百度沒理解到位,再看看微軟的答案:
微軟正確理解了互文,率先拿下1分。
這句的考點(diǎn)是詞類活用,綠本來(lái)是個(gè)形容詞,在這里用作動(dòng)詞。
還是百度先來(lái):
沒問題,接下來(lái)是微軟:
等一下,雖然綠用作動(dòng)詞翻譯對(duì)了,可是后面怎么多了一個(gè)“可是”?
難道……把后半句詩(shī)也輸進(jìn)去試試:
果然如此,看來(lái)微軟翻譯在用整句進(jìn)行訓(xùn)練的時(shí)候掌握了句與句之間的轉(zhuǎn)折關(guān)系,后來(lái)不知怎么又算到前半句里了。
這次百度扳回一局,1:1平。
比如《鄒忌諷齊王納諫》中的“我孰與城北徐公美?”
按慣例百度先:
然后是微軟:
看來(lái)兩個(gè)AI都學(xué)會(huì)了倒裝句的用法,最終結(jié)果2:2平,各有千秋。
微軟翻譯雖然多學(xué)會(huì)了一個(gè)互文,但畢竟還是年輕選手,對(duì)句子之間關(guān)系的處理需要再練習(xí)。
接下來(lái)挑戰(zhàn)一下微軟文言文翻譯的極限。
比如維基百科其實(shí)就有個(gè)文言文版叫維基大典,里面剛好有微軟的詞條。
來(lái)試試讓微軟AI翻譯一下自己公司的介紹:
看起來(lái)現(xiàn)代的偽文言文對(duì)于這個(gè)剛出生的小AI來(lái)說(shuō)還是太苛刻了。
雖然也特別訓(xùn)練了“微軟”和“電腦”這種現(xiàn)代才出現(xiàn)的名詞,但遇到“一九七五年”這種古代不用的表達(dá)就不行了,前老板比爾蓋茨的名字也沒認(rèn)出來(lái)。
“立之者”這里還按古文的語(yǔ)境腦補(bǔ)出一個(gè)“國(guó)君”,可能這就是過(guò)擬合吧。
說(shuō)到現(xiàn)代的表達(dá)方式,其實(shí)這個(gè)翻譯工具還可以倒過(guò)來(lái)用,把白話文譯成文言文。
比如諸葛丞相那句“我從未見過(guò)有如此厚顏無(wú)恥之人!”要是用文言文說(shuō)出來(lái)是不是就更對(duì)味了?
那么,這樣的模型是怎么“煉成”的呢?
用AI搞文言文翻譯,確實(shí)不是頭一回見。
百度是最早用機(jī)器學(xué)習(xí)做文言文翻譯的,還申請(qǐng)過(guò)相關(guān)專利:「一種在白話文與文言文之間進(jìn)行文體轉(zhuǎn)換的方法和設(shè)備」。
相關(guān)文言文翻譯的模型也不少,從機(jī)器學(xué)習(xí)、RNN到Transformer都有,像微軟這次采用的,就是Transformer模型:
△圖源:微軟研究院AI頭條
不過(guò),文言文翻譯中的訓(xùn)練數(shù)據(jù),卻一直是個(gè)難點(diǎn)。
相比于其他主流語(yǔ)言(中文現(xiàn)代文、英文等),文言文可以說(shuō)是訓(xùn)練數(shù)據(jù)極少,同時(shí)還存在句式變換、繁簡(jiǎn)混合等問題,造成翻譯的生硬。
這次微軟的文言文翻譯,主要就解決了四個(gè)方面的數(shù)據(jù)問題:
其一,針對(duì)數(shù)據(jù)量不足,利用相同字詞進(jìn)行數(shù)據(jù)合成和增強(qiáng)。文言文和現(xiàn)代文有一些相同含義的字詞,如果對(duì)這些詞語(yǔ)進(jìn)行召回、對(duì)齊,再擴(kuò)展到短詞短句,就能合成大量可用的訓(xùn)練數(shù)據(jù)。
其二,針對(duì)句式變換不靈活,對(duì)數(shù)據(jù)格式進(jìn)行變形,提升魯棒性。文言文斷句和現(xiàn)代文不太一樣,為此研究人員通過(guò)數(shù)據(jù)格式變形,來(lái)擴(kuò)大訓(xùn)練數(shù)據(jù)量,讓模型也學(xué)會(huì)翻譯類似語(yǔ)句。
其三,針對(duì)字體識(shí)別不力,用簡(jiǎn)繁混合數(shù)據(jù)訓(xùn)練,提升模型識(shí)別能力。為了讓機(jī)器學(xué)習(xí)能同時(shí)識(shí)別簡(jiǎn)繁混合的文言文,研究人員在訓(xùn)練模型時(shí)會(huì)將簡(jiǎn)體中文和繁體中文數(shù)據(jù)混合在一起進(jìn)行訓(xùn)練,確保翻譯模型不出錯(cuò)。
其四,針對(duì)現(xiàn)代文的“新詞”,專門建立相關(guān)數(shù)據(jù)集和識(shí)別模型,確保不“亂翻譯”。為了避免模型在遇到現(xiàn)代文中的“高鐵、電腦、互聯(lián)網(wǎng)”這種詞時(shí)出現(xiàn)混亂(例如將高鐵翻譯成高處的鐵塊),研究人員建了一個(gè)模型,專門用來(lái)識(shí)別這些新詞。除了新詞,也針對(duì)博客、論壇、微博等新文體進(jìn)行訓(xùn)練。
然而這都還只是文言文和中文之間的互譯,整點(diǎn)英文試試?
這次微軟的文言文翻譯是直接整合到了Bing翻譯里,難道還可以把文言文翻譯成外語(yǔ)?
先挑戰(zhàn)一下單個(gè)的英文句子:
Never gonna give you up
看來(lái)簡(jiǎn)單句沒有難倒AI,我們提升一下難度,用一首比較著名的英文詩(shī)「當(dāng)你老了」試試:
等等,“灰暗”、“陰景深”、“彎下腰在酒邊”……這都是什么鬼?
簡(jiǎn)單的句子似乎還好,然而一到長(zhǎng)句子,怎么就翻譯成這樣了?
不過(guò),微軟也說(shuō)過(guò),這次主要實(shí)現(xiàn)的是文言文和現(xiàn)代文互譯,說(shuō)明其他語(yǔ)言在翻譯成文言文之前,應(yīng)該也需要先翻譯成現(xiàn)代文。
那來(lái)看看微軟的英譯中效果怎么樣:
破案了,微軟的英譯中確實(shí)不太行……可能也是導(dǎo)致英文翻譯成文言文出現(xiàn)失誤的原因。
相比之下,從文言文翻譯現(xiàn)代文、再翻譯到中文的效果要稍微好一點(diǎn)。
順帶一提,雖然正經(jīng)的英文字句翻譯得不太行,不過(guò)在這種字詞的翻譯上……竟然還有點(diǎn)文藝?
看來(lái)以后可以和翻譯模型學(xué)習(xí)如何優(yōu)雅地罵人了。(手動(dòng)狗頭)
如果大家還調(diào)戲出了什么好玩的翻譯,歡迎留言~
微軟文言文翻譯地址:https://cn.bing.com/translator
總結(jié)
以上是生活随笔為你收集整理的调戏微软文言文AI翻译:“永不舍汝”、“其母之”是什么鬼?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国5G全球多个第一 工信部总工:成本太
- 下一篇: 信用卡出账单之后几天还款