黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的
對國際化企業來說語言問題是亟待突破的重要關口。面對海量的文本翻譯任務,昂貴低效的人工翻譯顯然不能滿足需求,利用計算機自動進行文本翻譯的機器翻譯才是解決這個問題的關鍵。阿里翻譯團隊在機器翻譯領域做了大量技術儲備,并針對我們所處的電子商務領域進行算法優化,進而打造阿里巴巴自己的機器翻譯平臺。
目前阿里翻譯API已經正式上線阿里云平臺,讓所有的阿里云用戶可以申請使用阿里翻譯的最新技術成果啦,今天就讓我們一起進入機翻黑科技時間-解密阿里翻譯。
1、阿里翻譯支持的業務場景
阿里翻譯積極助力集團國際化、全球化業務,不僅在電商業務場景有著扎實的積累和優質的服務能力,同時也在不斷拓展創新業務場景,借助AI技術賦能產品和服務。
目前已為集團內十幾條業務線提供機器翻譯和本地化支持,覆蓋了Alibaba.com 、 AliExpress 、 Lazada 、釘釘、阿里云、優酷、支付寶、菜鳥、天貓精靈、高德、飛豬等眾多產品。
1.1跨境電商解決方案
阿里機器翻譯深入剖析“網站/APP本地化”、“引流拉新”、“到站搜索”、“用戶轉化”、“支付物流”、“留存復購”等全鏈路環節,提供多類的翻譯和語言服務,積極提升業務價值。
以下是部分鏈路環節介紹:
1.1.1搜索翻譯
跨境電商中目前搜索引擎主要基于英文做索引,需要將本地用戶輸入的搜索詞進行語種識別然后再翻譯成英文,通過英文進行索引匹配,返回搜索結果,這是保障多語言流量轉化率的關鍵環節,直接影響多語言電商GMV。
除跨語言搜索翻譯外,目前阿里翻譯在搜索自動化上支持完整的人工解決方案,能夠針對電商平臺高流量top search query快速提供人工語種識別&翻譯結果,干預生效,同時挖掘搜索業務低轉化的badcase search query并快速人工修正翻譯結果的能力,快速提升轉化指標。
1.1.2商品翻譯
跨境電商中需要對全站商品信息進行多語言化,包括商品標題、商品詳情、商品評論等內容進行翻譯。其中商品標題是用戶獲取商品信息的重要途徑,在商品標題翻譯場景上,通過對源語言是中文或者英文的標題進行NER識別,并根據不同業務方的業務規則對識別后的標題根據成分進行重新改寫生成,改寫后再翻譯成目標語種。對商品的購買轉換率有非常重要的影響。
商品詳情是用戶閱讀商品信息的主要內容,包括商品屬性、商品描述等信息,商品屬性是商品的關鍵信息,機器翻譯系統會通過翻譯記憶將關鍵信息進行高質量存儲提高翻譯準確率,這部分內容能夠幫助用戶更好的了解商品各種規格材質,有效幫助用戶進行購買決策。
由于網站買家來自全球各地,所以用戶對商品的評價信息也是來自多國多語言,網站提供選項將多語言評論信息勾選統一翻譯成英文的功能,幫助買家更好了解其他買家對商品的評價反饋信息。
1.1.3溝通翻譯:
網站買賣家都是來自世界各地,所以對商品的基本信息,售前咨詢,售后服務都需要進行基本的語言溝通,這是翻譯最基本的應用場景,通過提供實時機器翻譯同時能夠對翻譯結果進行后編輯,提升翻譯后譯文的質量。可以幫助電商網站大大提升購買轉化和售后投訴等等問題。
1.2網站國際化解決方案
阿里翻譯目前服務集團內數十個業務方的產品國際化及本地化需求,支持數十種語言的人工精翻,實現網站本地化的標準化、自動化、中臺化。
1.3 人機結合翻譯解決方案
目前現有機器翻譯質量還不完美的前提下,對于一些對質量要求極高的內容通過適當加入人工翻譯的力量可以快速達成業務目標,目前阿里翻譯擁有上百家語言供應商和數十萬個人譯者的龐大翻譯資源,可以針對重點商品進行高效快速的低成本人工翻譯,對快速啟動新業務起到了不可或缺的作用。
1.4創新服務場景解決方案
阿里翻譯沉淀了優質的跨境語料數據庫,充分利用先進的機器翻譯算法技術和海量的數據資源,深度打磨機器翻譯質量和產品體驗,并積極拓展機器翻譯業務的產品形態,將各項機器翻譯技術產品化,如語音翻譯、會場同傳、實時溝通等新產品和服務形態。
阿里巴巴實時語音翻譯,于18年初隨阿里AI軍團一同出征美國CES(國際消費電子展),在拉斯維加斯精彩亮相,成功吸引了國內外眾多媒體和觀眾的目光。
2、阿里機器翻譯技術體系的特點
在線上快速發展以及隨著集團開始全面國際化的背景下,阿里機器翻譯平臺經過多年的打磨逐漸形成自己的體系。
2.1高性能高并發服務能力
當前在線機器翻譯系統提供SMT和NMT兩種翻譯模型,近兩年來由于硬件計算能力的大幅提升和深度機器學習的廣泛使用,在翻譯質量上NMT翻譯質量已經遠超傳統的SMT模型,不過NMT在計算上的復雜使得NMT在速度上也遠慢于SMT。NMT解碼速度的提升是系統提供高吞吐,低延遲服務的關鍵。
2.1.1 分布式并行翻譯
當前機翻平臺承接的業務相當大的一部分翻譯需求為大本文和網頁,將這些請求按照對應的格式進行結構化的解析,然后通過分句模型把篇章級的請求分隔為句子級別,然后再分布式批量調用解碼服務,這樣不僅能大幅提高分布式緩存的命中率,環節性能壓力同時也能大幅降低長文本的翻譯延遲。
2.1.2 Inference優化
今年NMT已經成了翻譯行業的一個標配,隨著這種技術的普及也給系統性能帶來了新的挑戰。這一年多基于GPU的NMT優化極大的提高了系統的解碼速度,對系統的解碼速度有數倍的提升。
2.1.3 SMT和NMT混合解碼
根據實際業務場景,我們發現在處理商品頁的時候會出現大量短句,而且這些短句的NMT翻譯結果還不如SMT的翻譯結果,所以在調用decoder前通過一個策略模塊來決策調用SMT或者NMT,從而減少NMT的吞吐量,極大的減少了GPU資源的消耗同時也提升了翻譯質量。
2.2 服務全球化以及高可用的保障
2.2.1 全球多機房部署
阿里集團的涉及到的多語言翻譯業務需求遍布全球,為了更好的支持不同地域的翻譯需求同時能盡量減小由于地域帶來的訪問延遲,翻譯平臺實現了全球中國、俄羅斯、美國、新加坡多機房部署。 不僅實現了單地域的多機房容災同時還支持跨地域全球容災。
2.2.2 多場景差異化支持
阿里翻譯接入的場景比較多情況也比較復雜,不同的應用場景對系統的要求也不盡相同,所以針對不同的應用場景實現了同步和異步兩套處理機制,架構上實現兩種不同的對外接口,但是機翻引擎保持同一套代碼同一套服務,
同步:
接收到請求后實時的調用后端引擎,能夠做到實時返回,用于對rt要求高的場景,另外通過多級緩存進一步的提高吞吐量和降低rt。
異步:
大文本商品翻譯和離線翻譯場景。通過metaq消息隊列實現異步化,通過不同的消息隊列來對應用設置不同的優先級,使用信號量來控制不同隊列消費的線程數,動態的解決翻譯熱點時消息堆積問題。
2.3 Transformer 新型神經網絡結構
阿里機器翻譯基于業界最新的Transformer結構進行了網絡結構的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。
2.4 多模態服務能力
現階段的機器翻譯已不僅僅局限于文字到文字的翻譯, 多模態的翻譯已成為發展趨勢。將多模態的信息如語音、圖像、類目等通過神經網絡進行融合,并利用Attention機制將信息加以聚焦,可以獲得良好的效果。阿里翻譯實時語音翻譯demo在云棲大會、CES展會上都有亮眼的表現。
3、阿里云機器翻譯API接入流程
介紹了技術能力和如此廣闊的應用場景,接下來詳細介紹下我們到底應該如何接入使用?
1、打開阿里云主頁(https://www.aliyun.com),在導航欄選擇產品-人工智能-機器翻譯,進入自然語言處理頁面選擇開通服務
2、勾選閱讀并同意協議,單擊立即開通
3、進入自然語言處理控制臺,選擇購買資源包
4、購買對應的資源包,購買量越大單價越便宜。
5、購買完成后就可以進行調用了。可在API調試界面進行調試
6、機器翻譯調用說明文檔
7、代碼調用示例
8、代碼調用失敗示例,查看錯誤信息
4、未來展望
為了更好地迎接國際化帶來的挑戰, 阿里翻譯團隊在未來還有著很大的想象空間,在翻譯模型上會向“統一化,多任務化,多模態化”方向發展,產品形態上除了目前基于文本的翻譯外,會擴展跟多模態的翻譯產品,例如語音翻譯、圖像翻譯等領域,同時還是針對具體應用場景例如搜索、實時溝通、旅游推出相關接口服務,在服務部署上也會針對客戶需求推出定制化私有化部署的能力,助力企業解決國際化過程中的語言問題。
了解更多阿里云AI產品請戳:http://click.aliyun.com/m/100...
本文作者:云攻略小攻
閱讀原文
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 当前应用拦截NFC响应,不弹出选择框教程
- 下一篇: 人类的幸福和欢乐在于奋斗,而最有价值的是