當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

NLP大牛菲利普•科恩机器翻译权威著作

發布時間：2023/12/9 编程问答 58 豆豆

生活随笔收集整理的這篇文章主要介紹了 NLP大牛菲利普•科恩机器翻译权威著作小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

近些年，機器翻譯技術發生了翻天覆地的變化。與人工智能中的其他領域一樣，深度神經網絡已經成為主流范式，在提高翻譯質量的同時也帶來了新的挑戰。

本書的出版恰逢中國機器翻譯研究迅猛發展之時。在過去的二十年里，數據驅動方法對中文給予了特別的重視，無論是在學術研究機構內，還是在新興的人工智能公司中，中國的研究人員都做了大量工作。

機器翻譯模型在現實世界中成功與否取決于它在獲取信息、跨越語言障礙進行交流方面的實用性。最終希望機器翻譯能夠讓世界各地的人們增進理解，不管他們的母語是什么。開放的思想交流不僅對于科學研究至關重要，而且對于全人類共同努力以實現自由生活，追求與自然和諧相處的幸福這一共同目標同樣重要。

本書內容

深度學習正在徹底改變當今機器翻譯系統的構建方式。本書從歷史、語言和應用背景等方面介紹了機器翻譯和評價所面臨的挑戰，講述了自然語言應用中常用的深度學習核心方法。此外，本書還包含使用Python撰寫的代碼示例，為讀者理解和實現自己的機器翻譯系統提供了一個實踐藍本。本書內容廣泛，涵蓋了機器學習技巧、處理各種形式的數據所涉及的問題、模型增強，以及分析和可視化面臨的挑戰和方法等內容。

本書是對機器翻譯應用當前研究的一個總結，可作為相關專業本科生和研究生的教材，也可以作為那些對神經方法在人類語言處理更廣泛領域中的應用感興趣的研究人員和開發人員的參考書。

閱讀指南

本書分為三部分。第一部分包含第1～4章，簡要介紹機器翻譯中的問題、機器翻譯技術的實際應用及歷史，討論一直困擾機器翻譯領域的譯文質量評價問題。第二部分包含第5～9章，解釋神經網絡、基本機器翻譯模型的設計，以及訓練和解碼的核心算法。第三部分包含第10～17章，既涵蓋構建新模型的關鍵內容，也涉及開放性的挑戰問題和一些未解決問題的前沿研究。

本書中的核心概念以四種方式進行介紹：非正式描述、正式的數學定義、插圖說明和示例代碼（用Python和PyTorch實現）。希望讀者能夠理解神經機器翻譯背后的基礎知識，能夠實現最先進的模型，并能夠修改現有的工具包以實現新穎的想法。

誰適合閱讀本書

本書可作為大學本科和研究生課程的教材，也可以與其他應用任務的相關材料一起用于自然語言處理課程或者僅用于側重機器翻譯的課程（其中還應介紹統計機器翻譯的某些方面，例如詞對齊、更簡單的翻譯模型和解碼算法）。由于本書涵蓋了撰寫時該領域的最新研究進展，因此它也可以作為該領域研究人員的參考書。

跳讀指南

著急的讀者可以直接跳到開始介紹核心技術的第5章。第二部分（第5～9章）包含了神經機器翻譯的所有基本概念，包括實現此類模型的代碼指南。本書的第三部分（也是篇幅最長的部分）包含了構建先進系統所需的許多關鍵主題。第10章、12.3節和14.1節是必讀章節。神經機器翻譯是一個快速發展的領域，第11章介紹的Transformer模型能夠讓你快速了解當前的最新技術。

本書作者

菲利普·科恩(PhilippKoehn)?約翰斯·霍普金斯大學計算機科學系的教授。他是機器翻譯領域的領軍人物，于2010年出版了教材Statistical Machine Translation（劍橋大學出版社出版，中文版為《統計機器翻譯》）。他曾獲國際機器翻譯協會頒發的榮譽獎，是2013年歐洲專利局歐洲發明家獎的最終三名入圍者之一。他還活躍在科技產業界，是Omniscien Technology公司的首席科學家、Meta公司的顧問。

本書譯者

張家俊，中國科學院自動化研究所研究員、博士生導師，主要研究方向為機器翻譯和自然語言處理，曾獲得國家優秀青年科學基金資助，入選中國科協首屆青年人才托舉工程和北京智源青年科學家。發表CCF-A/B類論文70余篇，出版學術專著2部，6次獲得最佳/優秀論文獎，3次被評為IJCAI、ACL和NAACL的杰出SPC和審稿人。曾獲得中國中文信息學會錢偉長中文信息處理科學技術獎一等獎、青年創新獎一等獎和北京市科學技術獎一等獎等，曾擔任中國中文信息學會機器翻譯專委會副主任、青年工作委員會副主任，多次擔任ACL/EMNLP/COLING的(資深)領域主席。

趙陽，博士，中國科學院自動化研究所助理研究員。2019年畢業于中國科學院自動化研究所模式識別國家重點實驗室，獲博士學位。畢業后留所工作，研究方向為自然語言處理與機器翻譯，在國內外相關頂級學術會議（AAAI、IJCAI、EMNLP、COLING等）和著名期刊（TASLP、AI、TALLIP等）上發表20余篇論文。擔任國際權威期刊（TASLP等）的審稿人，多次擔任國際頂級學術會議（ACL、COLING、IJCAI、AAAI）的程序委員會委員，擔任COLING-20的出版主席。作為負責人和參與人員，主持和參與國家自然基金、科技部重點研發計劃和中國科學院先導計劃等多項國家項目。

宗成慶，中國科學院自動化研究所研究員、博士生導師，中國科學院大學崗位教授（A類），中國人工智能學會會士和中國計算機學會會士。主要從事自然語言處理、機器翻譯和語言認知計算等研究，主持國家項目10余項，發表論文200余篇，出版《統計自然語言處理》等專著三部和譯著一部，是國際計算語言學委員會（ICCL）委員、亞洲自然語言處理學會（AFNLP）主席和中國中文信息學會副理事長。曾任國際一流學術會議ACL 2015程序委員會主席和ACL 2021大會主席。曾榮獲國家科技進步獎二等獎和北京市科學技術獎一等獎等，曾獲北京市優秀教師、中國科學院優秀導師和寶鋼優秀教師獎等若干榮譽，享受國務院特殊津貼。

大咖推薦

本書系統地介紹了神經機器翻譯的基本原理、關鍵技術和實現方法，深入淺出，通俗易懂，是一部精品之作。譯者長期從事機器翻譯研究，對技術細節有清楚的了解，翻譯質量高。特此向讀者推薦。

——黃河燕? ?北京理工大學教授、博士生導師，人工智能研究院院長

神經機器翻譯已經成為本領域國際主流方法。由一流的機器翻譯專家翻譯一流的機器翻譯著作，可謂恰逢其時、相得益彰。這部巨著將成為機器翻譯技術學習的寶鑒。

——趙鐵軍? 哈爾濱工業大學教授、博士生導師

本書是著名機器翻譯專家科恩博士的上一部著作《統計機器翻譯》的姊妹篇。這兩部著作是數據驅動的機器翻譯的經典文獻。本書的出版對推動機器翻譯技術研究和開發具有十分重要的意義。

——周明? 創新工場首席科學家、瀾舟科技創始人

《神經機器翻譯》全面深入地闡述了神經機器翻譯的基本概念、關鍵技術和研究進展，為機器翻譯及人工智能相關領域的研究者提供了重要參考，有助于激發進一步的研究探索。

——王海峰? 百度首席技術官、深度學習技術及應用國家工程實驗室主任

科恩博士是著名的機器翻譯專家，本書是他繼《統計機器翻譯》之后的又一部力作，系統闡述了機器翻譯的最新進展。兩部著作由同一國內頂級機器翻譯研發團隊牽頭翻譯，是中文讀者的幸運，值得大力推薦。

——張民? 哈爾濱工業大學（深圳）特聘校長助理、國家杰出青年基金獲得者

近五年來，機器翻譯技術在深度學習的推動下產生了重要的范式變遷。本書系統全面地介紹了神經機器翻譯的基本問題、重要模型與核心算法，對自然語言處理特別是機器翻譯領域的研究人員來說具有重要的參考價值，值得深入閱讀。

——劉洋? 清華大學智能產業研究院副院長、國家杰出青年基金獲得者

上拉下滑查看目錄 ↓

作者寄語

譯者序

前言

閱讀指南

第一部分　緒論

第1章　翻譯問題 2

1.1　翻譯的目標 2

1.2　歧義性 4

1.2.1　詞匯翻譯問題 4

1.2.2　短語翻譯問題 4

1.2.3　句法翻譯問題 5

1.2.4　語義翻譯問題 5

1.3　語言學觀點 6

1.4　數據視角 9

1.4.1　忠實度 9

1.4.2　流暢度 10

1.4.3　齊普夫定律 11

1.5　實際問題 13

1.5.1　公開的數據 13

1.5.2　評測活動 13

1.5.3　工具集 14

第2章　機器翻譯的應用 15

2.1　信息獲取 15

2.2　人工輔助翻譯 16

2.3　交流 18

2.4　自然語言處理的管道式系統 21

2.5　多模態機器翻譯 21

第3章　歷史回顧 23

3.1　神經網絡 24

3.1.1　生物學啟發 24

3.1.2　感知器學習 25

3.1.3　多層網絡 25

3.1.4　深度學習 26

3.2　機器翻譯 27

3.2.1　密碼破譯 27

3.2.2　ALPAC報告與后續影響 27

3.2.3　首個商用系統 28

3.2.4　基于中間語言的翻譯系統 28

3.2.5　數據驅動的方法 28

3.2.6　開源的研發環境 29

3.2.7　深入用戶 30

3.2.8　神經翻譯的興起 30

第4章　評價方法 32

4.1　基于任務的評價 32

4.1.1　真實世界的任務 33

4.1.2　內容理解 33

4.1.3　譯員翻譯效率 34

4.2　人工評價 35

4.2.1　忠實度和流暢度 35

4.2.2　排序 37

4.2.3　連續分數 38

4.2.4　眾包評價 40

4.2.5　人工譯文編輯率 41

4.3　自動評價指標 41

4.3.1　BLEU 42

4.3.2　同義詞和形態變體 43

4.3.3　TER 44

4.3.4　characTER 45

4.3.5　自舉重采樣 45

4.4　指標研究 47

4.4.1　關于評價的爭論 47

4.4.2　對評價指標的評價 48

4.4.3　自動評價指標缺點的相關證據 49

4.4.4　新的評價指標 50

第二部分　基礎

第5章　神經網絡 54

5.1　線性模型 54

5.2　多層網絡 55

5.3　非線性模型 56

5.4　推斷 57

5.5　反向傳播訓練 59

5.5.1　輸出節點權重 60

5.5.2　隱藏層節點權重 61

5.5.3　公式總結 63

5.5.4　權重更新示例 63

5.5.5　驗證集 64

5.6　探索并行處理 65

5.6.1　向量和矩陣運算 65

5.6.2　小批量訓練 65

5.7　動手實踐：使用Python實現神經網絡 66

5.7.1　Numpy庫中的數據結構和函數 66

5.7.2　前向計算 67

5.7.3　反向計算 67

5.7.4　鏈式法則的重復使用 68

5.8　擴展閱讀 71

第6章　計算圖 72

6.1　用計算圖描述神經網絡 72

6.2　梯度計算 73

6.3　動手實踐：深度學習框架 77

6.3.1　利用PyTorch實現前向和反向計算 77

6.3.2　循環訓練 79

6.3.3　批訓練 80

6.3.4　優化器 81

第7章　神經語言模型 83

7.1　前饋神經語言模型 83

7.1.1　表征單詞 84

7.1.2　神經網絡架構 85

7.1.3　訓練 86

7.2　詞嵌入 86

7.3　噪聲對比估計 88

7.4　循環神經語言模型 89

7.5　長短時記憶模型 91

7.6　門控循環單元 93

7.7　深度模型 94

7.8　動手實踐：PyTorch中的神經語言模型 96

7.8.1　循環神經網絡 96

7.8.2　文本處理 97

7.8.3　循環訓練 98

7.8.4　建議 99

7.9　擴展閱讀 100

第8章　神經翻譯模型 101

8.1　編碼器–解碼器方法 101

8.2　添加對齊模型 102

8.2.1　編碼器 102

8.2.2　解碼器 103

8.2.3　注意力機制 104

8.3　訓練 106

8.4　深度模型 108

8.4.1　解碼器 108

8.4.2　編碼器 109

8.5　動手實踐：利用PyTorch實現神經翻譯模型 110

8.5.1　編碼器 111

8.5.2　解碼器 111

8.5.3　訓練 113

8.6　擴展閱讀 115

第9章　解碼 116

9.1　柱搜索 116

9.2　集成解碼 119

9.2.1　生成候選系統 120

9.2.2　融合系統輸出 120

9.3　重排序 121

9.3.1　利用從右到左解碼的重排序 121

9.3.2　利用反向模型的重排序 122

9.3.3　增加n-best列表的多樣性 122

9.3.4　評分組件的權重學習 123

9.4　優化解碼 126

9.5　約束解碼 127

9.5.1　XML模式 127

9.5.2　網格搜索 127

9.5.3　強制注意力 128

9.5.4　評價 129

9.6　動手實踐：Python中的解碼 129

9.6.1　假設 129

9.6.2　柱空間 129

9.6.3　搜索 131

9.6.4　輸出最佳譯文 132

9.7　擴展閱讀 133

第三部分　提高

第10章　機器學習技巧 138

10.1　機器學習中的問題 138

10.2　確保隨機性 140

10.2.1　打亂訓練數據 141

10.2.2　權重初始化 141

10.2.3　標簽平滑 142

10.3　調整學習率 142

10.3.1　動量項 142

10.3.2　調整每個參數的學習率 143

10.3.3　批梯度更新 144

10.4　避免局部最優 145

10.4.1　正則化 145

10.4.2　課程學習 145

10.4.3　drop-out法 146

10.5　處理梯度消失和梯度爆炸問題 147

10.5.1　梯度裁剪 147

10.5.2　層歸一化 147

10.5.3　捷徑連接和高速連接 148

10.5.4　LSTM和梯度消失 149

10.6　句子級優化 150

10.6.1　最小風險訓練 150

10.6.2　生成對抗訓練 151

10.7　擴展閱讀 152

第11章　替代架構 155

11.1　神經網絡組件 155

11.1.1　前饋層 155

11.1.2　因子分解 156

11.1.3　基本的數學運算 157

11.1.4　循環神經網絡 158

11.1.5　卷積神經網絡 159

11.2　注意力模型 160

11.2.1　注意力計算 160

11.2.2　多頭注意力 161

11.2.3　細粒度注意力 162

11.2.4　自注意力 162

11.3　卷積機器翻譯模型 163

11.4　融合注意力機制的卷積神經網絡 165

11.4.1　編碼器 165

11.4.2　解碼器 166

11.4.3　注意力 167

11.5　自注意力：Transformer 167

11.5.1　自注意力層 167

11.5.2　解碼器中的注意力 168

11.6　擴展閱讀 171

第12章　重溫單詞 173

12.1　詞嵌入 173

12.1.1　潛在語義分析 174

12.1.2　連續詞袋模型 175

12.1.3　Skip Gram 176

12.1.4　GloVe 176

12.1.5　ELMo 177

12.1.6　BERT 178

12.2　多語言詞嵌入 178

12.2.1　特定語言詞嵌入之間的映射 179

12.2.2　語言無關的詞嵌入 180

12.2.3　僅使用單語數據 180

12.3　大詞匯表 182

12.3.1　低頻詞的特殊處理 182

12.3.2　字節對編碼算法 183

12.3.3　句子片段化算法 184

12.3.4　期望最大化訓練 185

12.3.5　子詞正則化 185

12.4　基于字符的模型 186

12.4.1　字符序列模型 186

12.4.2　基于字符的單詞表示模型 186

12.4.3　集成基于字符的模型 188

12.5　擴展閱讀 189

第13章　領域自適應 195

13.1　領域 195

13.1.1　語料庫之間的差異 196

13.1.2　多領域場景 197

13.1.3　領域內與領域外 198

13.1.4　自適應效應 198

13.1.5　合理的警告 199

13.2　混合模型 199

13.2.1　數據插值 199

13.2.2　模型插值 200

13.2.3　領域感知訓練 201

13.2.4　主題模型 202

13.3　欠采樣 204

13.3.1　Moore-Lewis：語言模型交叉熵 204

13.3.2　基于覆蓋范圍的方法 205

13.3.3　樣本加權 206

13.4　微調 206

13.4.1　約束更新 207

13.4.2　文檔級自適應 208

13.4.3　句子級自適應 209

13.4.4　課程訓練 210

13.5　擴展閱讀 210

第14章　超越平行語料庫 214

14.1　使用單語數據 215

14.1.1　增加語言模型 215

14.1.2　回譯 216

14.1.3　迭代回譯 217

14.1.4　往返訓練 217

14.2　多種語言對 218

14.2.1　多種輸入語言 219

14.2.2　多種輸出語言 219

14.2.3　共享模塊 220

14.3　訓練相關任務 221

14.3.1　預訓練詞嵌入 221

14.3.2　預訓練編碼器和解碼器 221

14.3.3　多任務訓練 222

14.4　擴展閱讀 222

第15章　語言學結構 228

15.1　有指導的對齊訓練 228

15.2　建模覆蓋度 230

15.2.1　在推斷過程中約束覆蓋度 230

15.2.2　覆蓋度模型 231

15.2.3　繁衍率 232

15.2.4　特征工程與機器學習 232

15.3　添加語言學標注 233

15.3.1　輸入句子的語言學標注 233

15.3.2　輸出句子的語言學標注 234

15.3.3　語言學結構化的模型 235

15.4　擴展閱讀 236

第16章　當前挑戰 238

16.1　領域不匹配 238

16.2　訓練數據規模 240

16.3　稀有詞 241

16.4　噪聲數據 243

16.4.1　真實世界中的噪聲 243

16.4.2　合成噪聲 245

16.4.3　噪聲對翻譯質量的影響 246

16.5　柱搜索 248

16.6　詞對齊 250

16.7　擴展閱讀 251

第17章　分析與可視化 253

17.1　錯誤分析 253

17.1.1　神經機器翻譯的典型錯誤 253

17.1.2　語言學錯誤類型 255

17.1.3　真實世界中的研究案例 256

17.1.4　目標測試集 257

17.1.5　合成語言 259

17.2　可視化 259

17.2.1　詞嵌入 260

17.2.2　編碼器狀態：詞義 261

17.2.3　注意力機制 262

17.2.4　多頭注意力機制 263

17.2.5　語言模型預測中的記憶 264

17.2.6　解碼器狀態 266

17.2.7　柱搜索 266

17.3　探測向量表示 267

17.3.1　分類器方法 267

17.3.2　實驗發現 268

17.4　分析神經元 269

17.4.1　認知理論 269

17.4.2　個體神經元 269

17.4.3　揭示神經元 271

17.5　追溯模型決策過程 271

17.5.1　層級間相關性傳遞 271

17.5.2　相關性傳遞在機器翻譯中的應用 273

17.5.3　顯著性計算 274

17.6　擴展閱讀 275

參考文獻 279

掃碼即達↓

更多新書

書訊 |?4月書訊（下）| 上新了，華章

書訊 |?4月書訊（上）| 上新了，華章

Webpack實戰：入門、進階與調優（第2版）

工業物聯網：平臺架構、關鍵技術與應用實踐

數據安全實踐指南

Web滲透測試實戰：基于Metasploit 5.0

總結

以上是生活随笔為你收集整理的NLP大牛菲利普•科恩机器翻译权威著作的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： oracle堆,oracle被一堆ins
下一篇： lightgbm 保存模型过大_一个例