當前位置：首頁 > 编程资源 > 综合教程 >内容正文

综合教程

自然语言处理的未来之路（周明老师，CCF-GRIR,笔记）

發(fā)布時間：2023/12/3 综合教程 35 生活家

生活随笔收集整理的這篇文章主要介紹了自然语言处理的未来之路（周明老师，CCF-GRIR,笔记）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

1.什么叫自然語言處理
- 1.1 困難
- 1.2歷史
- 1.3 智能
- 1.4 經(jīng)典nlp任務(wù)的進展
02.技術(shù)體系
- 2.1 詞
- 2.2 句子
03 未來發(fā)展
- 3.1 資源豐富的任務(wù)---中英翻譯
- 3.2 資源少的任務(wù)
- 3.3 多輪問題--多輪對話
4 未來之路

自然語言：規(guī)則—>統(tǒng)計—>神經(jīng)網(wǎng)絡(luò)
現(xiàn)在：黃金時代
缺陷：
- 過度依賴數(shù)據(jù)和計算資源
- 建模、可解釋性、推理不足

1.什么叫自然語言處理

自然語言處理

自然語言處理就是用計算機對人類語言進行處理，使得計算機具備人類的聽、說、讀、寫能力，它是未來人工智能技術(shù)最為關(guān)鍵的核心之一。比爾·蓋茨說過，“自然語言處理是人工智能皇冠上的明珠，如果我們能夠推進自然語言處理，就可以再造一個微軟。”

1.1 困難

困難可想而知
- 詞同意義不同
- 人：有背景知識，可以理解
- 機器：缺失背景知識

1.2歷史

1.3 智能

1.4 經(jīng)典nlp任務(wù)的進展

聊天機器人：小冰
- 對話23輪以上
SQuAD:閱讀理解
WMT-2017機器翻譯
CoNLL（語法檢查）會議名
- 有很多評測任務(wù)
- 命名實體識別之類的

02.技術(shù)體系

2.1 詞

詞的編碼
- 方法：
  - CBOW
    - 周圍的詞預測當前的詞
  - skip-gram
    - 當前的詞預測周圍的詞
- 結(jié)果：獲得每一個詞穩(wěn)定的向量表示–語義表示

2.2 句子

句子的編碼
- 方法
  - RNN
    - 從左到右對句子建模，每個詞對應(yīng)一個隱藏狀態(tài)，
      - 該狀態(tài)：代表了從句首到當前詞的語義信息，
      - 句尾：全句子語義
    - 補充：雙向RNN中
      - 前向RNN的狀態(tài)：句首到當前詞
      - 后向:句末到當前詞
      - 拼接：雙向信息
  - CNN
    - 詞嵌入
    - 位置嵌入
    - 卷積
    - —>向量表示：對應(yīng)句子的語義
  - ATTENTION：注意力機制
    - 綜合考慮：當前狀態(tài)下對飲給的編碼的每一個隱藏狀態(tài)，加權(quán)平均–>體現(xiàn)當前的動態(tài)輸入
  - transformer
    - 引入自編碼：一個詞與周圍詞建立相似
    - 引入多頭注意力機制：可以引入多種特征表達，所以編碼效果或者編碼的信息更加豐富
  - 預訓練模型
    - 最早：靜態(tài)詞：不論上下文，只看詞本身的表征（多義詞也只有一個
    - 下面的都是根據(jù)上下文的唯一表征
    - ELMo:
      - 雙向：可左到右，也可右到左
      - 每一層對應(yīng)的節(jié)點并起來：雙向信息–當前詞在上下文的語義表示
      - 這個語義+詞本身的嵌入–進行后續(xù)任務(wù)，性能提升
    - Bert
      - 它用左邊、右邊的信息來預測最外部的詞的信息
      - 它也可以判斷下一句是真的下一句還是偽造的下一句
      - 用兩種方式對句子每一個詞進行編碼
      - 得到的訓練結(jié)果：表征了這個詞在上下文中的語義表示。
      - 基于這樣的語義表示，
        
        就可以判斷兩個句子的關(guān)系，
        
        比如說是不是附屬關(guān)系，
        
        判斷一個句子的分類
        
        （例如Q&A中，判斷回答對應(yīng)的邊界是不是對應(yīng)提問）
        
        對輸入的每一個詞做一個標注（序列標注
        
        結(jié)果就得到一個詞性標注（實體標注。
    - 其他
      - GPT-2，以及最近的XLNET，以及UNILM、MASS、MT-DNN、XLM
      - 也都是依據(jù)上下文獲得唯一表征
      - UNILM（微軟研究院）
        
        同時訓練得到類似Bert和GPT
      - MASS(微軟）
        
        以encoder-decoder訓練
        
        在機器翻譯上表現(xiàn)良好
      - MT-DNN
        
        強調(diào)多任務(wù)學習
      - XLM
        
        學習多語言Bert
        
        適用于跨語言
- 基于這樣的表征，編碼、解碼機制
  - 序列–編碼–>向量（表征）–解碼–>序列
  - 翻譯、序列標注等
預訓練模型的啟發(fā)
- 過去：期望用基于知識的方法來充實當前的輸入，但做的不好
- 現(xiàn)在：
  - 預訓練模型：學習語言結(jié)構(gòu)、學習領(lǐng)域知識、常識
  - fine-tune微調(diào)：適應(yīng)下游任務(wù)
    - 微調(diào)僅需要少量數(shù)據(jù)

03 未來發(fā)展

性能超越人類
- 一堆模型、一堆數(shù)據(jù)、一堆機器–刷榜
問題
- 計算資源有限
  - 同樣的算法，越大越快越好，但消耗巨大
  - 過多的計算導致環(huán)境污染（服務(wù)器消耗巨大資源）
  - 下面例子里用了10倍蠻力，得到0.2%的提升（不劃算）
- 過于依賴數(shù)據(jù)
  - 標注代價巨大
  - 標注質(zhì)量堪憂（人總有誤差、偷懶等
  - 標注數(shù)據(jù)隱含歧視（受到人主觀映像
  - 數(shù)據(jù)分布不同（訓練的模型只在你標注數(shù)據(jù)相同的數(shù)據(jù)上有效，換一個數(shù)據(jù)壓根不行）
  比如說我們做Q&A問答系統(tǒng)，我們在所有的問答里面都假設(shè)是第一名，但到了搜索引擎上有很多簡單的問題都解決不好。此外，還有數(shù)據(jù)隱私保護等等問題。
- 去除上文以外的問題（三個主要的問題）
  - Rich Resource Tasks（資源豐富的任務(wù)）
    - 如中英機器翻譯
  - Low Resources Tasks(資源很少的任務(wù)
    - 如中文到希伯來語的翻譯
  - Multi-turn Tasks(多輪任務(wù)）
    - 客服（對話機器人）

3.1 資源豐富的任務(wù)—中英翻譯

語料雖多，效果卻還是有問題
- 翻譯錯詞
- 丟詞
- 不合語法
疑問
- 如何把詞典集成進來
- 如何上下文判斷問題
- 領(lǐng)域自適應(yīng)
- 主體自適應(yīng)
就算有大量數(shù)據(jù)，也并不一定能夠解決所有的問題

3.2 資源少的任務(wù)

困難：
- 語料少，需要借力
借力
- 遷移模型：最常見的：預訓練模型
- 跨語言學習：從其他的語言學習過來
  - 英語的模型，用在德語、法語上
- 利用種子迭代學習
  - 比如有一個小辭典，有幾條規(guī)則，有幾條雙語，以此為引子，冷啟動，啟動之后迭代
嘗試很多，但沒有很好的方法
- 如何建模
- 如何從數(shù)據(jù)分析中做無監(jiān)督、少監(jiān)督的學習
- 如何遷移：也是問題
- 如何無監(jiān)督也是問題
- 先驗的規(guī)則詞典，如何冷啟動
- 人能不能參與其中，幫助一個開始弱小的額系統(tǒng)逐漸強大（主動學習？

3.3 多輪問題–多輪對話

困難
- 小孩子都知道，電腦卻難以回答
  - 問題：沒有常識，推理不行
- 前后不一致
  - 時間、空間、邏輯
  - 需要記憶力
如何推理
- 了解上下文
- 利用知識
- 推理
- 可解釋性問題（推理需要可解釋
推理所用技術(shù)：
- 語義分析
- 上下文的指代消解
- 省略消解
推理模型是什么樣的？
- 有記憶、知識
- 有讀寫：
  - 可讀取記憶，改變對話狀態(tài)（知識和狀態(tài)）
  - 寫記憶（更新
- 得到答案后，也要更新記憶、存儲

4 未來之路

目標遙遠：可解釋、有知識、有道德、可自我學習的NLP
問題很多：
- 我們怎么樣來實現(xiàn)這樣的目標呢？
- 我們要從具體的任務(wù)出發(fā)，找出存在的問題。
  - Rich-Resource存在什么問題呢？
    - 上下文建模、數(shù)據(jù)糾偏、多任務(wù)學習、人類知識的理解。
  - Low-Resource又有什么問題要解決呢？
  - 多輪要解決什么問題呢？
    - 就是要解決知識常識、上下文建模、推理機制、可解釋等等。
如何推進發(fā)展
- 算力
- 數(shù)據(jù)
- 模型
- 人才培養(yǎng)
- 合作
- 強調(diào)應(yīng)用

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的自然语言处理的未来之路（周明老师，CCF-GRIR,笔记）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： [省选联考 2020 A/B 卷] 冰火
下一篇： [APIO2014] 序列分割（斜率优化