當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

自然语言处理的未来之路（周明老师，CCF-GRIR,笔记）

發布時間：2024/7/5 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了自然语言处理的未来之路（周明老师，CCF-GRIR,笔记）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

1.什么叫自然語言處理
- 1.1 困難
- 1.2歷史
- 1.3 智能
- 1.4 經典nlp任務的進展
02.技術體系
- 2.1 詞
- 2.2 句子
03 未來發展
- 3.1 資源豐富的任務---中英翻譯
- 3.2 資源少的任務
- 3.3 多輪問題--多輪對話
4 未來之路

自然語言：規則—>統計—>神經網絡
現在：黃金時代
缺陷：
- 過度依賴數據和計算資源
- 建模、可解釋性、推理不足

1.什么叫自然語言處理

自然語言處理

自然語言處理就是用計算機對人類語言進行處理，使得計算機具備人類的聽、說、讀、寫能力，它是未來人工智能技術最為關鍵的核心之一。比爾·蓋茨說過，“自然語言處理是人工智能皇冠上的明珠，如果我們能夠推進自然語言處理，就可以再造一個微軟。”

1.1 困難

困難可想而知
- 詞同意義不同
- 人：有背景知識，可以理解
- 機器：缺失背景知識

1.2歷史

1.3 智能

1.4 經典nlp任務的進展

聊天機器人：小冰
- 對話23輪以上
SQuAD:閱讀理解
WMT-2017機器翻譯
CoNLL（語法檢查）會議名
- 有很多評測任務
- 命名實體識別之類的

02.技術體系

2.1 詞

詞的編碼
- 方法：
  - CBOW
    - 周圍的詞預測當前的詞
  - skip-gram
    - 當前的詞預測周圍的詞
- 結果：獲得每一個詞穩定的向量表示–語義表示

2.2 句子

句子的編碼
- 方法
  - RNN
    - 從左到右對句子建模，每個詞對應一個隱藏狀態，
      - 該狀態：代表了從句首到當前詞的語義信息，
      - 句尾：全句子語義
    - 補充：雙向RNN中
      - 前向RNN的狀態：句首到當前詞
      - 后向:句末到當前詞
      - 拼接：雙向信息
  - CNN
    - 詞嵌入
    - 位置嵌入
    - 卷積
    - —>向量表示：對應句子的語義
  - ATTENTION：注意力機制
    - 綜合考慮：當前狀態下對飲給的編碼的每一個隱藏狀態，加權平均–>體現當前的動態輸入
  - transformer
    - 引入自編碼：一個詞與周圍詞建立相似
    - 引入多頭注意力機制：可以引入多種特征表達，所以編碼效果或者編碼的信息更加豐富
  - 預訓練模型
    - 最早：靜態詞：不論上下文，只看詞本身的表征（多義詞也只有一個
    - 下面的都是根據上下文的唯一表征
    - ELMo:
      - 雙向：可左到右，也可右到左
      - 每一層對應的節點并起來：雙向信息–當前詞在上下文的語義表示
      - 這個語義+詞本身的嵌入–進行后續任務，性能提升
    - Bert
      - 它用左邊、右邊的信息來預測最外部的詞的信息
      - 它也可以判斷下一句是真的下一句還是偽造的下一句
      - 用兩種方式對句子每一個詞進行編碼
      - 得到的訓練結果：表征了這個詞在上下文中的語義表示。
      - 基于這樣的語義表示，
        就可以判斷兩個句子的關系，
        比如說是不是附屬關系，
        
        判斷一個句子的分類
        （例如Q&A中，判斷回答對應的邊界是不是對應提問）
        
        對輸入的每一個詞做一個標注（序列標注
        結果就得到一個詞性標注（實體標注。
    - 其他
      - GPT-2，以及最近的XLNET，以及UNILM、MASS、MT-DNN、XLM
      - 也都是依據上下文獲得唯一表征
      - UNILM（微軟研究院）
        同時訓練得到類似Bert和GPT
      - MASS(微軟）
        以encoder-decoder訓練
        在機器翻譯上表現良好
      - MT-DNN
        強調多任務學習
      - XLM
        學習多語言Bert
        適用于跨語言
- 基于這樣的表征，編碼、解碼機制
  - 序列–編碼–>向量（表征）–解碼–>序列
  - 翻譯、序列標注等
預訓練模型的啟發
- 過去：期望用基于知識的方法來充實當前的輸入，但做的不好
- 現在：
  - 預訓練模型：學習語言結構、學習領域知識、常識
  - fine-tune微調：適應下游任務
    - 微調僅需要少量數據

03 未來發展

性能超越人類
- 一堆模型、一堆數據、一堆機器–刷榜
問題
- 計算資源有限
  - 同樣的算法，越大越快越好，但消耗巨大
  - 過多的計算導致環境污染（服務器消耗巨大資源）
  - 下面例子里用了10倍蠻力，得到0.2%的提升（不劃算）
- 過于依賴數據
  - 標注代價巨大
  - 標注質量堪憂（人總有誤差、偷懶等
  - 標注數據隱含歧視（受到人主觀映像
  - 數據分布不同（訓練的模型只在你標注數據相同的數據上有效，換一個數據壓根不行）
  比如說我們做Q&A問答系統，我們在所有的問答里面都假設是第一名，但到了搜索引擎上有很多簡單的問題都解決不好。此外，還有數據隱私保護等等問題。
- 去除上文以外的問題（三個主要的問題）
  - Rich Resource Tasks（資源豐富的任務）
    - 如中英機器翻譯
  - Low Resources Tasks(資源很少的任務
    - 如中文到希伯來語的翻譯
  - Multi-turn Tasks(多輪任務）
    - 客服（對話機器人）

3.1 資源豐富的任務—中英翻譯

語料雖多，效果卻還是有問題
- 翻譯錯詞
- 丟詞
- 不合語法
疑問
- 如何把詞典集成進來
- 如何上下文判斷問題
- 領域自適應
- 主體自適應
就算有大量數據，也并不一定能夠解決所有的問題

3.2 資源少的任務

困難：
- 語料少，需要借力
借力
- 遷移模型：最常見的：預訓練模型
- 跨語言學習：從其他的語言學習過來
  - 英語的模型，用在德語、法語上
- 利用種子迭代學習
  - 比如有一個小辭典，有幾條規則，有幾條雙語，以此為引子，冷啟動，啟動之后迭代
嘗試很多，但沒有很好的方法
- 如何建模
- 如何從數據分析中做無監督、少監督的學習
- 如何遷移：也是問題
- 如何無監督也是問題
- 先驗的規則詞典，如何冷啟動
- 人能不能參與其中，幫助一個開始弱小的額系統逐漸強大（主動學習？

3.3 多輪問題–多輪對話

困難
- 小孩子都知道，電腦卻難以回答
  - 問題：沒有常識，推理不行
- 前后不一致
  - 時間、空間、邏輯
  - 需要記憶力
如何推理
- 了解上下文
- 利用知識
- 推理
- 可解釋性問題（推理需要可解釋
推理所用技術：
- 語義分析
- 上下文的指代消解
- 省略消解
推理模型是什么樣的？
- 有記憶、知識
- 有讀寫：
  - 可讀取記憶，改變對話狀態（知識和狀態）
  - 寫記憶（更新
- 得到答案后，也要更新記憶、存儲

4 未來之路

目標遙遠：可解釋、有知識、有道德、可自我學習的NLP
問題很多：
- 我們怎么樣來實現這樣的目標呢？
- 我們要從具體的任務出發，找出存在的問題。
  - Rich-Resource存在什么問題呢？
    - 上下文建模、數據糾偏、多任務學習、人類知識的理解。
  - Low-Resource又有什么問題要解決呢？
  - 多輪要解決什么問題呢？
    - 就是要解決知識常識、上下文建模、推理機制、可解釋等等。
如何推進發展
- 算力
- 數據
- 模型
- 人才培養
- 合作
- 強調應用

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的自然语言处理的未来之路（周明老师，CCF-GRIR,笔记）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：数字孪生及其在航空航天中的应用
下一篇： 5 操作系统第二章进程管理线程介绍