自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
文章目錄
- 1.什么叫自然語言處理
- 1.1 困難
- 1.2歷史
- 1.3 智能
- 1.4 經典nlp任務的進展
- 02.技術體系
- 2.1 詞
- 2.2 句子
- 03 未來發展
- 3.1 資源豐富的任務---中英翻譯
- 3.2 資源少的任務
- 3.3 多輪問題--多輪對話
- 4 未來之路
- 自然語言:規則—>統計—>神經網絡
- 現在:黃金時代
- 缺陷:
- 過度依賴數據和計算資源
- 建模、可解釋性、推理不足
1.什么叫自然語言處理
- 自然語言處理
自然語言處理就是用計算機對人類語言進行處理,使得計算機具備人類的聽、說、讀、寫能力,它是未來人工智能技術最為關鍵的核心之一。比爾·蓋茨說過,“自然語言處理是人工智能皇冠上的明珠,如果我們能夠推進自然語言處理,就可以再造一個微軟。”
1.1 困難
- 困難可想而知
- 詞同意義不同
- 人:有背景知識,可以理解
- 機器:缺失背景知識
1.2歷史
1.3 智能
1.4 經典nlp任務的進展
- 聊天機器人:小冰
- 對話23輪以上
- SQuAD:閱讀理解
- WMT-2017機器翻譯
- CoNLL(語法檢查)會議名
- 有很多評測任務
- 命名實體識別之類的
02.技術體系
2.1 詞
- 詞的編碼
- 方法:
- CBOW
- 周圍的詞預測當前的詞
- skip-gram
- 當前的詞預測周圍的詞
- CBOW
- 結果:獲得每一個詞穩定的向量表示–語義表示
- 方法:
2.2 句子
- 句子的編碼
-
方法
- RNN
- 從左到右對句子建模,每個詞對應一個隱藏狀態,
- 該狀態:代表了從句首到當前詞的語義信息,
- 句尾:全句子語義
- 補充:雙向RNN中
- 前向RNN的狀態:句首到當前詞
- 后向:句末到當前詞
- 拼接:雙向信息
- 從左到右對句子建模,每個詞對應一個隱藏狀態,
- CNN
- 詞嵌入
- 位置嵌入
- 卷積
- —>向量表示:對應句子的語義
- ATTENTION:注意力機制
- 綜合考慮:當前狀態下對飲給的編碼的每一個隱藏狀態,加權平均–>體現當前的動態輸入
- transformer
- 引入自編碼:一個詞與周圍詞建立相似
- 引入多頭注意力機制:可以引入多種特征表達,所以編碼效果或者編碼的信息更加豐富
- 預訓練模型
- 最早:靜態詞:不論上下文,只看詞本身的表征(多義詞也只有一個
- 下面的都是根據上下文的唯一表征
- ELMo:
- 雙向:可左到右,也可右到左
- 每一層對應的節點并起來:雙向信息–當前詞在上下文的語義表示
- 這個語義+詞本身的嵌入–進行后續任務,性能提升
- Bert
- 它用左邊、右邊的信息來預測最外部的詞的信息
- 它也可以判斷下一句是真的下一句還是偽造的下一句
- 用兩種方式對句子每一個詞進行編碼
- 得到的訓練結果:表征了這個詞在上下文中的語義表示。
- 基于這樣的語義表示,
- 就可以判斷兩個句子的關系,
- 比如說是不是附屬關系,
- 判斷一個句子的分類
- (例如Q&A中,判斷回答對應的邊界是不是對應提問)
- 對輸入的每一個詞做一個標注(序列標注
- 結果就得到一個詞性標注(實體標注。
- 就可以判斷兩個句子的關系,
- 其他
- GPT-2,以及最近的XLNET,以及UNILM、MASS、MT-DNN、XLM
- 也都是依據上下文獲得唯一表征
- UNILM(微軟研究院)
- 同時訓練得到類似Bert和GPT
- MASS(微軟)
- 以encoder-decoder訓練
- 在機器翻譯上表現良好
- MT-DNN
- 強調多任務學習
- XLM
- 學習多語言Bert
- 適用于跨語言
- RNN
-
基于這樣的表征,編碼、解碼機制
- 序列–編碼–>向量(表征)–解碼–>序列
- 翻譯、序列標注等
-
- 預訓練模型的啟發
- 過去:期望用基于知識的方法來充實當前的輸入,但做的不好
- 現在:
- 預訓練模型:學習語言結構、學習領域知識、常識
- fine-tune微調:適應下游任務
- 微調僅需要少量數據
03 未來發展
- 性能超越人類
- 一堆模型、一堆數據、一堆機器–刷榜
- 問題
-
計算資源有限
- 同樣的算法,越大越快越好,但消耗巨大
- 過多的計算導致環境污染(服務器消耗巨大資源)
- 下面例子里用了10倍蠻力,得到0.2%的提升(不劃算)
-
過于依賴數據
- 標注代價巨大
- 標注質量堪憂(人總有誤差、偷懶等
- 標注數據隱含歧視(受到人主觀映像
- 數據分布不同(訓練的模型只在你標注數據相同的數據上有效,換一個數據壓根不行)
比如說我們做Q&A問答系統,我們在所有的問答里面都假設是第一名,但到了搜索引擎上有很多簡單的問題都解決不好。此外,還有數據隱私保護等等問題。
-
去除上文以外的問題(三個主要的問題)
- Rich Resource Tasks(資源豐富的任務)
- 如中英機器翻譯
- Low Resources Tasks(資源很少的任務
- 如中文到希伯來語的翻譯
- Multi-turn Tasks(多輪任務)
- 客服(對話機器人)
- Rich Resource Tasks(資源豐富的任務)
-
3.1 資源豐富的任務—中英翻譯
- 語料雖多,效果卻還是有問題
- 翻譯錯詞
- 丟詞
- 不合語法
- 疑問
- 如何把詞典集成進來
- 如何上下文判斷問題
- 領域自適應
- 主體自適應
- 就算有大量數據,也并不一定能夠解決所有的問題
3.2 資源少的任務
- 困難:
- 語料少,需要借力
- 借力
- 遷移模型:最常見的:預訓練模型
- 跨語言學習:從其他的語言學習過來
- 英語的模型,用在德語、法語上
- 利用種子迭代學習
- 比如有一個小辭典,有幾條規則,有幾條雙語,以此為引子,冷啟動,啟動之后迭代
- 嘗試很多,但沒有很好的方法
- 如何建模
- 如何從數據分析中做無監督、少監督的學習
- 如何遷移:也是問題
- 如何無監督也是問題
- 先驗的規則詞典,如何冷啟動
- 人能不能參與其中,幫助一個開始弱小的額系統逐漸強大(主動學習?
3.3 多輪問題–多輪對話
- 困難
- 小孩子都知道,電腦卻難以回答
- 問題:沒有常識,推理不行
- 前后不一致
- 時間、空間、邏輯
- 需要記憶力
- 小孩子都知道,電腦卻難以回答
- 如何推理
- 了解上下文
- 利用知識
- 推理
- 可解釋性問題(推理需要可解釋
- 推理所用技術:
- 語義分析
- 上下文的指代消解
- 省略消解
- 推理模型是什么樣的?
- 有記憶、知識
- 有讀寫:
- 可讀取記憶,改變對話狀態(知識和狀態)
- 寫記憶(更新
- 得到答案后,也要更新記憶、存儲
4 未來之路
- 目標遙遠:可解釋、有知識、有道德、可自我學習的NLP
- 問題很多:
- 我們怎么樣來實現這樣的目標呢?
- 我們要從具體的任務出發,找出存在的問題。
- Rich-Resource存在什么問題呢?
- 上下文建模、數據糾偏、多任務學習、人類知識的理解。
- Low-Resource又有什么問題要解決呢?
- 多輪要解決什么問題呢?
- 就是要解決知識常識、上下文建模、推理機制、可解釋等等。
- Rich-Resource存在什么問題呢?
- 如何推進發展
- 算力
- 數據
- 模型
- 人才培養
- 合作
- 強調應用
總結
以上是生活随笔為你收集整理的自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数字孪生及其在航空航天中的应用
- 下一篇: 5 操作系统第二章 进程管理 线程介绍