自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
文章目錄
- 1.什么叫自然語言處理
-
- 1.1 困難
- 1.2歷史
- 1.3 智能
- 1.4 經(jīng)典nlp任務(wù)的進展
- 02.技術(shù)體系
-
- 2.1 詞
- 2.2 句子
- 03 未來發(fā)展
-
- 3.1 資源豐富的任務(wù)---中英翻譯
- 3.2 資源少的任務(wù)
- 3.3 多輪問題--多輪對話
- 4 未來之路
- 自然語言:規(guī)則—>統(tǒng)計—>神經(jīng)網(wǎng)絡(luò)
- 現(xiàn)在:黃金時代
- 缺陷:
- 過度依賴數(shù)據(jù)和計算資源
- 建模、可解釋性、推理不足
1.什么叫自然語言處理
- 自然語言處理
自然語言處理就是用計算機對人類語言進行處理,使得計算機具備人類的聽、說、讀、寫能力,它是未來人工智能技術(shù)最為關(guān)鍵的核心之一。比爾·蓋茨說過,“自然語言處理是人工智能皇冠上的明珠,如果我們能夠推進自然語言處理,就可以再造一個微軟。”
1.1 困難
- 困難可想而知
- 詞同意義不同
- 人:有背景知識,可以理解
- 機器:缺失背景知識
1.2歷史
1.3 智能
1.4 經(jīng)典nlp任務(wù)的進展
- 聊天機器人:小冰
- 對話23輪以上
- SQuAD:閱讀理解
- WMT-2017機器翻譯
- CoNLL(語法檢查)會議名
- 有很多評測任務(wù)
- 命名實體識別之類的
02.技術(shù)體系
2.1 詞
- 詞的編碼
- 方法:
- CBOW
- 周圍的詞預測當前的詞
- skip-gram
- 當前的詞預測周圍的詞
- CBOW
- 結(jié)果:獲得每一個詞穩(wěn)定的向量表示–語義表示
- 方法:
2.2 句子
- 句子的編碼
-
方法
- RNN
- 從左到右對句子建模,每個詞對應(yīng)一個隱藏狀態(tài),
- 該狀態(tài):代表了從句首到當前詞的語義信息,
- 句尾:全句子語義
- 補充:雙向RNN中
- 前向RNN的狀態(tài):句首到當前詞
- 后向:句末到當前詞
- 拼接:雙向信息
- 從左到右對句子建模,每個詞對應(yīng)一個隱藏狀態(tài),
- CNN
- 詞嵌入
- 位置嵌入
- 卷積
- —>向量表示:對應(yīng)句子的語義
- ATTENTION:注意力機制
- 綜合考慮:當前狀態(tài)下對飲給的編碼的每一個隱藏狀態(tài),加權(quán)平均–>體現(xiàn)當前的動態(tài)輸入
- transformer
- 引入自編碼:一個詞與周圍詞建立相似
- 引入多頭注意力機制:可以引入多種特征表達,所以編碼效果或者編碼的信息更加豐富
- 預訓練模型
- 最早:靜態(tài)詞:不論上下文,只看詞本身的表征(多義詞也只有一個
- 下面的都是根據(jù)上下文的唯一表征
- ELMo:
- 雙向:可左到右,也可右到左
- 每一層對應(yīng)的節(jié)點并起來:雙向信息–當前詞在上下文的語義表示
- 這個語義+詞本身的嵌入–進行后續(xù)任務(wù),性能提升
- Bert
- 它用左邊、右邊的信息來預測最外部的詞的信息
- 它也可以判斷下一句是真的下一句還是偽造的下一句
- 用兩種方式對句子每一個詞進行編碼
- 得到的訓練結(jié)果:表征了這個詞在上下文中的語義表示。
- 基于這樣的語義表示,
- 就可以判斷兩個句子的關(guān)系,
- 比如說是不是附屬關(guān)系,
- 判斷一個句子的分類
- (例如Q&A中,判斷回答對應(yīng)的邊界是不是對應(yīng)提問)
- 對輸入的每一個詞做一個標注(序列標注
- 結(jié)果就得到一個詞性標注(實體標注。
- 就可以判斷兩個句子的關(guān)系,
- 其他
- GPT-2,以及最近的XLNET,以及UNILM、MASS、MT-DNN、XLM
- 也都是依據(jù)上下文獲得唯一表征
- UNILM(微軟研究院)
- 同時訓練得到類似Bert和GPT
- MASS(微軟)
- 以encoder-decoder訓練
- 在機器翻譯上表現(xiàn)良好
- MT-DNN
- 強調(diào)多任務(wù)學習
- XLM
- 學習多語言Bert
- 適用于跨語言
- RNN
-
基于這樣的表征,編碼、解碼機制
- 序列–編碼–>向量(表征)–解碼–>序列
- 翻譯、序列標注等
-
- 預訓練模型的啟發(fā)
- 過去:期望用基于知識的方法來充實當前的輸入,但做的不好
- 現(xiàn)在:
- 預訓練模型:學習語言結(jié)構(gòu)、學習領(lǐng)域知識、常識
- fine-tune微調(diào):適應(yīng)下游任務(wù)
- 微調(diào)僅需要少量數(shù)據(jù)
03 未來發(fā)展
- 性能超越人類
- 一堆模型、一堆數(shù)據(jù)、一堆機器–刷榜
- 問題
-
計算資源有限
- 同樣的算法,越大越快越好,但消耗巨大
- 過多的計算導致環(huán)境污染(服務(wù)器消耗巨大資源)
- 下面例子里用了10倍蠻力,得到0.2%的提升(不劃算)
-
過于依賴數(shù)據(jù)
- 標注代價巨大
- 標注質(zhì)量堪憂(人總有誤差、偷懶等
- 標注數(shù)據(jù)隱含歧視(受到人主觀映像
- 數(shù)據(jù)分布不同(訓練的模型只在你標注數(shù)據(jù)相同的數(shù)據(jù)上有效,換一個數(shù)據(jù)壓根不行)
比如說我們做Q&A問答系統(tǒng),我們在所有的問答里面都假設(shè)是第一名,但到了搜索引擎上有很多簡單的問題都解決不好。此外,還有數(shù)據(jù)隱私保護等等問題。
-
去除上文以外的問題(三個主要的問題)
- Rich Resource Tasks(資源豐富的任務(wù))
- 如中英機器翻譯
- Low Resources Tasks(資源很少的任務(wù)
- 如中文到希伯來語的翻譯
- Multi-turn Tasks(多輪任務(wù))
- 客服(對話機器人)
- Rich Resource Tasks(資源豐富的任務(wù))
-
3.1 資源豐富的任務(wù)—中英翻譯
- 語料雖多,效果卻還是有問題
- 翻譯錯詞
- 丟詞
- 不合語法
- 疑問
- 如何把詞典集成進來
- 如何上下文判斷問題
- 領(lǐng)域自適應(yīng)
- 主體自適應(yīng)
- 就算有大量數(shù)據(jù),也并不一定能夠解決所有的問題
3.2 資源少的任務(wù)
- 困難:
- 語料少,需要借力
- 借力
- 遷移模型:最常見的:預訓練模型
- 跨語言學習:從其他的語言學習過來
- 英語的模型,用在德語、法語上
- 利用種子迭代學習
- 比如有一個小辭典,有幾條規(guī)則,有幾條雙語,以此為引子,冷啟動,啟動之后迭代
- 嘗試很多,但沒有很好的方法
- 如何建模
- 如何從數(shù)據(jù)分析中做無監(jiān)督、少監(jiān)督的學習
- 如何遷移:也是問題
- 如何無監(jiān)督也是問題
- 先驗的規(guī)則詞典,如何冷啟動
- 人能不能參與其中,幫助一個開始弱小的額系統(tǒng)逐漸強大(主動學習?
3.3 多輪問題–多輪對話
- 困難
- 小孩子都知道,電腦卻難以回答
- 問題:沒有常識,推理不行
- 前后不一致
- 時間、空間、邏輯
- 需要記憶力
- 小孩子都知道,電腦卻難以回答
- 如何推理
- 了解上下文
- 利用知識
- 推理
- 可解釋性問題(推理需要可解釋
- 推理所用技術(shù):
- 語義分析
- 上下文的指代消解
- 省略消解
- 推理模型是什么樣的?
- 有記憶、知識
- 有讀寫:
- 可讀取記憶,改變對話狀態(tài)(知識和狀態(tài))
- 寫記憶(更新
- 得到答案后,也要更新記憶、存儲
4 未來之路
- 目標遙遠:可解釋、有知識、有道德、可自我學習的NLP
- 問題很多:
- 我們怎么樣來實現(xiàn)這樣的目標呢?
- 我們要從具體的任務(wù)出發(fā),找出存在的問題。
- Rich-Resource存在什么問題呢?
- 上下文建模、數(shù)據(jù)糾偏、多任務(wù)學習、人類知識的理解。
- Low-Resource又有什么問題要解決呢?
- 多輪要解決什么問題呢?
- 就是要解決知識常識、上下文建模、推理機制、可解釋等等。
- Rich-Resource存在什么問題呢?
- 如何推進發(fā)展
- 算力
- 數(shù)據(jù)
- 模型
- 人才培養(yǎng)
- 合作
- 強調(diào)應(yīng)用
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎
總結(jié)
以上是生活随笔為你收集整理的自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [省选联考 2020 A/B 卷] 冰火
- 下一篇: [APIO2014] 序列分割(斜率优化