【NLP】一文了解基于深度学习的自然语言处理研究
? ? 目前,人工智能領域中最熱的研究方向當屬深度學習。深度學習的迅速發(fā)展受到了學術界和工業(yè)界的廣泛關注,由于其擁有優(yōu)秀的特征選擇和提取能力,對包括機器翻譯、目標識別、圖像分割等在內(nèi)的諸多任務中產(chǎn)生了越來越重要的影響。同時在自然語言處理( Natural Language Processing,NLP) 、計算機視覺( Computer Vision,CV) 、語音識別( Speech Recognition,SR) 領域得到廣泛應用。
????自然語言處理被稱為人工智能皇冠上的明珠,因此如何使用深度學習技術推動 NLP 中各個任務的發(fā)展是當前研究熱點和難點。語言是人類所特有的一種能力,而如何用自然語言與計算機進行通信,是人們長期以來追求的。自然語言處理就是實現(xiàn)人機間通過自然語言交流。但自然語言是高度抽象的符號化系統(tǒng),文本間存在數(shù)據(jù)離散、稀疏,同時還存在多義詞、一詞多義等問題。而深度學習方法具有強大的特征提取和學習能力,可以更好地處理高維度稀疏數(shù)據(jù),在 NLP 領域諸多任務中都取得了長足發(fā)展。本文主要從基于深度學習的NLP應用研究進展和預訓練語言模型兩方面進行介紹,最后是基于深度學習的自然語言處理遇到的一些問題及展望。
基于深度學習的自然語言處理應用研究進展
1?
詞性標注
????詞性標注(Part-Of-Speech tagging,POS)是指確定句子中每個詞的詞性,如形容詞、動詞、名詞等,又稱詞類標注或者簡稱標注。
? ?2017年,Kadari等提出了一種解決CCG超級標簽任務的方法。該方法通過結合雙向長期短期記憶和條件隨機場(BLSTM-CRF)模型,提取輸入的特征并完成標注,取得了優(yōu)異的成果。同年,Feng等提出一種跨語言知識作為關注納入神經(jīng)架構的方法。該方法聯(lián)合應用詞層面的跨語言相互影響和實體類層面的單語分布來加強低資源名稱標注。實驗證明,相比于所有傳統(tǒng)對名稱標記的方法,該方法取得了重大改進 。
2?
句法分析
????句法分析(Syntactic analysis)的主要任務是自動識別句子中包含的句法單位(如動詞、名詞、名詞短語等)以及這些句法單位相互之間的關系,并通過構造語法樹來轉(zhuǎn)化句子。
??? 2017年,Kim等提出了一種采用集合對自然語句進行依賴分析的神經(jīng)網(wǎng)絡框架。該集合方法將滑動輸入位置分配給包含要預測的標簽位置的分量分類器。如果關鍵輸入特征具有靈活性且相對距離較長等特質(zhì),則該方法與具有加權投票的簡單集合相比提高了標簽準確性。最后,通過對其下限精度的理論估計以及通過對問題進行實證分析來顯示集合的影響,從而改變關鍵輸入特征的可移動性的強度。實驗結果表明,該方法相對于最先進的依賴解析器,在未標記的與標記的數(shù)據(jù)上準確性分別提高了0.28%和0.14%。
3?
情感分析
????情感分析(Sentiment analysis)又稱為傾向性分析、意見抽取(Opinion extraction)、意見挖掘(Opinion mining)、情感挖掘(Sentiment mining)、主觀分析(Subjectivity analysis)等,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,同樣屬于文本分類的一種。
??? 2017年,Xiao等提出了基于卷積控制塊(CCB)概念的中文情感分類模型。該方法以句子為單位,基于CCB的模型考慮短期和長期的上下文依賴性進行情感分類,將句子中的分詞連接到5層CCB中,并取得了對積極情緒的預測準確率達到92.58%的好成績。同時,Dragoni等提出了一種利用域之間語言重疊的方法來構建支持屬于每個域的文檔的極性推斷的情感模型。該方法將Word嵌入和深度學習架構一起實施到NeuroSent工具,以構建多領域情感模型。同年,Paredes-Valverde等提出了一種基于深度學習的方法。這種方法基于卷積神經(jīng)網(wǎng)絡(CNN)和word2vec,通過實驗得到了精確度為88.7%的好成績。Chen提出將條件隨機場(Conditional Random Field,CRF)引入情感分析中,利用BiLSTM和CRF組合模型捕獲句子中不同目標,然后利用一維 CNN 進行分類。2018年,Wu等提出了一種混合無監(jiān)督的方法,以解決情感分析中的長期提取(ATE)和意見目標提取(OTE)這兩個重要的任務。該方法通過將被提取名詞短語進行過濾得到符合域相關性的意見目標與方面項;最后將所得數(shù)據(jù)用于訓練方面項提取和意見目標提取的深門控循環(huán)單元(GRU)網(wǎng)絡。這種方法用了很少的標注量,提高了GRU的有效性。與此同時,Hassan等提出了一種CNN和RNN聯(lián)合框架的方法。該方法通過CNN和RNN聯(lián)合訓練,得到通過長期短期記憶學習的長期依賴關系的卷積層,在情緒分析問題上取得了93.3%的準確性 。同年,黃改娟等人提出一種雙重注意力模型,在模型訓練過程中使用微博數(shù)據(jù)集,數(shù)據(jù)中不僅包含文本信息還包括情感符號。通過注意力機制和情感符號的結合,模型增加了對微博數(shù)據(jù)中情感知識的獲取能力,進而將分類的準確率進行了提升。金志剛等人通過對 BiLSTM 和 Bagging 算法的改進,提出一種新的情感分析Bi-LSTMM-B模型,該模型的優(yōu)點在于結合了深度學習模型可提取抽象特征的優(yōu)勢和集成學習多分類器共同決策的思想,相比于其它模型,該模型提高了情感分析的準確率。
4?
機器翻譯
????機器翻譯(Machine translation)是利用計算機把一種自然源語言轉(zhuǎn)變?yōu)榱硪环N自然目標語言的過程,也稱為自動翻譯。
??? 2016年,He等提出了將統(tǒng)計機器翻譯(SMT)特征(如翻譯模型和ngram語言模型)與對數(shù)線性框架下的NMT模型結合的方法。實驗表明,該方法在NIST開放測試集上獲得高達2.33BIEU分數(shù)的增益。2017年,LIU提出了一種面向SMT系統(tǒng)組合的大規(guī)模特征的深度神經(jīng)網(wǎng)絡組合(DCNN)。該模型采用改進的遞歸神經(jīng)網(wǎng)絡生成適合短語生成過程的短語對語義向量,并使用自動編碼器提高詞組生成過程的性能。采用改進的遞歸神經(jīng)網(wǎng)絡來指導SMT任務中的解碼過程,并從另一個解碼器中考慮相互影響信息。結果表明,DCNN分別在非均勻系統(tǒng)和語料庫組合中分別高于基線1.0~1.9BLEU和1.0~1.58BLEU。2018年,Choi 等人提出一種細粒度注意力用于機器翻譯任務中,其中上下文向量的每個維度都將收到單獨的注意力分數(shù)。2019年,Wu 等人提出一種輕量級的機器翻譯模型,將動態(tài)卷積與自注意力機制相結合,在英語—德語翻譯任務中取得了優(yōu)異的效果。
5?
文本分類
????文本分類是利用計算機將文本集按照一定的分類體系或標準,進行自動分類標記的過程。
??? 2016年,Ji提出了一個基于遞歸神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的模型。該模型在3個不同的數(shù)據(jù)集上實現(xiàn)了在文本分類領域最先進的結果。2017年,Yu等提出了一種用于自動故事分割的混合神經(jīng)網(wǎng)絡隱馬爾可夫模型方法。該方法通過深度神經(jīng)網(wǎng)絡(DNN)把單詞出現(xiàn)的頻率與相應的主題詞后驗概率相結合。結果表明,該方法顯著優(yōu)于傳統(tǒng)的HMM方法。2018年,他們又提出通過使用深度神經(jīng)網(wǎng)絡(DNN)來直接預測輸人句子的主題類別來學習句子表示。該方法將文本聚類為一個個類,并將類ID用作DNN訓練文本的主題標簽。結果表明,該方法提出的主題句子表示優(yōu)于BOW基線和最近提出的基于神經(jīng)網(wǎng)絡的表示 。
預訓練語言模型
1?
BERT
????當前影響最大的預訓練語言模型是基于Transformer的雙向深度語言模型—BERT。其網(wǎng)絡結構如圖1所示。
圖1?BERT模型
????BERT 是由多層雙向 Transformer 解碼器構成,主要包括 2 個不同大小的版本: 基礎版本有 12 層 Transformer,每個 Transformer 中的多頭注意力層是12 個,隱 藏 層 大 小 為 768; 加 強 版 有 24 層 Transformer,每個Transformer 中的多頭注意力層是24 個,隱藏層大小為 1024。由此可見深而窄的模型效果要優(yōu)于淺而寬的模型。目前 BERT 在機器翻譯、文本分類、文本相似性、閱讀理解等多個任務中都有優(yōu)異的表現(xiàn)。BERT 模型的訓練方式包括 2 種:?
????( 1) 采用遮蓋單詞的方式。將訓練語料中的80%的單詞用[MASK]替換,如 my dog is hairy—> my dog is [MASK]。還有 10%的單詞進行隨機替換,如 my dog is hairy—> my dog is banana。剩下10%則保持句子內(nèi)容不變。?
????( 2) 采用預測句子下一句的方式。將語料中的語句分為 A 和 B,B 中的 50%的句子是 A 中的下一句,另外的 50%則是隨機的句子。通過上述 2 種方式訓練得到通用語言模型,然后利用微調(diào)的方法進行下游任務,如文本分類、機器翻譯等任務。較比以前的預訓練模型,BERT 可以捕獲真正意義上的雙向上下文語義。但 BERT 也有一定的缺點,既在訓練模型時,使用大量的[MASK]會影響模型效果,而且每個批次只有 15%的標記被預測,因此 BERT 在訓練時的收斂速度較慢。此外由于在預訓練過程和生成過程不一致,導致在自然語言生成任務表現(xiàn)不佳,而且 BERT 無法完成文檔級別的 NLP 任務,只適合于句子和段落級別的任務。
2?
XLNet
??? XLNet是一種廣義自回歸的語言模型,是基于 Transformer-XL而構建的。Transformer 的缺點:?
????(1)字符之間的最大依賴距離受輸入長度的限制。
????(2)對于輸入文本長度超過 512 個字符時,每個段都是從頭開始單獨訓練,因此使訓練效率下降,影響模型性能。針對以上 2 個缺點,Transformer-XL引入 了 2 個 解 決 方 法: 分 割 循 環(huán) 機 制 ( Division Recurrence Mechanism) 和 相 對 位 置 編 碼 ( Relative Positional Encoding) 。Transformer -XL 的測試速度更快,可以捕獲更長的上下文長度。
????無監(jiān)督表征學習在 NLP 領域取得了巨大成功,在這種理念下,很多研究者探索了不同的無監(jiān)督預訓練目標,而自回歸語言建模和自編碼語言是 2 個最成功的預訓練目標。而 XLNet 是一種集合了自回歸和自編碼 2 種方式的泛化自回歸方法。XLNet不使用傳統(tǒng)自回歸模型中的固定前向或后向因式分解順序,而使用一種隨機排列自然語言預測某個位置可能出現(xiàn)的詞,這種方式不僅可以使句子中的每個位置都能學習來自所有位置的語境信息,而且還可以構建雙向語義,更好地獲取上下文語義。由于XLNet 采用的是 Transformer -XL,因此模型性能更優(yōu),尤其在包含長文本序列的任務中。通過 XLNet訓練得到語言模型后,可以用于下游相關任務,如閱讀理解,基于 XLNet 得到的結果已經(jīng)遠超人類水平,在文本分類、機器翻譯等任務中取得了優(yōu)異的效果。
3?
ERNIE
????無論是 BERT 還是 XLNet 語言模型,在英文語料中表現(xiàn)都很優(yōu)異,但在中文語料中效果一般, ERNIE則是以中文語料訓練得出一種語言模型。ERNIE 是一種知識增強語義表示模型,其在語言推斷、語義相似度、命名實體識別、文本分類等多個NLP 中文任務上都有優(yōu)異表現(xiàn)。ERNIE 在處理中文語料時,通過對預測漢字進行建模,可以學習到更大語義單元的完整語義表示。ERNIE 模型內(nèi)部核心是由 Transformer 所構成,其模型結構如圖 2 所 示。模型結構主要包括 2 個模塊,下層模塊的文本編碼器( T-Encoder) 主要負責捕獲來自輸入標記的基本詞匯和句法信息,上層模塊的知識編碼器( K- Encoder) 負責從下層獲取的知識信息集成到文本信息中,以便能夠?qū)擞浐蛯嶓w的異構信息表示成一個統(tǒng)一的特征空間中。
圖2?ERNIE模型
??? ERNIE 模型通過建立海量數(shù)據(jù)中的實體概念等先驗語義知識,學習完整概念的語義表示,即在訓練模型時采用遮蓋單詞的方式通過對詞和實體概念等語義單詞進行遮蓋,使得模型對語義知識單元的表示更貼近真實世界。此外,ERNIE 模型引入多源語料訓練,其中包括百科類、新聞資訊類、論壇對話等數(shù)據(jù)。總體來說,ERNIE 模型通過對實體概念知識的學習來學習真實世界的完整概念語義表示,使得模型對實體概念的學習和推理能力更勝一籌,其次通過對訓練語料的擴充,尤其是引入了對話語料使得模型的語義表示能力更強。
問題與展望
1?
模型問題與展望
????當今,該方面的研究的難點是在模型構建過程中優(yōu)化調(diào)整參數(shù)。最大的問題還是在解決訓練數(shù)據(jù)的需求上。深度學習算法,不管是對訓練數(shù)據(jù)量的要求,還是對運算時間的要求,都遠遠高于其他算法。深度學習算法結果的準確性十分依賴于訓練數(shù)據(jù)的數(shù)量。因此,在不同的領域優(yōu)化相關的深度學習算法,使之可以擁有更高的學習效率,成為了下一步發(fā)展的方向。
????在面對這種問題時,可以引用混合傳統(tǒng)機器學習方法與深度學習方法相結合的方式來解決。深度學習是一種模仿人腦學習的過程,這就意味著當我們用它去解決一個任務時,要拋棄現(xiàn)有的知識,從頭開始學習。因此,將已有的知識(即傳統(tǒng)的機器學習方法)與深度學習方法相結合,從而加快深度學習的學習效率,成為了下一步研究的方向。
2?
數(shù)據(jù)問題與展望
????在深度學習過程中都需要大量的數(shù)據(jù)進行支撐。然而,在自然語言處理中一部分任務無法使用海量無標注語料進行學習,因此相關領域的海量有監(jiān)督數(shù)據(jù)就顯得十分有必要。
????對于這個問題,希望各個領域有能力的政府部門、企業(yè)和研究院可以提供相關的數(shù)據(jù),給予從事相關研究人員使用數(shù)據(jù)的權力。但這種解決方法依然有待于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等問題的解決。在深度學習過程中都需要大量的數(shù)據(jù)進行支撐。然而,在自然語言處理中一部分任務無法使用海量無標注語料進行學習,因此相關領域的海量有監(jiān)督數(shù)據(jù)就顯得十分有必要。對于這個問題,希望各個領域有能力的政府部門、企業(yè)和研究院可以提供相關的數(shù)據(jù),給予從事相關研究人員使用數(shù)據(jù)的權力。但這種解決方法依然有待于數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全等問題的解決。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習的數(shù)學基礎專輯獲取一折本站知識星球優(yōu)惠券,復制鏈接直接打開:https://t.zsxq.com/662nyZF本站qq群704220115。加入微信群請掃碼進群(如果是博士或者準備讀博士請說明):總結
以上是生活随笔為你收集整理的【NLP】一文了解基于深度学习的自然语言处理研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【小白学PyTorch】15.TF2实现
- 下一篇: 【小白学PyTorch】16.TF2读取