以网易严选为例,人工智能实战系列之预训练语言模型
生活随笔
收集整理的這篇文章主要介紹了
以网易严选为例,人工智能实战系列之预训练语言模型
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
導讀:隨著Bert的發布,預訓練 ( pre-train ) 成為NLP領域最為熱門的方向之一,大規模的無監督語料加上少量有標注的語料成為了NLP模型的標配。本文將介紹幾種常見的語言模型的基本原理和使用方式,以及語言模型在網易嚴選NLP業務上的實踐,包括分類、文本匹配、序列標注、文本生成等。
01
前言
文本的表征經歷了漫長的發展歷程,從最簡單經典的bow詞袋模型、以LDA為代表的主題模型、以word2vec為代表的稠密向量模型、到現在以Bert為代表的通用語言模型。詞語是文本細粒度的表達,早期的預訓練詞向量雖簡單易用,但無法解決一詞多義的問題。近年來,基于大規模上下文語料,訓練的通用語言模型,可以產出更細致的語義表征向量,相同的詞在不同的語境中能抽取出不同的語義向量。
在通用常見的NLP任務中,數據標注是不能缺少的重要環節。數據的量級及質量會直接影響任務的效果?,F實條件下,數據標注的成本往往很高,但好在我們擁有大量的無標注的語料。因此,基于無監督的海量語料訓練一個通用的語言模型,然后針對不同的NLP任務,進行少量數據標注后,再對模型進行微調成為了發展的趨勢。
02
模型結構
我們選取最具代表性的三個語言模型: ELMO[1]、GPT[2]、BERT[3] 進行對比,如下表所示。
總結
以上是生活随笔為你收集整理的以网易严选为例,人工智能实战系列之预训练语言模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 运筹学最优化理论系列概念-单纯形法原理解
- 下一篇: tableau实战系列(十七)-如何将