腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用
今日,騰訊AI Lab 宣布開源大規模、高質量的中文詞向量數據。該數據包含800多萬中文詞匯,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,為對話回復質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。針對業界現有的中文詞向量公開數據的稀缺和不足,騰訊 AI Lab此次開源,可為中文環境下基于深度學習的自然語言處理(NLP)模型訓練提供高質量的底層支持,推動學術研究和工業應用環境下中文NLP任務效果的提升。
數據下載地址:https://ai.tencent.com/ailab/nlp/embedding.html
近年來,深度學習技術在自然語言處理領域中得到了廣泛應用。基于深度神經網絡的模型已經在詞性標注、命名實體識別、情感分類等諸多任務上顯著超越了傳統模型。用深度學習技術來處理自然語言文本,離不開文本的向量化,即把一段文本轉化成一個n維的向量。在大量任務中,作為千變萬化的文本向量化網絡架構的共同底層,嵌入層(Embedding Layer)負責詞匯(文本的基本單元)到向量(神經網絡計算的核心對象)的轉換,是自然語言通向深度神經網絡的入口。大量的學界研究和業界實踐證明,使用大規模高質量的詞向量初始化嵌入層,可以在更少的訓練代價下得到性能更優的深度學習模型。
目前,針對英語環境,工業界和學術界已發布了一些高質量的詞向量數據,并得到了廣泛的使用和驗證。其中較為知名的有谷歌公司基于word2vec算法[1]、斯坦福大學基于GloVe算法[2]、Facebook基于fastText項目[3]發布的數據等。然而,目前公開可下載的中文詞向量數據[3,4]還比較少,并且數據的詞匯覆蓋率有所不足,特別是缺乏很多短語和網絡新詞。
騰訊AI Lab詞向量的特點
騰訊AI Lab此次公開的中文詞向量數據包含800多萬中文詞匯,其中每個詞對應一個200維的向量。相比現有的中文詞向量數據,騰訊AI Lab的中文詞向量著重提升了以下3個方面,相比已有各類中文詞向量大大改善了其質量和可用性:
⒈ 覆蓋率(Coverage):
該詞向量數據包含很多現有公開的詞向量數據所欠缺的短語,比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河
⒉ 新鮮度(Freshness):
該數據包含一些最近一兩年出現的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:
一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了
⒊ 準確性(Accuracy):
由于采用了更大規模的訓練數據和更好的訓練算法,所生成的詞向量能夠更好地表達詞之間的語義關系,如下列相似詞檢索結果所示:
輸入
劉德華
興高采烈
狂奔
自然語言處理
相似詞
劉天王
興高彩烈
飛奔
自然語言理解
周潤發
興沖沖
一路狂奔
計算機視覺
華仔
歡天喜地
奔跑
自然語言處理技術
梁朝偉
興致勃勃
狂跑
深度學習
張學友
眉飛色舞
疾馳
機器學習
古天樂
得意洋洋
飛馳
圖像識別
張家輝
喜笑顏開
疾奔
語義理解
張國榮
歡呼雀躍
奔去
語音識別
得益于覆蓋率、新鮮度、準確性的提升,在內部評測中,騰訊AI Lab提供的中文詞向量數據相比于現有的公開數據,在相似度和相關度指標上均達到了更高的分值。在騰訊公司內部的對話回復質量預測和醫療實體識別等業務場景中,騰訊AI Lab提供的中文詞向量數據都帶來了顯著的性能提升。
騰訊AI Lab詞向量的構建
為了生成高覆蓋率、高新鮮度、高準確性的詞向量數據,騰訊AI Lab主要從以下3個方面對詞向量的構建過程進行了優化:
⒈ 語料采集:
訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料,以及自行抓取的互聯網網頁和小說語料。大規模多來源語料的組合,使得所生成的詞向量數據能夠涵蓋多種類型的詞匯。而采用新聞數據和最新網頁數據對新詞建模,也使得詞向量數據的新鮮度大為提升。
⒉ 詞庫構建:
除了引入維基百科和百度百科的部分詞條之外,還實現了Shi等人于2010年提出的語義擴展算法 [5],可從海量的網頁數據中自動發現新詞——根據詞匯模式和超文本標記模式,在發現新詞的同時計算新詞之間的語義相似度。
⒊?訓練算法:
騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法 [6] 作為詞向量的訓練算法。DSG算法基于廣泛采用的詞向量訓練算法Skip-Gram (SG),在文本窗口中詞對共現關系的基礎上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。
此份中文詞向量數據的開源,是騰訊AI Lab依托公司數據源優勢,對自身基礎AI能力的一次展示,將為中文環境下基于深度學習的NLP模型訓練提供高質量的底層支持,推動學術研究和工業應用環境下中文NLP任務效果的提升。
除發布此份中文詞向量數據外,騰訊AI Lab長期以來在文本表示學習方面有著持續的投入,相關研究成果近期在ACL、EMNLP、IJCAI等自然語言處理及人工智能頂級會議上發表[7,8,9,10],并被應用于多個落地場景。未來,騰訊AI Lab將著眼于常規文本與社交媒體文本兩種不同的文本類型,繼續探索詞匯、詞組/實體、句子/消息、篇章/對話等各粒度文本對象的語義建模和理解,為自然語言處理領域的重要應用提供基礎支持。
[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.
[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.
[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov,?Enriching Word Vectors with Subword Information. TACL 2017 (5).
[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.
[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.
[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.
[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.
[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.
[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.
[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.
總結
以上是生活随笔為你收集整理的腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯AI Lab正式开源业内最大规模多标
- 下一篇: 腾讯与Github的魔幻会面背后的故事…