推荐:腾讯开源的词向量精简版本下载
騰訊AI Lab 宣布開源大規模、高質量的中文詞向量數據,該數據包含800多萬中文詞匯,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,為對話回復質量預測和醫療實體識別等自然語言處理方向的業務應用帶來顯著的效能提升。但是有一個很大問題,就是詞向量過大,約16g,用普通服務器讀取詞向量需要半小時。一般用戶并不需要太大的詞向量,為方便用戶,本文搜集了騰訊原版詞向量精簡版本,并提供各種大小版本的詞向量下載。
有關詞向量和嵌入技術請看這篇文章(圖解word2vec(原文翻譯))
騰訊AI Lab開源大規模高質量中文詞向量數據簡介:
https://cloud.tencent.com/developer/article/1356164
原版騰訊詞向量下載:
https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解壓約16g,文末提供百度云下載)
如何使用
很多模型需要測試,建議初次測試的時候使用稍小的詞向量版本,比如70000個詞的版本(133mb),最后再使用原版800萬個詞的版本,這樣可以節省很多實驗時間。很多時候,70000個詞的詞向量已經可以滿足要求了。
讀取模型
from gensim.models import KeyedVectorsmodel = KeyedVectors.load_word2vec_format("50-small.txt")使用模型
model.most_similar(positive=['女', '國王'], negative=['男'], topn=1)model.doesnt_match("上海 成都 廣州 北京".split(" "))model.similarity('女人', '男人')model.most_similar('特朗普',topn=10)深度學習模式示例
使用LSTM模型,根據豆瓣評論,預測打分。
首先下載豆瓣的數據
豆瓣評論數據149M (文末提供下載)
然后下載庫對應的分詞包。(文末提供下載)
使用效果
加載70000字典前
?加載70000字典后?
代碼文件見?
Use Tencent Word Embeddings with douban datasets.ipynb(文末提供下載)
參考:
https://github.com/cliuxinxin/TX-WORD2VEC-SMALL?(這位小哥搜集的,希望star下)
https://cloud.tencent.com/developer/article/1356164
? ??總結和下載
騰訊AI Lab 開源的中文詞向量數據,包含800多萬中文詞匯,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高,但是有一個很大問題,就是詞向量過大,約15g,用普通服務器讀取詞向量需要半小時。一般用戶并不需要太大的詞向量,為方便用戶,本文搜集了騰訊原版詞向量精簡版本,并提供各種大小版本的詞向量下載。并提供各種大小版本的詞向量下載。
詞向量及相關資料下載:
根目錄:
5000-small.txt 這個有5000詞,可以下下來玩玩
45000-small.txt 這個有4.5w的詞,已經能解決很多問題了
70000-small.txt 7w詞 ?133MB
100000-small.txt 10w詞 190MB
500000-small.txt 50w詞 953MB
1000000-small.txt 100w詞 1.9GB
2000000-small.txt 200w詞 3.8GB
Tencent_AILab_ChineseEmbedding.tar.gz 原版詞向量(6.31g),解壓后16g
code文件夾
doubanmovieshortcomments.zip豆瓣評論數據149M
分詞文件(如:8000000-dict.txt等)
Use Tencent Word Embeddings with douban datasets.ipynb(測試代碼)
下載鏈接:
https://pan.baidu.com/s/1QVuDrGoo46RaaaTTEpmgPw
提取碼:bpai
若被和諧,請回復“騰訊詞向量”獲取最新地址。
本站簡介↓↓↓?
“機器學習初學者”是幫助人工智能愛好者入門的個人公眾號(創始人:黃海廣)
初學者入門的道路上,最需要的是“雪中送炭”,而不是“錦上添花”。
本站的知識星球(黃博的機器學習圈子)ID:92416895
目前在機器學習方向的知識星球排名第一(上圖二維碼)
往期精彩回顧
良心推薦:機器學習入門資料匯總及學習建議(2018版)
黃海廣博士的github鏡像下載(機器學習及深度學習資源)
吳恩達老師的機器學習和深度學習課程筆記打印版
機器學習小抄-(像背托福單詞一樣理解機器學習)
首發:深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書
機器學習的數學基礎
機器學習必備寶典-《統計學習方法》的python代碼實現、電子書及課件
吐血推薦收藏的學位論文排版教程(完整版)
Python代碼寫得丑怎么辦?推薦幾個神器拯救你
重磅 | 完備的 AI 學習路線,最詳細的資源整理!
圖解word2vec(原文翻譯)
備注:本站qq群:865189078(共8個群,不用重復加)。
加入本站微信群,請加黃博的助理微信,說明:公眾號用戶加群。
總結
以上是生活随笔為你收集整理的推荐:腾讯开源的词向量精简版本下载的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 专访 | 周涛:从窄门进最终走出宽路来
- 下一篇: 特征工程的宝典-《Feature Eng