github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量
生活随笔
收集整理的這篇文章主要介紹了
github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
(給機器學習算法與Python學習加星標,提升AI技能)?該項目提供了不同表征(密集和稀疏)上下文特征(單詞,ngram,字符等)和語料庫訓練的中文單詞向量。開發者可以輕松獲得具有不同屬性的預先訓練的向量,并將它們用于下游任務。此外,該庫還提供了一個中文類比推理數據集CA8和評估工具包,供用戶評估他們的單詞向量的質量。
??格式
預先訓練好的向量文件是 text 格式,每行包含一個單詞和它的向量,每個值由空格分隔。第一行記錄元信息:第一個數字表示文件中的字數,第二個表示維度。除了密集的單詞矢量(用 SGNS 訓練)之外,我們還提供稀疏矢量(用 PPMI 訓練)。它們與 liblinear 的格式相同,其中“:”之前的數字表示維度索引,“:”之后的數字表示該值。Github:https://github.com/Embedding/Chinese-Word-Vectors??預訓練中文詞向量
基礎設置不同的領域用不同的表示法,上下文特征和語料庫訓練的中文單詞向量。*本庫提供了字符嵌入,因為大部分古漢字都是獨立的字符。??各種共現信息
本庫根據不同的共現信息發布單詞向量,目標向量和上下文向量在相關論文中被稱為輸入和輸出向量。這一部分,可以獲取詞層面之上的任意語言單元向量。例如,漢字向量包含在詞-漢字的上下文向量中。所有向量都在百度百科上使用 SGNS 訓練。推薦閱讀手繪日漫版的新垣結衣見過沒?這個開源動漫生成器讓你的照片秒變教程資源 | 5天玩轉PyTorch深度學習,從GAN到詞嵌入都有實例技巧 | 30招教你順滑切換Python3PDF+視頻 | 欲學機器學習必先掌握Shell,自制教程喜歡就點「在看」吧 !
總結
以上是生活随笔為你收集整理的github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python3的float数精度_pyt
- 下一篇: 如何在京东中查询商品的最低价