第07课:动手实战基于 ML 的中文短文本聚类
生活随笔
收集整理的這篇文章主要介紹了
第07课:动手实战基于 ML 的中文短文本聚类
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
關(guān)于文本聚類,我曾在 Chat《NLP 中文文本聚類之無監(jiān)督學(xué)習(xí)》中介紹過,文本聚類是將一個個文檔由原有的自然語言文字信息轉(zhuǎn)化成數(shù)學(xué)信息,以高維空間點的形式展現(xiàn)出來,通過計算哪些點距離比較近,從而將那些點聚成一個簇,簇的中心叫做簇心。一個好的聚類要保證簇內(nèi)點的距離盡量的近,但簇與簇之間的點要盡量的遠(yuǎn)。
如下圖,以 K、M、N 三個點分別為聚類的簇心,將結(jié)果聚為三類,使得簇內(nèi)點的距離盡量的近,但簇與簇之間的點盡量的遠(yuǎn)。
開發(fā)環(huán)境,我們選擇::
本文繼續(xù)沿用上篇文本分類中的語料來進(jìn)行文本無監(jiān)督聚類操作。
整個過程分為以下幾個步驟:
- 語料加載
- 分詞
- 去停用詞
- 抽取詞向量特征
- 實戰(zhàn) TF-IDF 的中文文本 K-means 聚類
- 實戰(zhàn) word2Vec 的中文文本 K-means 聚類
下面開始項目實戰(zhàn)。
1. 首先進(jìn)行語料加載,在這之前,引入所需要的 Python 依賴包,并將全部語料和停用詞字典讀入內(nèi)存中。
第一步,引入依賴庫,有隨機(jī)數(shù)庫、ji
總結(jié)
以上是生活随笔為你收集整理的第07课:动手实战基于 ML 的中文短文本聚类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第08课:从自然语言处理角度看 HMM
- 下一篇: 第06课:动手实战基于 ML 的中文短文