Chat:NLP 中文短文本分类项目实践(上)
生活随笔
收集整理的這篇文章主要介紹了
Chat:NLP 中文短文本分类项目实践(上)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目前,隨著大數據、云計算對關系型數據處理技術趨向穩定成熟,各大互聯網公司對關系數據的整合也已經落地成熟,筆者預測未來數據領域的挑戰將主要集中在半結構化和非結構化數據的整合,NLP 技術對個人發展越來越重要,尤其在中文文本上挑戰更大。
在本場 Chat 以及現在和未來工作中,筆者都將致力于中文文本的挖掘與開發,而且是通過實戰來增加對中文 NLP 需求的應用理解。
由于是第一講,筆者在本次 Chat 并沒有提及較深入的 NLP 處理技術,通過 WordCloud 制作詞云、用 LDA 主題模型獲取文本關鍵詞、以及用樸素貝葉斯算法和 SVM 分別對文本分類,目的是讓大家對中文文本處理有一個直觀了解,為后續實戰提供基礎保障。
下面是一些約定:
一、WordCloud 制作詞云
最近中美貿易戰炒的沸沸揚揚,筆者用網上摘取了一些文本(自己線下可以繼續添加語料),下面來制作一個中美貿易戰相關的詞云。
1. jieba 分詞安裝
jieba 俗稱中文分詞利器,作用是來對文本語料進行分詞。
- 全自動安裝:easy_install jieba 或者 pip install jieba / pip
總結
以上是生活随笔為你收集整理的Chat:NLP 中文短文本分类项目实践(上)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP 中文短文本分类项目实践(下)
- 下一篇: 第21课:中文自然语言处理的应用、现状和