第06课:动手实战基于 ML 的中文短文本分类
文本分類(lèi),屬于有監(jiān)督學(xué)習(xí)中的一部分,在很多場(chǎng)景下都有應(yīng)用,下面通過(guò)小數(shù)據(jù)的實(shí)例,一步步完成中文短文本的分類(lèi)實(shí)現(xiàn),整個(gè)過(guò)程盡量做到少理論重實(shí)戰(zhàn)。
開(kāi)發(fā)環(huán)境,我們選擇:
本文使用的數(shù)據(jù)是我曾經(jīng)做過(guò)的一份司法數(shù)據(jù),需求是對(duì)每一條輸入數(shù)據(jù),判斷事情的主體是誰(shuí),比如報(bào)警人被老公打,報(bào)警人被老婆打,報(bào)警人被兒子打,報(bào)警人被女兒打等來(lái)進(jìn)行文本有監(jiān)督的分類(lèi)操作。
整個(gè)過(guò)程分為以下幾個(gè)步驟:
- 語(yǔ)料加載
- 分詞
- 去停用詞
- 抽取詞向量特征
- 分別進(jìn)行算法建模和模型訓(xùn)練
- 評(píng)估、計(jì)算 AUC 值
- 模型對(duì)比
基本流程如下圖所示:
下面開(kāi)始項(xiàng)目實(shí)戰(zhàn)。
1. 首先進(jìn)行語(yǔ)料加載,在這之前,引入所需要的 Python 依賴(lài)包,并將全部語(yǔ)料和停用詞字典讀入內(nèi)存中。
第一步,引入依賴(lài)庫(kù),有隨機(jī)數(shù)庫(kù)、jieba 分詞、pandas 庫(kù)等?
總結(jié)
以上是生活随笔為你收集整理的第06课:动手实战基于 ML 的中文短文本分类的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 第07课:动手实战基于 ML 的中文短文
- 下一篇: 第03课:动手实战中文文本中的关键字提取