python中文分词算法_基于Python语言的中文分词技术的研究
生活随笔
收集整理的這篇文章主要介紹了
python中文分词算法_基于Python语言的中文分词技术的研究
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
基于
Python
語言的中文分詞技術的研究
祝永志
;
荊靜
【期刊名稱】
《通信技術》
【年
(
卷
),
期】
2019(052)007
【摘要】
Python
作為一種解釋性高級編程語言
,
已經深入大數據、人工智能等
熱門領域
.Python
在數據科學領域具有廣泛的應用
,
比如
Python
爬蟲、數據挖
掘等等
.
將連續的字序列劃分為具有一定規范的詞序列的過程稱為分詞
.
在英文中
,
空格是單詞間的分界符
,
然而中文比較復雜
.
一般來說對字、句子和段落的劃分比
較簡單
,
但中文中詞的劃分沒有明顯的標志
,
所以對中文文本進行分詞的難度較大
.
運用
Python
爬蟲對網頁數據進行抓取作為實驗文本數據
,
使用
python
強大的
分詞庫
jieba
對中文文本進行分詞處理
.
對分詞結果分別采用
TF-IDF
算法和
TextRank
算法進行提取關鍵詞
,
實驗結果明顯優于基于詞頻的分詞算法
.
最后采
用詞云的方式對關鍵詞進行展現
,
使得分詞結果一目了然
.
【總頁數】
8
頁
(1612-1619)
【關鍵詞】
python;
文本分詞
;jieba;
詞云
;
數據可視化
【作者】
祝永志
;
荊靜
【作者單位】
曲阜師范大學
信息科學與工程學院
,
山東
日照
276826;
曲阜師范
大學
信息科學與工程學院
,
山東
日照
276826
【正文語種】
中文
【中圖分類】
TP312
【相關文獻】
1.Python
環境下的文本分詞與詞云制作
[J],
嚴明
;
鄭昌興
總結
以上是生活随笔為你收集整理的python中文分词算法_基于Python语言的中文分词技术的研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 多人合作的项目要买服务器吗,浅谈Gith
- 下一篇: CSJH网络安全团队简介