用jiebaR分析比特币的文章
生活随笔
收集整理的這篇文章主要介紹了
用jiebaR分析比特币的文章
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
在這個(gè)notebook中,我們將使用jiebaR來(lái)分析一篇描述比特幣暴跌的文章
- 文章來(lái)源:財(cái)富網(wǎng)
- 文章鏈接:http://www.fortunechina.com/investing/c/2018-02/06/content_301955.htm
安裝jiebaR
install.packages(c('jiebaR','wordcloud2'),repos = 'https://mirrors.ustc.edu.cn/CRAN/')先來(lái)嘗試分析一下短句子
library(jiebaR) # 載入包 分詞器 = worker() # 創(chuàng)建分詞器 # 利用分詞器進(jìn)行分詞 segment("在這個(gè)notebook中,我們將使用jiebaR來(lái)分析一片描述比特幣暴跌的文章", 分詞器)TRUE
# 用添加新詞“比特幣”的分詞器再次進(jìn)行分詞 segment("在這個(gè)notebook中,我們將使用jiebaR來(lái)分析一片描述比特幣暴跌的文章", 分詞器)對(duì)文章進(jìn)行分詞
# 讀取文本,按照行讀取 texts = readLines("./data/Bitcoin.txt", encoding="UTF-8",warn = FALSE) # 查看文章內(nèi)容 texts‘character’
# 進(jìn)行詞頻統(tǒng)計(jì),并查看排序結(jié)果 require(dplyr) freq(分詞結(jié)果) %>% arrange(desc(freq)) %>% head()| 的 | 49 |
| 比特幣 | 36 |
| 在 | 10 |
| 是 | 9 |
| 美元 | 9 |
| 了 | 8 |
發(fā)現(xiàn)有很多“的”,“是”,“了”之類的詞,這些詞是停止詞。可以在統(tǒng)計(jì)詞頻是去除它們。
添加停止詞
# 添加目錄data下的停止詞文件,注意指定編碼方式 分詞器 = worker(stop_word = "./data/stop.txt",encoding = 'UTF-8') # 注意此處新建了一個(gè)worker,所以需要重新添加用戶自定義單詞 new_user_word(分詞器, "比特幣", "n")TRUE
# 開始分詞 去除停止詞分詞結(jié)果 = segment(texts, 分詞器) freq(去除停止詞分詞結(jié)果) %>% arrange(desc(freq)) %>% head()| 比特幣 | 36 |
| 美元 | 9 |
| 投資者 | 7 |
| 幣值 | 6 |
| 投資 | 4 |
| 表示 | 4 |
保存詞頻統(tǒng)計(jì)結(jié)果
# 將分詞結(jié)果保存 fred_df <- freq(去除停止詞分詞結(jié)果) # 查看詞頻統(tǒng)計(jì)結(jié)果數(shù)據(jù)類型 class(fred_df)‘data.frame’
# 將結(jié)果寫到數(shù)據(jù)文件中 write.csv(fred_df,'./data/fred_df.csv',row.names = FALSE,fileEncoding = 'GBK')注意不要再jupyter里面執(zhí)行如下語(yǔ)句
# 由于jupyter不支持輸出這種內(nèi)容豐富的圖像,在Rstudio里面執(zhí)行如下語(yǔ)句 require(wordcloud2) wordcloud2(fred_df,size = 1, fontFamily = "微軟雅黑",color = "random-light",backgroundColor = "grey")總結(jié)
以上是生活随笔為你收集整理的用jiebaR分析比特币的文章的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 十七、股票分析实战
- 下一篇: 西安黄金礼品去哪里买?