當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

用jiebaR分析比特币的文章

發(fā)布時(shí)間：2024/10/8 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了用jiebaR分析比特币的文章小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

在這個(gè)notebook中，我們將使用jiebaR來(lái)分析一篇描述比特幣暴跌的文章

文章來(lái)源：財(cái)富網(wǎng)
文章鏈接：http://www.fortunechina.com/investing/c/2018-02/06/content_301955.htm

# 查看文章內(nèi)容： file.show('./data//Bitcoin.txt',encoding = 'UTF-8')

安裝jiebaR

install.packages(c('jiebaR','wordcloud2'),repos = 'https://mirrors.ustc.edu.cn/CRAN/')

先來(lái)嘗試分析一下短句子

library(jiebaR) # 載入包分詞器 = worker() # 創(chuàng)建分詞器 # 利用分詞器進(jìn)行分詞 segment("在這個(gè)notebook中，我們將使用jiebaR來(lái)分析一片描述比特幣暴跌的文章", 分詞器)

'在'

'這個(gè)'

'notebook'

'中'

'我們'

'將'

'使用'

'jiebaR'

'來(lái)'

'分析'

'一片'

'描述'

'比特'

'幣'

'暴跌'

'的'

'文章'

# 添加新詞到已存在的分詞器中，比特幣不能分開，它時(shí)一個(gè)詞。第三個(gè)參數(shù) "n" 代表新詞的詞性標(biāo)記 new_user_word(分詞器, "比特幣", "n")

TRUE

# 用添加新詞“比特幣”的分詞器再次進(jìn)行分詞 segment("在這個(gè)notebook中，我們將使用jiebaR來(lái)分析一片描述比特幣暴跌的文章", 分詞器)

'在'

'這個(gè)'

'notebook'

'中'

'我們'

'將'

'使用'

'jiebaR'

'來(lái)'

'分析'

'一片'

'描述'

'比特幣'

'暴跌'

'的'

'文章'

對(duì)文章進(jìn)行分詞

# 讀取文本，按照行讀取 texts = readLines("./data/Bitcoin.txt", encoding="UTF-8",warn = FALSE) # 查看文章內(nèi)容 texts

'對(duì)于比特幣投資者來(lái)說(shuō)，總有一些時(shí)候是特別考驗(yàn)?zāi)愕撵`魂的。'

'在美國(guó)推出比特幣期貨后，比特幣的幣值在去年12月一度漲至近2萬(wàn)美元，此后便一路暴跌，幣值被攔腰砍掉一半以上，截止至上周五已跌至7614美元。不過(guò)據(jù)比特幣網(wǎng)站coinmarketcap.com稱，截止到上周六紐約當(dāng)?shù)貢r(shí)間下午2時(shí)58分，比特幣的幣值又回升了7.5個(gè)百分點(diǎn)，回升至9290.15美元。'

'在此輪暴跌中，損失最慘重的，當(dāng)然是那些在比特幣幣值最高位處接盤的人。此前不久，杰米·迪蒙和魯里埃爾·魯比尼等比特幣懷疑論者就曾指出，比特幣是史上最大的資產(chǎn)泡沫之一，且已顯現(xiàn)出貶值的跡象。“接盤俠”們的恐慌性出售，也與早期比

# 整篇文章一起分詞，將按行分詞的條件設(shè)置為FALSE 分詞器$bylines = FALSE # 開始分詞分詞結(jié)果 = segment(texts, 分詞器) # 查看分詞結(jié)果,查看前100個(gè) head(分詞結(jié)果,100)

'對(duì)于'

'比特幣'

'投資者'

'來(lái)說(shuō)'

'總有'

'一些'

'時(shí)候'

'是'

'特別'

'考驗(yàn)'

'你'

'的'

'靈魂'

'的'

'在'

'美國(guó)'

'推出'

'比特幣'

'期貨'

'后'

'比特幣'

'的'

'幣值'

'在'

'去年'

'12'

'月'

'一度'

'漲至'

'近'

'2'

'萬(wàn)美元'

'此后'

'便'

'一路'

'暴跌'

'幣值'

'被'

'攔腰'

'砍掉'

'一半'

'以上'

'截止'

'至'

'上周五'

'已跌'

'至'

# 分詞結(jié)構(gòu)數(shù)據(jù)類型 class(分詞結(jié)果)

‘character’

# 進(jìn)行詞頻統(tǒng)計(jì)，并查看排序結(jié)果 require(dplyr) freq(分詞結(jié)果) %>% arrange(desc(freq)) %>% head() charfreq

的	49
比特幣	36
在	10
是	9
美元	9
了	8

發(fā)現(xiàn)有很多“的”，“是”，“了”之類的詞，這些詞是停止詞。可以在統(tǒng)計(jì)詞頻是去除它們。

添加停止詞

# 添加目錄data下的停止詞文件，注意指定編碼方式分詞器 = worker(stop_word = "./data/stop.txt",encoding = 'UTF-8') # 注意此處新建了一個(gè)worker，所以需要重新添加用戶自定義單詞 new_user_word(分詞器, "比特幣", "n")

TRUE

# 開始分詞去除停止詞分詞結(jié)果 = segment(texts, 分詞器) freq(去除停止詞分詞結(jié)果) %>% arrange(desc(freq)) %>% head() charfreq

比特幣	36
美元	9
投資者	7
幣值	6
投資	4
表示	4

保存詞頻統(tǒng)計(jì)結(jié)果

# 將分詞結(jié)果保存 fred_df <- freq(去除停止詞分詞結(jié)果) # 查看詞頻統(tǒng)計(jì)結(jié)果數(shù)據(jù)類型 class(fred_df)

‘data.frame’

# 將結(jié)果寫到數(shù)據(jù)文件中 write.csv(fred_df,'./data/fred_df.csv',row.names = FALSE,fileEncoding = 'GBK')

注意不要再jupyter里面執(zhí)行如下語(yǔ)句

# 由于jupyter不支持輸出這種內(nèi)容豐富的圖像，在Rstudio里面執(zhí)行如下語(yǔ)句 require(wordcloud2) wordcloud2(fred_df,size = 1, fontFamily = "微軟雅黑",color = "random-light",backgroundColor = "grey")

總結(jié)

以上是生活随笔為你收集整理的用jiebaR分析比特币的文章的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。