python爬取b站弹幕_爬取B站弹幕并且制作词云
目錄
SRE實(shí)戰(zhàn) 互聯(lián)網(wǎng)時(shí)代守護(hù)先鋒,助力企業(yè)售后服務(wù)體系運(yùn)籌帷幄!一鍵直達(dá)領(lǐng)取阿里云限量特價(jià)優(yōu)惠。
爬取彈幕
1. 從手機(jī)端口進(jìn)入網(wǎng)頁爬取找到接口
2.代碼
import requests
from lxml import etree
import numpy as np
url='https://api.bilibili.com/x/v1/dm/list.so?oid=198835779'
headers= {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Mobile Safari/537.36',
}
response = requests.get(url,headers= headers)
# response.encoding='utf-8'
# print(response.text)
# print(response.content)
print(type(response.text))
html=etree.HTML(response.content)
t=etree.tostring(html)
# print(t)
words = html.xpath('/html//d/text()')
with open('word.txt','w')as f:
for word in words:
f.write(word+' ')
print(words)
每一次的都是不同的彈幕所以不用擔(dān)心彈幕數(shù)量過少
制作詞云
利用的是wordcloud庫
1.文件讀取
2.代碼
#coding:utf-8
from matplotlib import pyplot as plt
from wordcloud import WordCloud
import jieba
f=open(r'word.txt','r',encoding='gbk').read()
font = r'C:\Windows\Fonts\FZSTK.TTF'
cloud=WordCloud(
font_path=font,
width=1000,
height=800,
margin=2
).generate(f)
plt.imshow(cloud)
plt.axis('off')
plt.show()
掃碼關(guān)注我們
微信號(hào):SRE實(shí)戰(zhàn)
拒絕背鍋 運(yùn)籌帷幄
×
選擇打賞方式:
微信
QQ錢包
支付寶
打賞
打賞
打賞
多少都是心意!謝謝大家!!!
×
選擇分享方式:
微信掃一掃,分享朋友圈
Or
手機(jī)掃一掃,精彩隨身帶
總結(jié)
以上是生活随笔為你收集整理的python爬取b站弹幕_爬取B站弹幕并且制作词云的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: html调用接口_搜狗ocr识别接口
- 下一篇: python截取关键字后的字符串_使用正