python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析
網(wǎng)頁抓取網(wǎng)易云音樂及評論數(shù)據(jù)分析
游賢
成都理工大學信息科學與技術(shù)學院
【摘
要】
摘要:為了分析網(wǎng)易云音樂中哪些歌曲是熱門歌曲,哪些歌曲的評論
最多,從而了解到人們對于不同音樂類型的喜愛程度,采用成熟的
scrapy
爬蟲
框架,從歌手信息開始,抓取每個歌手的所有演唱曲目和對應(yīng)評論信息,最后
對數(shù)據(jù)進行清洗處理,得出結(jié)論。
【期刊名稱】
數(shù)碼世界
【年
(
卷
),
期】
2018(000)009
【總頁數(shù)】
1
【關(guān)鍵詞】
網(wǎng)頁采集
對稱加密
1.
思路分析
抓取全站信息一般選擇有規(guī)律的網(wǎng)頁采用廣度優(yōu)先方法,考慮到如果從歌單頁
面開始的話,會有很多歌曲重復(fù),因為相同的歌曲可以劃分到不同的歌單。因
此最終決定從歌手頁面開始,作為種子頁面,這樣歌曲的重復(fù)量會小很多(如
果有多個歌手合唱,那么這首歌會出現(xiàn)在每個歌手的歌曲頁面當中,他們的訪
問地址是不一樣的)
。
方法一:
從
http
:
//music.163.com/discover/artist
頁面出發(fā),可以找到所
有的音樂人,
如
圖
所
示
,
每
個
歌
手
分
類
對
應(yīng)
的
url
為
http
:
//music.163.com/discover/artist/cat
?
id=xxx
它
的
可
取
值
有
1001
,
1002
,
1003
,
2001
,
2002
,
2003
,
6001
,
6002
,
6003
,
7001
,
7002
,
7003
,
4001
,
4002
,
4003
。然后我沒隨便進入其中其一個頁面
總結(jié)
以上是生活随笔為你收集整理的python3爬取网易云歌单数据清洗_网页抓取网易云音乐及评论数据分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python爬虫中for循环无法每一段输
- 下一篇: python一加到二十_46 pytho