生活随笔
收集整理的這篇文章主要介紹了
豆瓣电影爬虫Ⅱ 豆瓣电影数据的整理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
二、豆瓣電影數據的整理
下一部分的爬取需要借助上一節爬取的數據,也就是電影的id號,根據id號來爬取具體的電影數據。 需要對爬取的數據進行處理,成為更有利于我們使用的數據。如下圖所示:
這里把代碼貼出來就不進行解釋了。 數據和代碼放到一個目錄下(data下是我們上一節爬取的數據,get_index_id_name.py是整理程序):
import os
import csv
def readAllFiles(filePath
):id = []name
= []fileList
= os
.listdir
(filePath
)for file in fileList
:path
= os
.path
.join
(filePath
, file)if os
.path
.isfile
(path
):with open(path
, 'r') as f
:reader
= csv
.reader
(f
)for i
in reader
:if str(i
[4]) != "NONE" and str(i
[4]) != 'id':id.append
(i
[4])name
.append
(i
[7])return name
, id
movie_name
, movie_id
= readAllFiles
("data")with open('index.csv', 'w', encoding
='utf-8-sig', newline
='') as f
:f1
= csv
.writer
(f
)for i
in range(len(movie_name
)):f1
.writerow
([movie_id
[i
], movie_name
[i
]])
謝謝大家的閱讀!
總結
以上是生活随笔為你收集整理的豆瓣电影爬虫Ⅱ 豆瓣电影数据的整理的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。