三、入门爬虫,爬取豆瓣电影
生活随笔
收集整理的這篇文章主要介紹了
三、入门爬虫,爬取豆瓣电影
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
上次爬取了百度圖片,是分析解決ajax的json的響應的,對于一些網站的常見的翻頁,是這次主要內容。
明確目標
爬取的是豆瓣電影,并保存到csv格式中
爬取豆瓣是非常的簡單,因為沒有任何反爬的機制
爬取的url :https://movie.douban.com/explore
分析網站
和上次一樣的套路
爬取全代碼
# -*- coding:utf-8 -*- # time :2019/4/8 13:00 # author: 毛利import requests import json headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36" }# utf-8 我們 需要 另一種編碼 utf-8-sig 選擇這個編碼 utf-8-sig def douban_spider(tag,nums,sort):總結
以上是生活随笔為你收集整理的三、入门爬虫,爬取豆瓣电影的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一、NLTK工具包使用
- 下一篇: 中国石油航空加油站送20箱水到中国石油长