python自动爬取更新电影网站_python爬取电影网站信息
一、爬取前提
1)本地安裝了mysql數據庫 5.6版本
2)安裝了Python 2.7
二、爬取內容
電影名稱、電影簡介、電影圖片、電影下載鏈接
三、爬取邏輯
1)進入電影網列表頁, 針對列表的html內容進行數據提取 電影名稱,電影簡介, 電影圖片, 電影詳情URL, 插入數據庫表
2)通過步驟1獲取到的電影詳情URL, 進入電影詳情頁, 獲取下載鏈接, 更新數據庫的下載鏈接字段
3)循環執行如上過程,直到數據被爬取完或者循環完畢。
三、爬取步驟
1)本地初始化數據庫腳本 database.sql
SET FOREIGN_KEY_CHECKS=0;
-- ----------------------------
-- Table structure for movie
-- ----------------------------
DROP TABLE IF EXISTS`movie`;
CREATE TABLE`movie` (
`id` bigint(20) NOT NULLAUTO_INCREMENT,
`title` varchar(100) DEFAULT NULL,
`pic_url` varchar(100) DEFAULT NULL,
`target_url` varchar(100) DEFAULT NULL,
`introduction` varchar(1000) DEFAULT NULL,
`download_url` text,
`create_time` datetime DEFAULT NULL,
PRIMARY KEY(`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8;
2) 運行 MovieSpider.py 文件, 開啟爬蟲(當前只爬取1000頁數據, 總共約10萬部電影)
3)查詢數據庫表, 觀察爬取數據清空
select * from movie;
四、github代碼地址
總結
以上是生活随笔為你收集整理的python自动爬取更新电影网站_python爬取电影网站信息的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: activiti 多部门审批_Activ
- 下一篇: wav文件头损坏_Dex文件结构学习