爬虫作业
第一部分:
請分析作業頁面,爬取已提交作業信息,并生成已提交作業名單,保存為英文逗號分隔的csv文件。文件名為:hwlist.csv?。 文件內容范例如下形式: 學號,姓名,作業標題,作業提交時間,作業URL 20194010101,張三,羊車門作業,2018-11-13 23:47:36.8,http://www.cnblogs.com/sninius/p/12345678.html 20194010102,李四,羊車門,2018-11-14 9:38:27.03,http://www.cnblogs.com/sninius/p/87654321.html *注1:如制作定期爬去作業爬蟲,請注意爬取頻次不易太過密集; *注2:本部分作業用到部分庫如下所示: (1)requests —— 第3方庫 (2)json? ? —— 內置庫# -*- coding: utf-8 -*- """ Created on Sat Dec 8 14:58:47 2018@author: lenovo """ import json import requests try:r = requests.get("https://edu.cnblogs.com/Homework/GetAnswers?homeworkId=2420&_=1544195081412")#獲取需要的頁面" r.raise_for_status()r.encoding = r.apparent_encoding#"防止亂碼" except:print("爬取失敗,請重試!") datas = json.loads(r.text)["data"] a = "" for data in datas:a = a+str(data["StudentNo"])+","+data["RealName"]+","+data["DateAdded"].replace("T"," ")+data["Title"]+data["Url"]+","+"\n"with open("python.csv","w") as b:b.write(a)
?
轉載于:https://www.cnblogs.com/simbaa/p/10087771.html
總結
- 上一篇: 浅谈FIle协议与Http协议及区别
- 下一篇: 对反射的封装