生活随笔
收集整理的這篇文章主要介紹了
Python实现抓取CSDN博客首页文章列表
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1、使用工具:
Python3.5
BeautifulSoup
2、抓取網站:
csdn首頁文章列表 http://blog.csdn.net/
3、分析網站文章列表代碼:
4、實現抓取代碼:
__author__ =
'Administrator'
import urllib.request
import re
from bs4
import BeautifulSoup
class CsdnUtils(object):def __init__(self):user_agent=
'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'self.headers ={
'Cache-Control':
'max-age=0',
'Connection':
'keep-alive',
'Accept':
'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'User-Agent':user_agent,}self.contentAll=set()
def getPage(self,url=None):request=urllib.request.Request(url,headers=self.headers)response=urllib.request.urlopen(request)soup=BeautifulSoup(response.read(),
"html.parser")
return soup
def parsePage(self,url=None,page_num=None):soup=self.getPage(url)itemBlog=soup.find_all(
'dl',
'blog_list clearfix')cnArticle=CsdnUtilsprint(
"========================第",page_num,
"頁======================================")
for i,itemSingle
in enumerate(itemBlog):cnArticle.num=icnArticle.author=itemSingle.find(
'a',
'nickname').stringcnArticle.postTime=itemSingle.find(
'label').stringcnArticle.articleView=itemSingle.find(
'em').stringcnArticle.title=itemSingle.find(
'h3',
"tracking-ad").stringcnArticle.url=itemSingle.find(
"h3").find(
"a").get(
"href")print(
"數據:",cnArticle.num+
1,
'\t',cnArticle.author,
'\t',cnArticle.postTime,
'\t',cnArticle.articleView,
'\t',cnArticle.title,
'\t',cnArticle.url)
if __name__ ==
"__main__":url =
"http://blog.csdn.net"cnblog=CsdnUtils()
for i
in range(
0,
2):cnblog.parsePage(url,i+
1)
5、執行結果:
轉載于:https://www.cnblogs.com/luweiwei/p/5968459.html
總結
以上是生活随笔為你收集整理的Python实现抓取CSDN博客首页文章列表的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。