當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

用python写一个简单的爬虫_用Python编写一个简单的爬虫

發(fā)布時(shí)間：2024/9/15 python 27 豆豆

生活随笔收集整理的這篇文章主要介紹了用python写一个简单的爬虫_用Python编写一个简单的爬虫小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者信息：

Author : 黃志成(小黃)

博客地址: 博客

吶，這是一篇福利教程.為什么這么說呢.我們要爬取的內(nèi)容是美圖網(wǎng)站(嘿嘿，老司機(jī)都懂的)

廢話不多說.開始今天的表演.

這個(gè)圖集網(wǎng)站不要問我怎么來的.絕對(duì)不是我刻意找的.（其實(shí)是看了別的發(fā)的一篇文章,就想自己動(dòng)手實(shí)現(xiàn)一下）

我們今天的任務(wù)就是將這些圖集保存下來。

首先我們需要獲取到所有的列表，我們往下拉動(dòng)滾動(dòng)條,拉到底,會(huì)繼續(xù)自動(dòng)加載內(nèi)容,我們通過瀏覽器的NetWork可以發(fā)現(xiàn)請求的數(shù)據(jù)包

我們來分析一下這個(gè)數(shù)據(jù)包

URL：https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E6%B8%85%E7%BA%AF%E7%BE%8E%E5%A5%B3&autoload=true&count=20&cur_tab=3&from=gallery

通過url我們可以知道幾個(gè)重要的參數(shù)

offset 偏移量

count 數(shù)量

cur_tab 當(dāng)前分類

這里很多朋友可能對(duì)偏移量不太了解,這里我用sql語句表示一下,如果了解sql的朋友肯定就知道了

mysql> SELECT * FROM art LIMIT offset , count

mysql> SELECT * FROM table LIMIT 5,10; // 檢索記錄行 6-15

mysql> SELECT * FROM table LIMIT 95,1; // 檢索記錄行 96

這里我每次讀取一條,對(duì)一條進(jìn)行操作.

URL：https://www.toutiao.com/search_content/?offset=1&format=json&keyword=%E6%B8%85%E7%BA%AF%E7%BE%8E%E5%A5%B3&autoload=true&count=1&cur_tab=3&from=gallery

每次對(duì)offset 進(jìn)行自增即可了

我們點(diǎn)擊進(jìn)去看看數(shù)據(jù)的結(jié)構(gòu).

我們需要獲取到該圖集的鏈接。

進(jìn)入這篇圖集,在NetWork中并沒有發(fā)現(xiàn)圖集有關(guān)的請求接口,可能也是混排的.

我們可以查看頁面的源碼

原來真的是混排的寫法.看了一下這里用到vue.具體怎么實(shí)現(xiàn)的我們不去探討了,我們只需要取出數(shù)據(jù)即可。

那如何取出呢? 提供兩種方法,一種就是正則,一種就是自己寫一個(gè)取文本的函數(shù).這里我用第二種作為演示,下面是取文本的函數(shù).

def txt_wrap_by(start_str, end, html):

start = html.find(start_str)

if start >= 0:

start += len(start_str)

end = html.find(end, start)

if end >= 0:

return html[start:end].strip()

我們?nèi)〕?JSON.parse("") 中的數(shù)據(jù)

觀察數(shù)據(jù),可以發(fā)現(xiàn) 我們?nèi)〕?url 就可以了,這里的數(shù)據(jù)是json但是被轉(zhuǎn)義了,我們就通過正則取出吧

正則的語法如圖上,最后我也會(huì)放出所有代碼滴,大家放心.

然后保存為圖片即可~

上面說的都是思路,最后放出代碼~

import requests,os,json,re,datetime

# 主函數(shù)

def main():

foreach_art_list()

def foreach_art_list():

# 判斷目錄下是否存在jilv.txt文件如果存在則讀取里面的數(shù)值

if os.path.exists('./jilv.txt'):

f = open('./jilv.txt')

n = f.read()

n = int(n)

f.close()

else:

n = 1

while True:

url = 'http://www.toutiao.com/search_content/?offset=' + str(n) + '&format=json&keyword=%E6%B8%85%E7%BA%AF%E7%BE%8E%E5%A5%B3&autoload=true&count=1&cur_tab=3&from=gallery'

re = requests.get(url)

data = re.json()['data']

if not data:

break

# 運(yùn)行圖片下載函數(shù)

download_pic(data[0]['article_url'],n)

n = n+1

# 將n寫入文件防止程序運(yùn)行出錯(cuò) 可以繼續(xù)運(yùn)行

with open('./jilv.txt', 'w') as f:

f.write(str(n))

def download_pic(url,n):

download_pic_url = 'http://p3.pstatp.com/'

# 這里必須帶上協(xié)議頭,否則會(huì)請求失敗

header = {

'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'

}

res = requests.get(url,headers = header)

content = res.text

img_list_json = txt_wrap_by('gallery: JSON.parse("','"),',content)

# 正則獲取所有的uri

img_list = re.findall(r'uri\\":\\"(.*?)\\"',img_list_json)

#判斷是否有此目錄

if 'img' not in os.listdir('.'):

os.mkdir('./img')

if str(n) not in os.listdir('./img'):

os.mkdir('./img/'+str(n))

for v in img_list:

img_path = download_pic_url + v

img_path = img_path.replace("\\", "")

# 讀取圖片

atlas = requests.get(img_path).content

# 保存圖片

with open( './img/' + str(n) + '/' + str(datetime.datetime.now()) +'.jpg', 'wb') as f: # 把圖片寫入文件內(nèi)

f.write(atlas)

# 取出兩個(gè)文本之間的內(nèi)容

def txt_wrap_by(start_str, end, html):

start = html.find(start_str)

if start >= 0:

start += len(start_str)

end = html.find(end, start)

if end >= 0:

return html[start:end].strip()

# 運(yùn)行程序

main()

最后展示一下運(yùn)行結(jié)果：

這個(gè)程序還有許多不完善的地方,我會(huì)在之后教程加入 redis 和多線程的寫法,讓他成為最快的爬蟲~

敬請期待~ 今天就到這里了. 又是周末！祝大家周末愉快。嘿嘿~ 看我的美圖去了。

總結(jié)

以上是生活随笔為你收集整理的用python写一个简单的爬虫_用Python编写一个简单的爬虫的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： python遍历目录_Python遍历目
下一篇：判断用户是否存在再进行新增_MySQL用