當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python下载网页中的pdf文件_【Python】Python的urllib模块、urllib2模块批量进行网页下载文件...

發(fā)布時(shí)間：2025/3/19 python 12 豆豆

生活随笔收集整理的這篇文章主要介紹了 python下载网页中的pdf文件_【Python】Python的urllib模块、urllib2模块批量进行网页下载文件... 小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

由于需要從某個(gè)網(wǎng)頁(yè)上下載一些PDF文件，但是需要下載的PDF文件有幾百個(gè)，所以不可能用人工點(diǎn)擊來(lái)下載。正好Python有相關(guān)的模塊，所以寫(xiě)了個(gè)程序來(lái)進(jìn)行PDF文件的下載，順便熟悉了Python的urllib模塊和ulrllib2模塊。

1、問(wèn)題描述

需要從http://www.cvpapers.com/cvpr2014.html上下載幾百個(gè)論文的PDF文件，該網(wǎng)頁(yè)如下圖所示：

2、問(wèn)題解決

通過(guò)結(jié)合Python的urllib模塊和urllib2模塊來(lái)實(shí)現(xiàn)自動(dòng)下載。代碼如下：

test.py

#!/usr/bin/python

# -*- coding:utf-8 -*-

import urllib #導(dǎo)入urllib模塊

import urllib2 #導(dǎo)入urllib2模塊

import re #導(dǎo)入正則表達(dá)式模塊：re模塊

def getPDFFromNet(inputURL):

req = urllib2.Request(inputURL)

f = urllib2.urlopen(req) #打開(kāi)網(wǎng)頁(yè)

localDir = 'E:\downloadPDF\\' #下載PDF文件需要存儲(chǔ)在本地的文件夾

urlList = [] #用來(lái)存儲(chǔ)提取的PDF下載的url的列表

for eachLine in f: #遍歷網(wǎng)頁(yè)的每一行

line = eachLine.strip() #去除行首位的空格，習(xí)慣性寫(xiě)法

if re.match('.*PDF.*', line): #去匹配含有“PDF”字符串的行，只有這些行才有PDF下載地址

wordList = line.split('\"') #以"為分界，將該行分開(kāi)，這樣就將url地址單獨(dú)分開(kāi)了

for word in wordList: #遍歷每個(gè)字符串

if re.match('.*\.pdf$', word): #去匹配含有“.pdf”的字符串，只有url中才有

urlList.append(word) #將提取的url存入列表

for everyURL in urlList: #遍歷列表的每一項(xiàng)，即每一個(gè)PDF的url

wordItems = everyURL.split('/') #將url以/為界進(jìn)行劃分，為了提取該P(yáng)DF文件名

for item in wordItems: #遍歷每個(gè)字符串

if re.match('.*\.pdf$', item): #查找PDF的文件名

PDFName = item #查找到PDF文件名

localPDF = localDir + PDFName #將本地存儲(chǔ)目錄和需要提取的PDF文件名進(jìn)行連接

try:

urllib.urlretrieve(everyURL, localPDF) #按照url進(jìn)行下載，并以其文件名存儲(chǔ)到本地目錄

except Exception,e:

continue

getPDFFromNet('http://www.cvpapers.com/cvpr2014.html')

注意：

（1）第1、6、8、23行分別多謝了一個(gè)“\”來(lái)進(jìn)行轉(zhuǎn)義；

（2）第27行的urlretrieve函數(shù)有3個(gè)參數(shù)：第一個(gè)參數(shù)就是目標(biāo)url；第二個(gè)參數(shù)是保存的文件絕對(duì)路徑(含文件名)，該函數(shù)的返回值是一個(gè)tuple(filename,header)，其中的filename就是第二個(gè)參數(shù)filename。如果urlretrieve僅提供1個(gè)參數(shù),返回值的filename就是產(chǎn)生的臨時(shí)文件名,函數(shù)執(zhí)行完畢后該臨時(shí)文件會(huì)被刪除參數(shù)。第3個(gè)參數(shù)是一個(gè)回調(diào)函數(shù)，當(dāng)連接上服務(wù)器、以及相應(yīng)的數(shù)據(jù)塊傳輸完畢的時(shí)候會(huì)觸發(fā)該回調(diào)。其中回調(diào)函數(shù)名稱(chēng)可任意，但是參數(shù)必須為三個(gè)。一般直接使用reporthook(block_read,block_size,total_size)定義回調(diào)函數(shù)，block_size是每次讀取的數(shù)據(jù)塊的大小，block_read是每次讀取的數(shù)據(jù)塊個(gè)數(shù)，taotal_size是一一共讀取的數(shù)據(jù)量，單位是byte。可以使用reporthook函數(shù)來(lái)顯示讀取進(jìn)度。

如果想顯示讀取進(jìn)度，則可以講第三個(gè)參數(shù)加上，將上述程序第27行改為如下：

urllib.urlretrieve(everyURL, localPDF, reporthook=reporthook)

而reporthook回調(diào)函數(shù)的代碼如下：

def reporthook(block_read,block_size,total_size):

if not block_read:

print "connection opened";

return

if total_size<0:

#unknown size

print "read %d blocks (%dbytes)" %(block_read,block_read*block_size);

else:

amount_read=block_read*block_size;

print 'Read %d blocks,or %d/%d' %(block_read,block_read*block_size,total_size);

綜上所述，這就是一個(gè)簡(jiǎn)單的從網(wǎng)頁(yè)抓取數(shù)據(jù)、下載文件的小程序，希望對(duì)正在學(xué)習(xí)Python的同學(xué)有幫助。謝謝！

本文標(biāo)題: 【Python】Python的urllib模塊、urllib2模塊批量進(jìn)行網(wǎng)頁(yè)下載文件

本文地址: http://www.cppcns.com/jiaoben/python/170594.html

總結(jié)

以上是生活随笔為你收集整理的python下载网页中的pdf文件_【Python】Python的urllib模块、urllib2模块批量进行网页下载文件...的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： php5.5 反序列化利用工具_%00截
下一篇： unicode字符编码表下载_详解字符编