python断点续传下载_Python版本,图片,视频断点续传下载
圖片下載
tqdm
tqdm是一個快速、擴展性強的進度條工具庫,用戶只需要封裝任意的迭代器 tqdm(iterator),tqdm官方文檔。
對于爬蟲進度的監(jiān)控,這是個不錯的工具。
requests模塊實現(xiàn)下載
對于requests的網(wǎng)絡(luò)請求返回結(jié)果中,當(dāng)需要獲取文本的時候我們會使用response.text獲取文本信息,使用response.content獲取字節(jié)流,比如下載圖片保存到一個文件,而對于大個的文件我們就要采取分塊讀取的方式了。
第一步,我們需要設(shè)置requests.get的stream參數(shù)為True。
默認情況下是stream的值為false,它會立即開始下載文件并存放到內(nèi)存當(dāng)中,倘若文件過大就會導(dǎo)致內(nèi)存不足的情況.當(dāng)把get函數(shù)的stream參數(shù)設(shè)置成True時,它不會立即開始下載,當(dāng)你使用iter_content或iter_lines遍歷內(nèi)容或訪問內(nèi)容屬性時才開始下載。需要注意一點:文件沒有下載之前,它也需要保持連接。
斷點續(xù)傳
所謂斷點續(xù)傳,也就是要從文件已經(jīng)下載的地方開始繼續(xù)下載。在以前版本的 HTTP 協(xié)議是不支持斷點的,HTTP/1.1 開始就支持了。一般斷點下載時會用到 header請求頭的Range字段,這也是現(xiàn)在眾多號稱多線程下載工具(如 FlashGet、迅雷等)實現(xiàn)多線程下載的核心所在。
HTTP請求頭Range
range是請求資源的部分內(nèi)容(不包括響應(yīng)頭的大小),單位是byte,即字節(jié),從0開始.
如果服務(wù)器能夠正常響應(yīng)的話,服務(wù)器會返回 206 Partial Content 的狀態(tài)碼及說明.
如果不能處理這種Range的話,就會返回整個資源以及響應(yīng)狀態(tài)碼為 200 OK .(這個要注意,要分段下載時,要先判斷這個)。
Range請求頭格式
Range: bytes=start-end
Range頭域
Range頭域可以請求實體的一個或者多個子范圍。例如,
表示頭500個字節(jié):bytes=0-499
表示第二個500字節(jié):bytes=500-999
表示最后500個字節(jié):bytes=-500
表示500字節(jié)以后的范圍:bytes=500-
第一個和最后一個字節(jié):bytes=0-0,-1
同時指定幾個范圍:bytes=500-600,601-999
Range: bytes=10- :第10個字節(jié)及最后個字節(jié)的數(shù)據(jù)
Range: bytes=40-100 :第40個字節(jié)到第100個字節(jié)之間的數(shù)據(jù).
注意,這個表示[start,end],即是包含請求頭的start及end字節(jié)的,所以,下一個請求,應(yīng)該是上一個請求的[end+1, nextEnd]
程序?qū)崿F(xiàn)
這里的斷點續(xù)傳沒有做過度復(fù)雜的實現(xiàn),只是簡單的在當(dāng)前目錄下進行的。
# -*- coding: utf-8 -*-
import requests
from tqdm import tqdm
import os
import time
# 用法一
def tqdm_demo():
text = ""
for char in tqdm(["a", "b", "c", "d"]):
text = text + char
time.sleep(0.5)
# 用法二
def tqdm_demo2():
pbar = tqdm(["a", "b", "c", "d"])
for char in pbar:
time.sleep(0.5)
pbar.set_description("Processing %s" % char)
# 手動控制運行
# tqdm.update()方法用于手動更新進度條,對讀取文件之類的流操作非常有用。
def tqdm_demo3():
with tqdm(total=100) as pbar:
for i in range(10):
pbar.update(10)
time.sleep(0.5)
def download_from_url(url, dst):
'''
:param url: 下載地址
:param dst: 文件名稱
:return:
'''
#發(fā)起網(wǎng)絡(luò)請求
response = requests.get(url, stream=True)
#獲取返回的文件的大小
file_size = int(response.headers['content-length'])
#判斷當(dāng)前目錄中是否有該文件,如果有獲取文件的大小,從而實現(xiàn)斷點續(xù)傳
if os.path.exists(dst):
first_byte = os.path.getsize(dst)
else:
first_byte = 0
#如果文件大小已經(jīng)超過了服務(wù)器返回的文件的大小,返回文件長度
if first_byte >= file_size: #(4)
return file_size
#設(shè)置斷點續(xù)傳的位置
header = {"Range": f"bytes=%s-%s"%(first_byte,file_size)}
# desc :進度條的前綴
# unit 定義每個迭代的單元。默認為"it",即每個迭代,在下載或解壓時,設(shè)為"B",代表每個“塊”。
# unit_scale 默認為False,如果設(shè)置為1或者True,會自動根據(jù)國際單位制進行轉(zhuǎn)換 (kilo, mega, etc.) 。比如,在下載進度條的例子中,如果為False,數(shù)據(jù)大小是按照字節(jié)顯示,設(shè)為True之后轉(zhuǎn)換為Kb、Mb。
#total:總的迭代次數(shù),不設(shè)置則只顯示統(tǒng)計信息,沒有圖形化的進度條。設(shè)置為len(iterable),會顯示黑色方塊的圖形化進度條。
pbar = tqdm(total=file_size, initial=first_byte,unit='B', unit_scale=True, desc=dst)
#發(fā)送網(wǎng)絡(luò)請求
req = requests.get(url, headers=header, stream=True) #(5)
#這里的二進制需要采用追加的方式寫入文件,不然無法實現(xiàn)斷點續(xù)傳
with(open(dst, 'ab')) as f:
for chunk in req.iter_content(chunk_size=1024): #(6)
if chunk:
#用于方便觀察進度條,在下載大視頻的時候去掉也能觀察出來
time.sleep(0.01)
f.write(chunk)
f.flush()
pbar.update(1024)
pbar.close()
return file_size
if __name__ == '__main__':
url = "https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1551406646&di=a385cb186c0f1c2c45e5c49b4015e848&src=http://img18.3lian.com/d/file/201709/21/f498e01633b5b704ebfe0385f52bad20.jpg"
download_from_url(url, "百度美女圖片.jpg")
#以下是tqdm實例
tqdm_demo()
tqdm_demo2()
tqdm_demo3()
總結(jié)
以上是生活随笔為你收集整理的python断点续传下载_Python版本,图片,视频断点续传下载的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 平安银行信用卡提示虚构交易
- 下一篇: python抓包教程_Python爬虫入