Python:图片懒加载技术
生活随笔
收集整理的這篇文章主要介紹了
Python:图片懒加载技术
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
一. 案例分析:抓取站長素材http://sc.chinaz.com/中的圖片數(shù)據(jù)
#!/usr/bin/env python # -*- coding:utf-8 -*- import requests from lxml import etreeif __name__ == "__main__":url = 'http://sc.chinaz.com/tupian/gudianmeinvtupian.html'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',}#獲取頁面文本數(shù)據(jù)response = requests.get(url=url,headers=headers)response.encoding = 'utf-8'page_text = response.text#解析頁面數(shù)據(jù)(獲取頁面中的圖片鏈接)#創(chuàng)建etree對象tree = etree.HTML(page_text)div_list = tree.xpath('//div[@id="container"]/div')#解析獲取圖片地址和圖片的名稱for div in div_list:image_url = div.xpath('.//img/@src')image_name = div.xpath('.//img/@alt')print(image_url) #打印圖片鏈接print(image_name)#打印圖片名稱-
運行結果觀察發(fā)現(xiàn),我們可以獲取圖片的名稱,但是鏈接獲取的為空,檢查后發(fā)現(xiàn)xpath表達式也沒有問題,究其原因出在了哪里呢?
-
圖片懶加載概念:
- 圖片懶加載是一種網(wǎng)頁優(yōu)化技術。圖片作為一種網(wǎng)絡資源,在被請求時也與普通靜態(tài)資源一樣,將占用網(wǎng)絡資源,而一次性將整個頁面的所有圖片加載完,將大大增加頁面的首屏加載時間。為了解決這種問題,通過前后端配合,使圖片僅在瀏覽器當前視窗內(nèi)出現(xiàn)時才加載該圖片,達到減少首屏圖片請求數(shù)的技術就被稱為“圖片懶加載”。
- 網(wǎng)站一般如何實現(xiàn)圖片懶加載技術呢?
- 在網(wǎng)頁源碼中,在img標簽中首先會使用一個“偽屬性”(通常使用src2,original…)去存放真正的圖片鏈接而并非是直接存放在src屬性中。當圖片出現(xiàn)到頁面的可視化區(qū)域中,會動態(tài)將偽屬性替換成src屬性,完成圖片的加載。
-
站長素材案例后續(xù)分析:通過細致觀察頁面的結構后發(fā)現(xiàn),網(wǎng)頁中圖片的鏈接是存儲在了src2這個偽屬性中
二. 利用selenuim 模擬瀏覽器滑動到底部, 加載數(shù)據(jù).
class ProductSpider(scrapy.Spider):
name = “Product1688”
start_urls = []
總結
以上是生活随笔為你收集整理的Python:图片懒加载技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 加你用移动端数据爬取
- 下一篇: 基于requests模块的cookie,