當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python京东商品_Python爬取京东的商品分类与链接

發(fā)布時間：2025/3/11 python 39 豆豆

生活随笔收集整理的這篇文章主要介紹了 python京东商品_Python爬取京东的商品分类与链接小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

本文主要的知識點(diǎn)是使用Python的BeautifulSoup進(jìn)行多層的遍歷。

如圖所示。只是一個簡單的哈，不是爬取里面的隱藏的東西。

示例代碼

from bs4 import BeautifulSoup as bs

import requests

headers = {

"host": "www.jd.com",

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",

"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"

}

session = requests.session()

def get_url():

renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):

print(i.get_text(),':',i.get('href'))

get_url()

運(yùn)行這段代碼以及達(dá)到了我們的目的。

我們來解讀一下這段代碼。

首先我們要訪問到京東的首頁。

然后通過BeautifulSoup對訪問到的首頁進(jìn)行解析。

這個時候，我們就要定位元素，來獲取我們需要的東西了。

在瀏覽器中通過F12，我們可以看到下圖所示的東西：

我們來看看下面這句代碼：

for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})

這一行代碼完全滿足我們的需求，首先用find方法，定位到了class=“dd-inner”的div，然后使用find_all對該標(biāo)簽下所有的a標(biāo)簽。

最后，我想打印出所有的商品分類以及對應(yīng)的鏈接，于是，我使用了i.get_text()和i.get('href')的方法終于獲取到了商品分類和對應(yīng)的鏈接。

總結(jié)

其實(shí)不是很難，主要是要用對方法。筆者因?yàn)槭浅鯇W(xué)方法沒有用對。花了差不多兩天時間才搞定。這里也是告訴大家，可以使用find().find_all()的方法進(jìn)行多層的遍歷。以上就是我利用Python爬取京東的商品分類與鏈接的一些經(jīng)驗(yàn)，希望對大家學(xué)習(xí)python能有所幫助。

總結(jié)

以上是生活随笔為你收集整理的python京东商品_Python爬取京东的商品分类与链接的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：吴恩达ex3_Wu-Enda机器学习编程
下一篇：搭建linux测试环境有什么用_谈谈现在