请查收,一份让你年薪突破20W的Python爬虫笔记
本次主要學(xué)習(xí)內(nèi)容有requests\BeautifulSoup\scrapy\re,目前除了scrapy其他剛好看完。并搬運(yùn)實(shí)現(xiàn)了一些小項(xiàng)目如58同城租房信息爬取、淘寶搜索商品項(xiàng)目,現(xiàn)將從爬蟲基本方法、實(shí)戰(zhàn)和遇到的問題三個(gè)方面進(jìn)行總結(jié)。
1.基本方法
首先就是requests庫,是python最簡易實(shí)用的HTTP庫,是一個(gè)請求庫。主要方法如下,其中requests.request()方法最常用,用于構(gòu)造請求,是其他幾種方法的總和。其余方法如get()獲取HTML網(wǎng)頁,head()獲取網(wǎng)頁head標(biāo)簽,post()\pu()t用于提交對(duì)應(yīng)請求,patch()進(jìn)行局部修改,delete()提交刪除請求。
著重介紹request.get()方法,requests.get(url, params=None,**kwargs)
其中url為頁面鏈接,params為額外參數(shù),字典格式,**kwargs包含了12個(gè)控制訪問的參數(shù)。(params\data\json\headers\cookies\auth\files\timeout\proxies\allow_redirects\stream\verify\cert)
通常我們使用get()方法獲取頁面的內(nèi)容。
接著介紹請求得到的Response對(duì)象,見下表。
總結(jié)
以上是生活随笔為你收集整理的请查收,一份让你年薪突破20W的Python爬虫笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java设计模式之五(原型模式)
- 下一篇: 开关电源-1.选择熔断器,可以取最Irm