Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题
生活随笔
收集整理的這篇文章主要介紹了
Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
準備工作:
IDE:pycharm 2018.3.5
Anaconda3-2018.12 + Python 3.7.1
1、導入相關的庫
file -> settings -> project ->project interpreter,點擊右上角 + 號,輸入需要的模塊 bs4 & requests選中后,點擊左下角的install package
2、查看需要爬取的網頁的HTML頁面信息
以我爬取的網頁為例講解:?? ??
定位到網頁文章標題的塊class,若class里面有好幾個樣式,可選擇只有標題有的樣式,我選擇第二個col-md-7作為爬取定位。
查看標題的字號格式,這里是 h4。再就是記住需要爬取的頁面網址,以上基本信息查看完畢。
3、開始設計代碼
import requests # 導入requests庫,用來獲取網頁from bs4 import BeautifulSoup # 引入bs4模塊,bs4庫 是解析、遍歷、維護、“標簽樹“的功能庫,bs4庫把html源代碼重新進行了格式化res = requests.get('https://www.imefuture.com/news/') # 輸入你要獲取頁面的網址 res.encoding = 'utf-8' # HTML文檔的編碼 soup = BeautifulSoup(res.text,'html.parser') # HTML解析器for news in soup.select('.col-md-7'): # 定位class標簽if(len(news.select('h4'))>0): # 定位標題字體標簽print(news.select('h4')[0].text) # 以文本格式輸出到控制臺4、輸出結果
?? 與網站版塊首頁的相對比,已經把首頁標題給爬取下來。
?
?
?
總結
以上是生活随笔為你收集整理的Python爬虫入门记录1.0:获取网站某板块首页面资讯文章标题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 世界上第一个科学家是谁
- 下一篇: 2021年美容师(高级)考试及美容师(高