pandas.read_html()读取网页表格类数据
生活随笔
收集整理的這篇文章主要介紹了
pandas.read_html()读取网页表格类数据
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目標網站
http://www.tianqihoubao.com/lishi/wanzhou/month/201101.html
表格類數據格式樣子
大致網絡結構
<table class="..." id="..." ...>...<tbody><tr><td>...</td></tr><tr>...</tr><tr>...</tr><tr>...</tr><tr>...</tr>...<tr>...</tr><tr>...</tr> </tbody> </table> <table></table> 表示整體表格<tr>...</tr>表示一行<td>...</td>表示某一格的數據代碼
從HTML文件讀取數據
如上所示,Pandas可以直接用DataFrame生成HTML表格,同樣可以讀取HTML文件。read_html()函數解析HTML頁面,尋找HTML表格。如果找到,就將其轉換為可以直接用于數據分析的DataFrame對象。
即使只有一個表格,read_html()函數也會返回一個DataFrame列表
import pandas as pddates=[201901,201902,201903,201904,201905,201906,201907,201908,201909,201910,201911,201912] print(dates)# 構造出日期序列 便于之后構造urlfor i in range(len(dates)):df = pd.read_html(f'http://www.tianqihoubao.com/lishi/wanzhou/month/{dates[i]}.html', encoding='gbk', header=0)[0]print(df)if i == 0:df.to_csv('2019年萬州天氣預報數據.csv', mode='a+', index=False) # mode='a+'追加寫入i += 1else:df.to_csv('2019年萬州天氣預報數據.csv', mode='a+', index=False, header=False) print('結束')換一個網站
http://data.eastmoney.com/hsgt/top10.html
一些復雜網站無法讀取。
能讀取就讀,不能讀就嘗試爬蟲吧
總結
以上是生活随笔為你收集整理的pandas.read_html()读取网页表格类数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 江西赣州寻乌县东江里有什么鱼?
- 下一篇: 爬虫笔记:爬虫的基本原理