猫眼api html,猫眼电影数据抓取
貓眼電影數據抓取實現分析
1、基準xpath: 匹配所有電影信息的節點對象列表
'//dl[@class="board-wrapper"]/dd'
2、遍歷對象列表,依次獲取每個電影信息
for dd in dd_list:
電影名稱:'.//p[@class="name"]/a/text()'
電影主演:'.//p[@class="star"]/text()'
上映時間:'.//p[@class="releasetime"]/text()'
參考代碼
import requests
from lxml import etree
class MaoyanSpider(object):
def __init__(self):
self.url = 'https://maoyan.com/board/4'
self.headers = { 'User-Agent':'' }
def save_html(self):
html = requests.get(url=self.url,headers=self.headers).text
# 解析
parse_html = etree.HTML(html)
# 基準xpath,大的節點對象列表
dd_list = parse_html.xpath('//dl[@class="board-wrapper"]/dd')
item = {}
for dd in dd_list:
item['name'] = dd.xpath('.//p[@class="name"]/a/@title')[0].strip()
item['star'] = dd.xpath('.//p[@class="star"]/text()')[0].strip()
item['time'] = dd.xpath('.//p[@class="releasetime"]/text()')[0].strip()
print(item)
def run(self):
self.save_html()
if __name__ == '__main__':
spider = MaoyanSpider()
spider.run()
The End
總結
以上是生活随笔為你收集整理的猫眼api html,猫眼电影数据抓取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PDF顽固水印去除(Foxit PDF
- 下一篇: 关于Java中TCP/IPMonitor