python爬取酒店评论_scrapy爬取酒店评论数据
scrapy爬取酒店評論數據
采用scrapy爬取酒店評論數據。
總共有28W條記錄。
做某NLP任務,需要一些hotel reviews, 選擇從www.booking.com搞一點數據來。 根據主頁顯示總共有20個城市from diferrent countries,每個城市下有若干個酒店,每個酒店下若干條評論。
〇、數據源介紹
數據源:www.booking.com
具體:
所有的城市:
某個城市的酒店列表:
某個酒店的評論:
一、爬取數據項:
設定一條記錄有如下字段:目標酒店名target
分數score
總體評價overall_comment
正評論positive_comment
負評論negative_comment
入住日期date
城市名city_name
用CSV文件保存with seperator "\t".
二、目錄介紹:
-hotel_review_booking:hotel_data數據文件
-hotel_review_booking:scrapy理解的項目目錄
-hotel_review_booking:scrapy的真正項目目錄
-entrypoint
……
三、流程:四步:新建項目 (Project):新建一個新的爬蟲項目
明確目標(Items):明確你想要抓取的目標
制作爬蟲(Spider):制作爬蟲開始爬取網頁
存儲內容(Pipeline):設計管道存儲爬取內容
四、url分析:
略……
五、代碼提示:因為酒店列表不好直接顯示頁數,所以采取半人工手段標記頁數……
日期date: 使用正則匹配。
pattern = r'(\d{4})年(\d{1,2})月(\d{1,2})日' pattern_compiled = re.compile(pattern)其他也沒啥的,就是scrapy的使用上,純經驗主義。
總結
以上是生活随笔為你收集整理的python爬取酒店评论_scrapy爬取酒店评论数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mybatis学习(34):动态sql-
- 下一篇: 前端学习(178):表格元素