Python 爬虫 大量数据清洗 ---- sql语句优化
生活随笔
收集整理的這篇文章主要介紹了
Python 爬虫 大量数据清洗 ---- sql语句优化
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1. 問題描述在做爬蟲的時候,數據量很大,大約有五百百萬條數據,假設有個字段是conmany_name(拍賣公司名稱),我們現在需要從五百萬條數據里面查找出來五十家拍賣公司,
并且要求字段 time(時間) 大于7月一號,小于10月31號。 2. 問題解決我們首先想到的解決辦法是添加索引,對拍賣公司字段添加索引,但是因為日期是大于7月1號,小于10月31號,在這里用索引的效率很低,
并且要重復的查詢出來五十家公司,效率很低,有沒有好的解決方案呢??? 3.解決問題思路1.查詢五百條數據,我們會發現內存不夠用,這時候我們只查詢一百萬條數據,分五次處理完畢。2.因為這一百萬條數據在內存中,把這一百萬條數據放到list中去,同時把五十家拍賣公司組合成字符串,然后for循環每一條數據,
比較拍賣公司是否在字符串中,比較日期是否大于7月一號,小于10月31號。這樣去處理,避免數據查詢的速度慢。提高數據處理效率。4.感想: 好的解決問題的思路勝過好的解決問題的人
并且要求字段 time(時間) 大于7月一號,小于10月31號。 2. 問題解決我們首先想到的解決辦法是添加索引,對拍賣公司字段添加索引,但是因為日期是大于7月1號,小于10月31號,在這里用索引的效率很低,
并且要重復的查詢出來五十家公司,效率很低,有沒有好的解決方案呢??? 3.解決問題思路1.查詢五百條數據,我們會發現內存不夠用,這時候我們只查詢一百萬條數據,分五次處理完畢。2.因為這一百萬條數據在內存中,把這一百萬條數據放到list中去,同時把五十家拍賣公司組合成字符串,然后for循環每一條數據,
比較拍賣公司是否在字符串中,比較日期是否大于7月一號,小于10月31號。這樣去處理,避免數據查詢的速度慢。提高數據處理效率。4.感想: 好的解決問題的思路勝過好的解決問題的人
?
?
總結
以上是生活随笔為你收集整理的Python 爬虫 大量数据清洗 ---- sql语句优化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 27.13. flock - manag
- 下一篇: ubuntu14.04部署Ganglia