爬虫推荐的工具
爬蟲推薦的工具:
pyspider,
BeautifulSoup
requests
scrapy
mongodb
redis
kafka.
re
pyV8:python執行js的插件
phatomjs:一個無界面的,可腳本編程的WebKit瀏覽器引擎。它原生支持多種web 標準:DOM 操作,CSS選擇器,JSON,Canvas 以及SVG
selenium:是一個用于Web應用程序測試的工具。Selenium測試直接運行在瀏覽器中,就像真正的用戶在操作一樣。
一開始推薦學習框架,比如scrapy或者Pyspider
數據分析:
pandas
scikit-learn
spark.
ntlk
jieba
pandas主要是處理金融數據得力,scikit-learn用來進行機器學習,spark是分布式計算。nltk進行予以分析。jieba用來做中文分詞。
轉載于:https://www.cnblogs.com/davidwang456/p/7494890.html
總結
- 上一篇: java实现sql批量插入参数
- 下一篇: Re:从0开始的微服务架构--(二)快速