多彩缤纷数据源
典型的數據分析系統,要分析的數據種類其實是比較豐富的。依據來源可大體分為以下幾個部分:
?
圖:數據分析系統數據來源
1.?業務系統數據
業務系統產生的數據是不可忽視的,比如電商網站,大量的訂單數據看似雜亂無章,實則蘊含潛在的商業價值,可以從中分析進而進行商業推廣,產品推薦等。
另一角度來看,業務系統數據獲取成本低、方式容易,屬于公司內部范疇。業務系統的數據一般保存在關系型數據庫當中。獲取形式有:
接口調用:直接獲取業務系統數據庫的數據,但是要注意不能影響業務系統數據庫的性能,比如大量獲取數據增大數據庫讀數據壓力。
數據庫dump:非高峰時段,或者在數據庫從庫上dump出全部數據。一般企業中會定時進行數據庫的備份、導出工作,那么就可以共享使用這些數據。
比如MySQL數據庫,使用mysqldump工具就可以進行數據庫的導出。
mysqldump -uroot -pPassword [database name] [dump file]
mysqldump命令將數據庫中的數據備份成一個文本文件。表的結構和表中的數據將存儲在生成的文本文件中。
2.?爬蟲數據
在進行網站數據分析的時候,除了內部數據之外,還有一部分數據是我們不能夠忽視的。那就是所謂的外部數據。當然這是相對公司網站來說的。擁有了外部數據可以更好的幫助我們進行數據分析。
爬蟲(Web crawler),是指一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。它們被廣泛用于互聯網搜索引擎或其他類似網站,可以自動采集所有其能夠訪問到的頁面內容,以獲取或更新這些網站的內容和檢索方式。
電子商務行業最初的爬蟲需求來源于比價。這是某些電商網站的核心業務。大家如果買商品的時候,是一個價格敏感型用戶的話,很可能會使用比價功能。毫無懸念,會使用爬蟲技術來爬取所有相關電商的價格。
當然,這并不意味著大家喜歡被爬取。于是需要通過技術手段來做反爬蟲。
總結
- 上一篇: 路和回路
- 下一篇: 「笔耕不辍」悲观锁和乐观锁的区别以及实现