大数据项目实战
帶大家走一下大數據項目的整個實戰流程,讓讀者了解大數據項目是如何運行的。對大數據有一個總體的概念。
一、搭建大數據集群環境
1.搭建大數據實驗環境
(1)Linux系統虛擬機的安裝與克隆
(2)配置虛擬機網絡與SSH服務
(3)搭建Hadoop集群
(4)安裝MySql數據庫
(5)安裝 Hive
(6) 安裝 Sqoop
(7) 其他組件的安裝
以上內容不再詳細講解,參考相關內容。
二、數據爬取
1.數據爬取技術
數據爬取可以采用Java爬取,也可以采用python進行爬取。python在數據爬取方面代碼簡單,盡量采用python進行數據爬取。
2.爬取的數據上傳到HDFS
在windows上采集的數據,上傳到hdfs方式很多。采集網頁的數據上傳到hdfs主要有以下兩種:
(1) 通過java 或者python操作hdfs上傳。
python操作hdfs模塊上傳文件到HDFS
https://blog.csdn.net/Smallcaff/article/details/79488350
(2)將采集的數據先上傳到linux服務器,再上傳到hdfs
參考:https://blog.csdn.net/qq_43584847/article/details/98874497
三、數據預處理
可以通過mapreduce對數據進行處理。
在windows上編寫mr 程序,把寫好的mr程序打包成jar包上傳到hdfs,在hdfs上運行打好的jar程序。
對上傳到hdfs的采集的數據進行預處理。
四、數據分析
使用hive對數據進行分析。
五、數據可視化
使用sqoop把hive里面的分析好的數據導入到mysql數據庫。
編寫web程序讀取mysql數據,把讀取到的數據通過echarts工具進行圖像化顯示。
編寫web程序可以使用javaweb,也可以使用python,或者python 中的flask框架。
只是列出了大致的流程。
總結
- 上一篇: 大龄屌丝自学笔记--Java零基础到菜鸟
- 下一篇: Chapter 14 Exercises