大数据学习路线图,大数据需要学什么
?
?
大數(shù)據(jù)開發(fā)學(xué)習(xí)路線:
第一階段:Hadoop生態(tài)架構(gòu)技術(shù)
1、語(yǔ)言基礎(chǔ)
Java:多理解和實(shí)踐在Java虛擬機(jī)的內(nèi)存管理、以及多線程、線程池、設(shè)計(jì)模式、并行化就可以,不需要深入掌握。
Linux:系統(tǒng)安裝、基本命令、網(wǎng)絡(luò)配置、Vim編輯器、進(jìn)程管理、Shell腳本、虛擬機(jī)的菜單熟悉等等。
Python:基礎(chǔ)語(yǔ)法,數(shù)據(jù)結(jié)構(gòu),函數(shù),條件判斷,循環(huán)等基礎(chǔ)知識(shí)。
2、環(huán)境準(zhǔn)備
這里介紹在windows電腦搭建完全分布式,1主2從。
VMware虛擬機(jī)、Linux系統(tǒng)(Centos6.5)、Hadoop安裝包,這里準(zhǔn)備好Hadoop完全分布式集群環(huán)境。
3、MapReduce
MapReduce分布式離線計(jì)算框架,是Hadoop核心編程模型。
4、HDFS1.0/2.0
HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn),適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。
5、Yarn(Hadoop2.0)
Yarn是一個(gè)資源調(diào)度平臺(tái),主要負(fù)責(zé)給任務(wù)分配資源。
6、Hive
Hive是一個(gè)數(shù)據(jù)倉(cāng)庫(kù),所有的數(shù)據(jù)都是存儲(chǔ)在HDFS上的。使用Hive主要是寫Hql。
7、Spark
Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。
8、SparkStreaming
Spark Streaming是實(shí)時(shí)處理框架,數(shù)據(jù)是一批一批的處理。
9、SparkHive
Spark作為Hive的計(jì)算引擎,將Hive的查詢作為Spark的任務(wù)提交到Spark集群上進(jìn)行計(jì)算,可以提高Hive查詢的性能。
10、Storm
Storm是一個(gè)實(shí)時(shí)計(jì)算框架,Storm是對(duì)實(shí)時(shí)新增的每一條數(shù)據(jù)進(jìn)行處理,是一條一條的處理,可以保證數(shù)據(jù)處理的時(shí)效性。
11、Zookeeper
Zookeeper是很多大數(shù)據(jù)框架的基礎(chǔ),是集群的管理者。
12、Hbase
Hbase是一個(gè)Nosql數(shù)據(jù)庫(kù),是高可靠、面向列的、可伸縮的、分布式的數(shù)據(jù)庫(kù)。
13、Kafka
kafka是一個(gè)消息中間件,作為一個(gè)中間緩沖層。
14、Flume
Flume常見的就是采集應(yīng)用產(chǎn)生的日志文件中的數(shù)據(jù),一般有兩個(gè)流程。
一個(gè)是Flume采集數(shù)據(jù)存儲(chǔ)到Kafka中,方便Storm或者SparkStreaming進(jìn)行實(shí)時(shí)處理。
另一個(gè)流程是Flume采集的數(shù)據(jù)存儲(chǔ)到HDFS上,為了后期使用hadoop或者spark進(jìn)行離線處理。
第二階段:數(shù)據(jù)挖掘算法
1、中文分詞
開源分詞庫(kù)的離線和在線應(yīng)用
2、自然語(yǔ)言處理
文本相關(guān)性算法
3、推薦算法
基于CB、CF,歸一法,Mahout應(yīng)用。
4、分類算法
NB、SVM
5、回歸算法
LR、DecisionTree
6、聚類算法
層次聚類、Kmeans
7、神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)
NN、Tensorflow
以上就是學(xué)習(xí)Hadoop開發(fā)的一個(gè)詳細(xì)路線
學(xué)習(xí)大數(shù)據(jù)開發(fā)需要掌握哪些技術(shù)呢?
(1)Java語(yǔ)言基礎(chǔ)
Java開發(fā)介紹、熟悉Eclipse開發(fā)工具、Java語(yǔ)言基礎(chǔ)、Java流程控制、Java字符串、Java數(shù)組與類和對(duì)象、數(shù)字處理類與核心技術(shù)、I/O與反射、多線程、Swing程序與集合類
(2)HTML、CSS與Java
PC端網(wǎng)站布局、HTML5+CSS3基礎(chǔ)、WebApp頁(yè)面布局、原生Java交互功能開發(fā)、Ajax異步交互、jQuery應(yīng)用
(3)JavaWeb和數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)、JavaWeb開發(fā)核心、JavaWeb開發(fā)內(nèi)幕
Linux&Hadoop生態(tài)體系
Linux體系、Hadoop離線計(jì)算大綱、分布式數(shù)據(jù)庫(kù)Hbase、數(shù)據(jù)倉(cāng)庫(kù)Hive、數(shù)據(jù)遷移工具Sqoop、Flume分布式日志框架分布式計(jì)算框架和Spark&Strom生態(tài)體系(1)分布式計(jì)算框架
Python編程語(yǔ)言、Scala編程語(yǔ)言、Spark大數(shù)據(jù)處理、Spark—Streaming大數(shù)據(jù)處理、Spark—Mlib機(jī)器學(xué)習(xí)、Spark—GraphX 圖計(jì)算、實(shí)戰(zhàn)一:基于Spark的推薦系統(tǒng)(某一線公司真實(shí)項(xiàng)目)、實(shí)戰(zhàn)二:新浪網(wǎng)(www.sina.com.cn)如果你對(duì)大數(shù)據(jù)開發(fā)感興趣,想系統(tǒng)學(xué)習(xí)大數(shù)據(jù)的話,可以加入大數(shù)據(jù)技術(shù)學(xué)習(xí)交流扣扣君羊:522189307,歡迎添加,了解課程介紹
(2)storm技術(shù)架構(gòu)體系
Storm原理與基礎(chǔ)、消息隊(duì)列kafka、Redis工具、zookeeper詳解、大數(shù)據(jù)項(xiàng)目實(shí)戰(zhàn)數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)、數(shù)據(jù)應(yīng)用
大數(shù)據(jù)分析—AI(人工智能)Data
Analyze工作環(huán)境準(zhǔn)備&數(shù)據(jù)分析基礎(chǔ)、數(shù)據(jù)可視化、Python機(jī)器學(xué)習(xí)
Python機(jī)器學(xué)習(xí)2、圖像識(shí)別&神經(jīng)網(wǎng)絡(luò)、自然語(yǔ)言處理&社交網(wǎng)絡(luò)處理、實(shí)戰(zhàn)項(xiàng)目:戶外設(shè)備識(shí)別分析
總結(jié)
以上是生活随笔為你收集整理的大数据学习路线图,大数据需要学什么的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 基于51单片机GPS定位系统经纬度GSM
- 下一篇: java中display1_关于disp