當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

如何自学大数据开发？

發布時間：2023/12/20 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了如何自学大数据开发？小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

大數據技術怎么自學?大數據開發如何自學?

我們在學習大數據開發前需要先找到適合自己的方式方法，首先需要審視一下自身的情況，是否是以興趣為出發點，對大數據是不是自己是真的感興趣嗎，目前對大數據的了解有多少，自己的學習能力和理解能力是否適合學習。如果是跨行業轉崗是否做好了心理準備。根據不同基礎水平可以分為三類：

第一類：零基礎學員，對大數據行業和技術一無所知;

第二類：有一定的編程基礎，對大數據行業略知一二，無發真正應該用;

第三類：有工作經驗的工程師，對大數據行業了解，想轉行大數據開發。

在這里還是要推薦下我自己建的大數據學習交流群:199427210，群里都是學大數據開發的，如果你正在學習大數據，小編歡迎你加入,大家都是軟件開發黨，不定期分享干貨（只有大數據軟件開發相關的），包括我自己整理的一份最新的大數據進階資料和高級開發教程，歡迎進階中和進想深入大數據的小伙伴加入。
?

在搞清楚了自身的狀況之外，我們要針對不同階段、不同基礎的同學制定不同的學習方案。

對于零基礎想要自學大數據，不是說不可能，但是很多以失敗告終，客觀原因：學習環境不好;主觀原因：基礎不好，看不懂，學不會，枯燥無味直接放棄。

對于零基礎想要學習的大數據的同學，最好的方案是：先關注一些大數據領域的動態，讓自己融入大數據這樣一個大的環境中。然后找一些編程語言的資料(大數據的基礎必備技能)和大數據入門的視頻和書籍，基本的技術知識還是要了解的。

在學習了一段時間之后，如果覺得自己還能應付的來，就繼續尋找大數據基礎視頻和書籍，一步一個腳印的來;如果覺得覺得自己入門都很難，要么放棄，要么舍得為自己投資一把，去選擇一家靠譜的培訓機構。

數據科學特點與大數據學習誤區解析

1、大數據學習要業務驅動，不要技術驅動：數據科學的核心能力是解決問題。

大數據的核心目標是數據驅動的智能化，要解決具體的問題，不管是科學研究問題，還是商業決策問題，抑或是政府管理問題。

所以學習之前要明確問題，理解問題，所謂問題導向、目標導向，這個明確之后再研究和選擇合適的技術加以應用，這樣才有針對性，言必hadoop,spark的大數據分析是不嚴謹的。

不同的業務領域需要不同方向理論、技術和工具的支持。如文本、網頁要自然語言建模，隨時間變化數據流需要序列建模，圖像音頻和視頻多是時空混合建模;

大數據處理如采集需要爬蟲、倒入導出和預處理等支持，存儲需要分布式云存儲、云計算資源管理等支持，計算需要分類、預測、描述等模型支持，應用需要可視化、知識庫、決策評價等支持。

所以是業務決定技術，而不是根據技術來考慮業務，這是大數據學習要避免的第一個誤區。

2、大數據學習要善用開源，不要重復造輪子：數據科學的技術基因在于開源。

IT前沿領域的開源化已成不可逆轉的趨勢，Android開源讓智能手機平民化，讓我們跨入了移動互聯網時代，智能硬件開源將帶領跨入物聯網時代，以Hadoop和Spark為代表的大數據開源生態加速了去IOE(IBM、ORACLE、EMC)進程，倒逼傳統IT巨頭擁抱開源，谷歌和OpenAI聯盟的深度學習開源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智能技術的發展。

數據科學的標配語言R和Python更是因開源而生，因開源而繁榮，諾基亞因沒把握開源大勢而衰落。

為什么要開源，這得益于IT發展的工業化和構件化，各大領域的基礎技術棧和工具庫已經很成熟，下一階段就是怎么快速組合、快速搭積木、快速產出的問題，不管是linux,anroid還是tensorflow，其基礎構件庫基本就是利用已有開源庫，結合新的技術方法實現，組合構建而成，很少在重復造輪子。

另外，開源這種眾包開發模式，是一種集體智慧編程的體現，一個公司無法積聚全球工程師的開發智力，而一個GitHub上的明星開源項目可以，所以要善用開源和集體智慧編程，而不要重復造輪子，這是大數據學習要避免的第二個誤區。

3、大數據學習要以點帶面，不貪大求全：數據科學要把握好碎片化與系統性。根據前文的大數據技術體系分析，我們可以看到大數據技術的深度和廣度都是傳統信息技術難以比擬的。

大數據只有和特定領域的應用結合起來才能產生價值，數據科學還是數據工程是大數據學習要明確的關鍵問題。

大數據學習一定要清楚我是在做數據科學還是數據工程，各需要哪些方面的技術能力，現在處于哪一個階段等，不然為了技術而技術，是難以學好和用好大數據的。

大數據學習路線：

第一階段linux+搜索+hadoop體系

Linux基礎→shell編程→高并發架構→lucene,solr搜索→hadoop體系→HDFS→mapreduce→hbase→zookeeper→hive→flume→sqoop→項目實戰一

第二階段機器學習

R語言→mahout→項目實戰二

第三階段storm流式計算

kafka→storm→redis→項目實戰三

第四階段spark內存計算

scala編程→spark core→spark sql→spark streaming→spark mllib→spark graphx→項目實戰四→python機器學習→spark python編程→項目實戰五→項目實戰六

第五階段云計算平臺

docker→kvm→openstack云計算→就業指導

第一階段：linux+搜索+hadoop體系Linux大綱這章是基礎課程，幫大家進入大數據領域打好Linux基礎，以便更好地學習Hadoop，hbase,NoSQL，Spark，Storm，docker,kvm,openstack等眾多課程。因為企業中無一例外的是使用Linux來搭建或部署項目。1) Linux的介紹，Linux的安裝：VMware Workstation虛擬軟件安裝過程、CentOS虛擬機安裝過程

2) 了解機架服務器，采用真實機架服務器部署linux

3) Linux的常用命令：常用命令的介紹、常用命令的使用和練習

4) Linux系統進程管理基本原理及相關管理工具如ps、pkill、top、htop等的使用；

5) Linux啟動流程，運行級別詳解，chkconfig詳解

6) VI、VIM編輯器：VI、VIM編輯器的介紹、VI、VIM扥使用和常用快捷鍵

7) Linux用戶和組賬戶管理：用戶的管理、組管理

8) Linux磁盤管理，lvm邏輯卷，nfs詳解

9) Linux系統文件權限管理：文件權限介紹、文件權限的操作

10) Linux的RPM軟件包管理：RPM包的介紹、RPM安裝、卸載等操作

11) yum命令，yum源搭建

12) Linux網絡：Linux網絡的介紹、Linux網絡的配置和維護

13) Shell編程：Shell的介紹、Shell腳本的編寫

14) Linux上常見軟件的安裝：安裝JDK、安裝Tomcat、安裝mysql,web項目部署大型網站

高并發處理通過本章的學習大家將會了解大數據的源頭，數據從何而來，繼而更好的了解大數據。并且通過學習何果處理大型網站高并發問題反向更深入的學習了Linux，同時站在了更高的角度去觸探了架構。1) 第四層負載均衡

a) Lvs負載均衡

i. 負載算法，NAT模式，直接路由模式（DR），隧道模式（TUN）

b) F5負載均衡器介紹

2) 第七層負載均衡

a) Nginx b) Apache

3) Tomcat、jvm優化提高并發量

4) 緩存優化

a) Java緩存框架

i. Oscache，ehcache

b) 緩存數據庫

i. Redis，Memcached

5) Lvs+nginx+tomcat+redis|memcache構建二層負載均衡千萬并發處理

6) Haproxy

7) Fastdfs小文件獨立存儲管理

8) Redis緩存系統

a) Redis基本使用 b) Redis sentinel高可用 c) Redis好友推薦算法Lucene課程在大數據里面文本數據的搜索是很重要的一塊，特別是里面的分詞技術，是后面機器學習里面文本挖掘的基石，我們需要深入學習java領域里面的搜索核心技術lucene，同時也可以了解到百度 google這樣的搜索系統是怎么架構實現的。1) Lucene介紹

2) Lucene 倒排索引原理

3) 建索引 IndexWriter

4) 搜索 IndexSearcher

5) Query

6) Sort和過濾（filter）

7) 索引優化和高亮Solr課程接著前面lucene技術搜索，如果把lucene技術比如為發動機，那solr就是一兩成型的汽車了。學習完solr可以幫助你在企業里面快速的架構搜索系統。首先Solr是基于Lucene做的，Lucene是一套信息檢索工具包，但并不包含搜索引擎系統，它包含了索引結構、讀寫索引工具、相關性工具、排序等功能，因此在使用Lucene時你仍需要關注搜索引擎系統，例如數據獲取、解析、分詞等方面的東西。而Solr的目標是打造一款企業級的搜索引擎系統，因此它更接近于我們認識到的搜索引擎系統，它是一個搜索引擎服務，通過各種API可以讓你的應用使用搜索服務，而不需要將搜索邏輯耦合在應用中。而且Solr可以根據配置文件定義數據解析的方式，更像是一個搜索框架，它也支持主從、熱換庫等操作。還添加了飄紅、facet等搜索引擎常見功能的支持。1) 什么是solr

2) 為什么工程中要使用solr

3) Solr的原理

4) 如何在tomcat中運行solr

5) 如何利用solr進行索引與搜索

6) solr的各種查詢

7) solr的Filter

8) solr的排序

9) solr的高亮

10) solr的某個域統計

11) solr的范圍統計

12) solrcloud集群搭建

Hadoop

離線計算大綱一、初識hadoop?聽過大數據，必聽過hadoop，此部分帶領大家了解hadoop的用途，在大數據中的用途，以及快速搭建一個hadoop的實驗環境，在本過程中不僅將用到前面的Linux知識，而且會對hadoop的架構有深入的理解，并為你以后架構大數據項目打下堅實基礎。1) Hadoop生態環境介紹

2) Hadoop云計算中的位置和關系

3) 國內外Hadoop應用案例介紹

4) Hadoop 概念、版本、歷史

5) Hadoop 核心組成介紹及hdfs、mapreduce 體系結構

6) Hadoop 的集群結構

7) Hadoop 偽分布的詳細安裝步驟

8) 通過命令行和瀏覽器觀察hadoop

二、 HDFS體系結構和shell以及java操作詳細剖析HDFS，從知曉原理到開發網盤的項目讓大家打好學習大數據的基礎，大數據之于分布式，分布式學習從學習分布式文件系統（HDFS）開始。1) HDFS底層工作原理

2) HDFS datanode,namenode詳解

3) Hdfs shell

4) Hdfs java api

三、詳細講解MapreduceMapreduce可以說是任何一家大數據公司都會用到的計算框架，也是每個大數據工程師應該熟練掌握的，此處的學習除了老師詳細的講解理論外，會通過大量的案例讓大家徹底掌握。1) Mapreduce四個階段介紹

2) Writable

3) InputSplit和OutputSplit

4) Maptask

5) Shuffle：Sort，Partitioner，Group,Combiner

6) Reducer

四、 Mapreduce案例案例1) 二次排序

2) 倒排序索引

3) 最優路徑

4) 電信數據挖掘之-----移動軌跡預測分析（中國棱鏡計劃）

5) 社交好友推薦算法

6) 互聯網精準廣告推送算法

7) 阿里巴巴天池大數據競賽《天貓推薦算法》案例

8) Mapreduce實戰pagerank算法

五、 Hadoop2.x集群搭建前面帶領大家開發了大量的MapReduce程序，此部分將帶來大家讓開發的程序運行在分布式集群中，并且運行在健壯高可用的集群中。1) Hadoop2.x集群結構體系介紹

2) Hadoop2.x集群搭建

3) NameNode的高可用性（HA）

4) HDFS Federation

5) ResourceManager 的高可用性（HA）

6) Hadoop集群常見問題和解決方法

7) Hadoop集群管理分布式數據庫

Hbase大數據中使用Hbase的案例多的舉不勝舉，也可凸顯大家學習的必要性。即使工作多年的大數據工程師Hbase的優化也是需要好好學習的重點。1) HBase定義

2) HBase與RDBMS的對比

3) 數據模型

4) 系統架構

5) HBase上的MapReduce

6) 表的設計

7) 集群的搭建過程講解

8) 集群的監控

9) 集群的管理

10) HBase Shell以及演示

11) Hbase 樹形表設計

12) Hbase 一對多和多對多表設計

13) Hbase 微博案例

14) Hbase 訂單案例

15) Hbase表級優化

16) Hbase 寫數據優化

17) Hbase 讀數據優化

數據倉庫HiveHive是使用sql進行計算的hadoop框架，工作中最常用到的部分，也是面試的重點，此部分大家將從方方面面來學習Hive的應用，任何細節都將給大家涉及到。1) 數據倉庫基礎知識

2) Hive定義

3) Hive體系結構簡介

4) Hive集群

5) 客戶端簡介

6) HiveQL定義

7) HiveQL與SQL的比較

8) 數據類型

9) 外部表和分區表

10) ddl與CLI客戶端演示

11) dml與CLI客戶端演示

12) select與CLI客戶端演示

13) Operators 和 functions與CLI客戶端演示

14) Hive server2 與jdbc

15) 用戶自定義函數（UDF 和 UDAF）的開發與演示

16) Hive 優化

數據遷移工具Sqoopsqoop適用于關系型數據庫和HDFS分布式數據系統之間進行數據轉換，在企業中，是構建數據倉庫的一大工具。1) 介紹和配置Sqoop

2) Sqoop shell使用

3) Sqoop-import

a) DBMS-hdfs b) DBMS-hive c) DBMS-hbase

4) Sqoop-exportFlume分布式

日志框架Flume最早是Cloudera提供的日志收集系統，目前是Apache下的一個孵化項目，Flume支持在日志系統中定制各類數據發送方，用于收集數據。大家學習完此節后不但可以掌握Flume的使用，而且可以進行對于Flume的開發。1) flume簡介-基礎知識

2) flume安裝與測試

3) flume部署方式

4) flume source相關配置及測試

5) flume sink相關配置及測試

6) flume selector 相關配置與案例分析

7) flume Sink Processors相關配置和案例分析

8) flume Interceptors相關配置和案例分析

9) flume AVRO Client開發

10) flume 和kafka 的整合

Zookeeper

開發Zookeeper在分布式集群（Hadoop生態圈）中的地位越來越突出，對分布式應用的開發也提供了極大便利，這也是這里我們帶領大家深入學習 Zookeeper的原因。本課程主要內容包括Zookeeper深入、客戶端開發（Java編程，案例開發）、日常運維、Web界面監控。大家這里學好Zookeeper，對后面學習其他技術至關重要。1) Zookeeper java api開發

2) Zookeeper rmi高可用分布式集群開發

3) Zookeeper redis高可用監控實現

4) Netty 異步io通信框架

5) Zookeeper實現netty分布式架構的高可用項目實戰某大型電商日志分析和訂單管理在實戰中學習，技術點非常多，怎么樣實際運用這些點是我們在自學過程中體驗不到的。電商日志分析包括：pv、uv，跳出率，二跳率、廣告轉化率、搜索引擎優化等，訂單模塊有：產品推薦，商家排名，歷史訂單查詢，訂單報表統計等。項目技術架構體系：

a) Web項目和云計算項目的整合

b) Flume通過avro實時收集web項目中的日志

c) 數據的ETL

d) Hive 批量 sql執行

e) Hive 自定義函數

f) Hive和hbase整合。

g) Hbase 數據支持 sql查詢分析

h) Mapreduce數據挖掘

i) Hbase dao處理

j) Sqoop 在項目中的使用。

k) Mapreduce 定時調用和監控

第二階段：機器學習R語言

機器學習R本身是一款十分優秀的數據分析和數據可視化軟件，同時作為第一代機器學習的工具，其中包括大量用于機器學習的添加包。此部分帶領大家學習R語言更是帶領大家進入機器學習的領域，機器學習算法為主線的同時，通過案例學習將會讓大家對內容脈絡掌握的更加清晰。1) R語言介紹，基本函數，數據類型

2) 線性回歸

3) 樸素貝葉斯聚類

4) 決策樹分類

5) k均值聚類 a) 離群點檢測

6) 關聯規則探索

7) 神經網絡Mahout

機器學習Mahout提供一些可擴展的機器學習領域經典算法的實現，很多公司會使用Mahout方便快捷地創建智能應用程序。Mahout包含許多實現，包括聚類、分類、推薦過濾、頻繁子項挖掘。Mahout通過使用 Apache Hadoop，可以有效地擴展到云中。被業界奉為第二代機器學習工具。此部分過后大家不僅會學習到mahout的組件而且會有項目讓大家真正把它應用到工作中。1) 介紹為什么使用它,它的前景

a) 簡單介紹Mahout b) 簡單介紹機器學習 c) 實例演示Mahout單機推薦程序

2) 配置安裝（hadoop2.x版本的）編譯安裝步驟說明

a) 命令行中測試運行協同過濾概念

3) 推薦

a) 講解基于用戶的協同過濾 b) 講解基于物品的協同過濾

4) 分類

a) 分類概念 b) 分類的應用及Mahout分類優勢 c) 分類和聚類、推薦的區別 d) 分類工作原理

e) 分類中概念術語 f) 分類項目工作流 g) 如何定義預測變量 h) 線性分類器的介紹，及貝葉斯分類器

i) 決策樹分類器的介紹，及隨機森林分類器 j) 如何使用貝葉斯分類器和隨機森林分類器的代碼展示

5) 聚類

a) 聚類概念 b) 聚類步驟流程 c) 聚類中的距離測度 d) 講解K-means聚類 e) K-means聚類算法展示

f) 聚類其他算法 g) 介紹TF-IDF h) 歸一化 i) 微博聚類案例項目實戰微博營銷數據挖掘項目使用數據來自微博平臺，項目目標通過機器學習所學知識挖掘目標客戶群體，找到代言人進行微博營銷廣告投放。項目技術架構體系：

a) 分布式平臺 Hadoop，MapReduce

b) 數據采集 Flume

c) 數據清洗 ETL

d) 數據庫 Hbase，Redis

e) 機器學習 Mahout

第三階段：storm流式計算redis緩存

系統課程大綱1) redis特點、與其他數據庫的比較

2) 如何安裝redis

3) 如何使用命令行客戶端

4) redis的字符串類型

5) redis的散列類型

6) redis的列表類型

7) redis的集合類型

8) 如何使用java訪問redis【a.python訪問redis,scala訪問redis】

9) redis的事務(transaction)

10) redis的管道(pipeline)

11) redis持久化(AOF+RDB)

12) redis優化

13) redis的主從復制

14) redis的sentinel高可用

15) twemproxy,codis實戰

16) redis3.x集群安裝配置

Kafka課程Kafka是當下流行的隊列，可以說是從數據采集到大數據計算承上啟下的重要環節，大家在此部分將會詳細學習它的架構，kafka在大家大數據的項目中幾乎都會涉及到。1) kafka是什么

2) kafka體系結構

3) kafka配置詳解

4) kafka的安裝

5) kafka的存儲策略

6) kafka分區特點

7) kafka的發布與訂閱

8) zookeeper協調管理

9) java編程操作kafka

10) scala編程操作kafka

11) flume 和kafka 的整合

12) Kafka 和storm 的整合

Storm

實時數據處理本部分學習過后，大家將全面掌握Storm內部機制和原理，通過大量項目實戰，讓大家擁有完整項目開發思路和架構設計，掌握從數據采集到實時計算到數據存儲再到前臺展示，所有工作一個人搞定！譬如可以一個人搞定淘寶雙11大屏幕項目！不光從項目的開發的層次去實現，并可以從架構的層次站在架構師的角度去完成一個項目。項目技術架構體系：

1) Storm的基本概念

2) Storm的應用場景

3) Storm和Hadoop的對比

4) Storm集群的安裝的linux環境準備

5) zookeeper集群搭建

6) Storm集群搭建

7) Storm配置文件配置項講解

8) 集群搭建常見問題解決

9) Storm常用組件和編程API：Topology、 Spout、Bolt

10) Storm分組策略(stream groupings)

11) 使用Strom開發一個WordCount例子

12) Storm程序本地模式debug、Storm程序遠程debug

13) Storm事物處理

14) Storm消息可靠性及容錯原理

15) Storm結合消息隊列Kafka：消息隊列基本概念(Producer、Consumer、Topic、Broker等)、消息隊列Kafka使用場景、Storm結合Kafka編程API

16) Storm Trident概念

17) Trident state 原理

18) Trident開發實例

19) Storm DRPC(分布式遠程調用)介紹

20) Storm DRPC實戰講解

21) Storm和Hadoop 2.x的整合：Storm on Yarn

Storm開發實戰： Kafka+Storm+Hbase+redis項目實戰，以及多個案例項目實戰中國移動基站保障平臺一個市級移動公司，每天的產生海量話務數據（一線城市更高），通過大數實時分析，監控每個基站的掉話率，基站通話總數，基站掉話總數，基站告警，3g/4g上網流量實時監控。對以上維度進行實時分析以達到對基站工作情況的監控。項目技術架構體系：

Storm+hbase+kafka+flume+echarts

a) flume實時采集日志

b) kafka緩沖隊列

c) storm實時處理

d) Hbase dao存儲處理結果

e) 前端Web實時展示報表

第四階段：spark內存計算Python課程Python語言的部分大家在學習后可以完全掌握Python的精髓，并通過這部分的學習給大家打好一個基礎，在其他計算框架中多語言的使用上都會涉及到Python這門流行的語言。同時課程里會通過機器學習的案例讓大家學習Python的同時去更好的理解機器學習。1) 介紹Python以及特點

2) Python的安裝

3) Python基本操作（注釋、邏輯、字符串使用等）

4) Python數據結構（元組、列表、字典）

5) 使用Python進行批量重命名小例子

6) Python常見內建函數

7) 更多Python函數及使用常見技巧

8) 異常

9) Python函數的參數講解

10) Python模塊的導入

11) Python中的類與繼承

12) 網絡爬蟲案例

13) 數據庫連接，以及pip安裝模塊

14) Mongodb基礎入門

15) 講解如何連接mongodb

16) Python的機器學習案例

Scala課程在此部分內，將更注重scala的各種語言規則與簡單直接的應用，而不在于其是如何具體實現，通過學習本課程能具備初步的Scala語言實際編程能力。本部分課程也可以視為大家下面學習Spark課程的鋪墊，供大家掃盲熟悉Scala，提前進行熱身運動。1) scala解釋器、變量、常用數據類型等

2) scala的條件表達式、輸入輸出、循環等控制結構

3) scala的函數、默認參數、變長參數等

4) scala的數組、變長數組、多維數組等

5) scala的映射、元組等操作

6) scala的類，包括bean屬性、輔助構造器、主構造器等

7) scala的對象、單例對象、伴生對象、擴展類、apply方法等

8) scala的包、引入、繼承等概念

9) scala的特質

10) scala的操作符

11) scala的高階函數

12) scala的集合

13) scala數據庫連接

Spark

大數據處理本部分內容全面涵蓋了Spark生態系統的概述及其編程模型，深入內核的研究，Spark on Yarn,Spark Streaming流式計算原理與實踐，Spark SQL,Spark的多語言編程以及SparkR的原理和運行。不僅面向項目開發人員，甚至對于研究Spark的學員，此部分都是非常有學習指引意義的課程。1) Spark介紹

2) Spark應用場景

3) Spark和Hadoop MR、Storm的比較和優勢

4) RDD

5) Transformation

6) Action

7) Spark計算PageRank

8) Lineage

9) Spark模型簡介

10) Spark緩存策略和容錯處理

11) 寬依賴與窄依賴

12) Spark配置講解

13) Spark集群搭建

14) 集群搭建常見問題解決

15) Spark原理核心組件和常用RDD

16) 數據本地性

17) 任務調度

18) DAGScheduler

19) TaskScheduler

20) Spark源碼解讀

21) 性能調優

22) Spark和Hadoop2.x整合：Spark on Yarn原理

Spark Streaming

實時計算1) Spark Streaming：數據源和DStream

2) 無狀態transformation與有狀態transformation

3) Streaming Window的操作

4) sparksql 編程實戰

5) spark的多語言操作

6) spark最新版本的新特性

Spark MLlib

機器學習前面課程大家已經掌握第一代機器學習工具R，而后又學習了第二代機器學習工具Mahout，這里大家將會學習第三代機器學習工具MLlib，大家不僅將會了解MLlib的組件及其調用，而且會通過Spark的項目深入了解MLlib的現實使用。通過此部分大家也可以看出課程不僅著眼于現在，更是著眼于大家的未來在行業中的發展。1) 介紹

a) Spark MLlib組件介紹 b) 基本數據類型

2) 回歸算法

c) 廣義線性模型 d) 邏輯回歸

3) 分類算法

e) 樸素貝葉斯 f) 決策樹 g) 隨機森林

4) 第四章推薦系統

5) 第五章聚類

h) Kmeans i) Sparse kmeans j) Kmeans++ k) Kmeans II

l) Streaming kmeans m) Gaussian Mixture ModelSparkt GraphX

圖計算a) 二分圖

b) 概述

c) 構造圖

d) 屬性圖

e) PageRank

項目實戰智慧城市大數據分析項目城市中每時每刻都會產生海量數據，應用數據挖掘、機器學習和可視化技術，分析出的數據可以改進城市規劃，緩解交通擁堵，抓捕罪犯。項目會使用真實的數據。涉及到所學知識如下：項目技術架構體系：

a) 實時流處理 Kafka，Spark Streaming

b) 分布式運算 Hadoop，Spark

c) 數據庫 Hbase，Redis

d) 機器學習 Spark Mllib

e) 前臺web展示數據 Struts2，echart

手機軟件推薦系統項目使用數據來自某互聯網平臺手機助手，項目目標通過機器學習所學知識挖掘平臺手機用戶喜好，給用戶準確推薦手機軟件，類似360手機助手、華為手機助手、百度手機助手推薦功能。項目技術架構體系：

a) 分布式平臺 Hadoop，Spark

b) 數據清洗 Hive

c) 數據分析 R RStudio

d) 推薦服務 Dubbox

e) 規則過濾 Drools

f) 機器學習 MLlib

網絡流量異常檢測項目項目目標通過機器學習所學知識檢測出異常，包括檢測欺詐，網絡攻擊，服務器傳感器故障燈（本項目用戶現在熱門的電商網站的流量分析檢測，比如京東，天貓，淘寶等）。項目功能應用于各大互聯網平臺中，各大互聯網平臺均需要網絡安全予以重視和預防以及檢測。項目技術架構體系：

a) 數據存儲 Hadoop

b) 數據準備 Spark

c) 數據分析 R RStudio

d) 機器學習 MLlib

e) 數據評價及調參

第五階段：云計算平臺

Docker 課程Docker 是一個開源的應用容器引擎，讓開發者可以打包他們的應用以及依賴包到一個可移植的容器中，然后發布到任何流行的 Linux 機器上，也可以實現虛擬化。容器是完全使用沙箱機制，相互之間不會有任何接口（類似 iPhone 的 app）。幾乎沒有性能開銷,可以很容易地在機器和數據中心中運行。最重要的是,他們不依賴于任何語言、框架包括系統。1) 基本介紹

2) vm docker 對比

3) docker基本架構介紹

4) unfs cgroup namespace

5) 進程虛擬化輕量級虛擬化

6) docker 安裝

7) docker 鏡像制作

8) docker 常用命令

9) docker 鏡像遷移

10) docker pipework【i.openvswitch】

11) docker weave

虛擬化KVM云計算算平臺，比如openstack，cloudstack 底層采用的技術都是虛擬化方案，現在以kvm市場占有率最高，我們要深入的去學習這些原生的虛擬化，才能深入了解和架構openstack這樣的云計算的平臺，也才更有能力去開發自己的云計算平臺。1) 虛擬化介紹，虛擬化適用場景等等

2) Qemu Libvirt & KVM

3) 安裝KVM, Qemu, Libvirt

4) QEMU-KVM: 安裝第一個能上網的虛擬機

5) Kvm虛擬機 nat,網橋基本原理

6) kvm虛擬機克隆

7) kvm虛擬機vnc配置

8) kvm虛擬機擴展磁盤空間

9) Kvm快照

10) Kvm 遷移

11) Java,python,c語言編程控制kvm

12) 構建自己的虛擬云平臺

云平臺OpenStack在實戰中學習，課程絕不紙上談兵，通過搭建和調試一個真實的openstack平臺，深入淺出，詳細講解openstack的各個組成模塊：keystone, glance, nova, cinder, neutron, horizen。課程中遇到的各種實際問題，不僅演示了如何解決，更是要教會大家學會去找到解決問題的方法。難點問題全面講解。在云計算的各種技術當中，網絡部分是最難，也是最復雜多樣的。課程中針對虛擬網絡進行了詳細的講解，包括基本原理，以及實際環境搭建，問題的跟蹤和解決。講師擁有豐富的移動集團工作經驗，負責云平臺的各方面工作，講課內容完全貼近企業需求，絕不紙上談兵。1) openstack介紹和模塊基本原理分析

2) openstack多節點安裝部署【a.采用centos6.x系統】

3) Keystone基本原理

4) glance

5) Cinder

6) Swift

7) Neutron

8) Openstack api 二次開發

總結

以上是生活随笔為你收集整理的如何自学大数据开发？的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

数据

上一篇：教你快速分割每段视频并自动分段导出保存
下一篇： Unity：Firebase接入Goog