大数据学习之路
????????這個系列是大數據相關知識,大致包含以下方面,第一個階段是linux和高并發基本知識;第二個是hadoop體系的離線計算;第三個階段是spark體系的分布式計算;第四個階段是Flink流處理計算相關知識;第五階段是機器學習和數據挖掘相關部分
0.寫在前面
淺談數據相關工作及其技術棧、崗位特點和核心競爭力https://blank.blog.csdn.net/article/details/108195911
阿里云DataWorks數據集成(DataX)架構&實踐分享https://blank.blog.csdn.net/article/details/120550724
1.linux和高并發基本知識
1.1 linux操作系統
1.1.1 linux和高并發-linux操作系統-linux虛擬機的安裝
1.1.2 linux和高并發-linux操作系統-linux網絡配置
1.1.3 linux和高并發-linux操作系統-linux簡單命令學習
1.1.4 linux和高并發-linux操作系統-linux文件系統
1.2 linux基本命令
1.2.1 linux和高并發-linux基本命令-linux文件系統命令
1.2.2 linux和高并發-linux基本命令-vi全屏文本編輯器
1.2.3 linux和高并發-linux基本命令-正則表達式
1.2.4 linux和高并發-linux基本命令-文本分析
1.2.5 linux和高并發-linux基本命令-linux用戶與權限
1.2.6 linux和高并發-linux基本命令-linux環境變量配置說明
1.3 linux軟件安裝
1.3.1 linux和高并發-linux軟件安裝-linux編譯安裝
1.3.2 linux和高并發-linux軟件安裝-rpm軟件安裝
1.3.3 linux和高并發-linux軟件安裝-yum安裝及配置
1.4 shell編程
1.4.1 linux和高并發-shell編程-bash
1.4.2 linux和高并發-shell編程-文本流及重定向
1.4.3 linux和高并發-shell編程-變量
1.4.4 linux和高并發-shell編程-引用和邏輯判斷
1.4.5 linux和高并發-shell編程-表達式(算術表達式+條件表達式)
1.4.6 linux和高并發-shell編程-添加用戶腳本
1.4.7 linux和高并發-shell編程-流程控制
1.4.8 linux和高并發-shell編程-shell腳本編程總結
1.4.9 linux和高并發-shell編程-shell分發腳本
1.4.10 linux和高并發-shell編程-Zookeeper啟動腳本(啟動,停止,查看狀態)
1.4.11 linux和高并發-shell編程-查看集群進程腳本
1.4.12 linux和高并發-shell編程-ha-hadoop腳本編寫
1.5 網絡基礎知識
1.5.1 linux和高并發-網絡基礎知識-高并發與負載均衡之理論
1.5.2 linux和高并發-網絡基礎知識-網絡TCP/IP基礎知識
1.6 lvs集群和高并發
1.6.1 linux和高并發-lvs集群和高并發-lvs中3種模型推導
1.6.2 linux和高并發-lvs集群和高并發-lvs功能配置介紹
1.6.3 linux和高并發-lvs集群和高并發-lvs中DR模型實驗
1.7 nginx集群和高并發
1.7.1 linux和高并發-nginx集群和高并發-反向代理概念
1.7.2 linux和高并發-nginx集群和高并發-Nginx的安裝和配置
1.7.3 linux和高并發-nginx集群和高并發-Nginx反向代理和負載均衡實戰
1.8 keepalived和單點故障
1.8.1 linux和高并發-keepalived和單點故障-keepalived概念
1.8.2 linux和高并發-keepalived和單點故障-keepalived安裝和實驗
2.hadoop體系之離線計算
2.1 hdfs分布式文件系統
2.1.0 hadoop體系之離線計算-hdfs分布式文件系統-基本環境配置
2.1.1 hadoop體系之離線計算-hdfs分布式文件系統-hadoop簡介
2.1.2 hadoop體系之離線計算-hdfs分布式文件系統-存儲模型(hdfs分布式存儲系統)
2.1.3 hadoop體系之離線計算-hdfs分布式文件系統-副本機制+node工作機制+HDFS文件讀寫過程
2.1.4 hadoop體系之離線計算-hdfs分布式文件系統-架構模型
2.1.5 hadoop體系之離線計算-hdfs分布式文件系統-偽分布式安裝
2.1.6 hadoop體系之離線計算-hdfs分布式文件系統-全分布式安裝
2.1.6 hadoop體系之離線計算-hdfs分布式文件系統-全分布式安裝(2)
2.1.6 hadoop體系之離線計算-hdfs分布式文件系統-全分布式安裝hadoop2.7.7(3)
2.1.7 hadoop體系之離線計算-hdfs分布式文件系統-hdfs命令行使用和API操作
2.1.8 hadoop體系之離線計算-hdfs分布式文件系統-HA(高可用)-Hadoop集群環境搭建
2.1.9 hadoop體系之離線計算-hdfs分布式文件系統-Hadoop數據壓縮
2.2 mapreduce分布式計算
2.2.1 hadoop體系之離線計算-mapreduce分布式計算-mapreduce架構概念
2.2.2 hadoop體系之離線計算-mapreduce分布式計算-WordCount案例
2.2.3 hadoop體系之離線計算-mapreduce分布式計算-MapReduce分區
2.2.4 hadoop體系之離線計算-mapreduce分布式計算-MapReduce序列化和排序
2.2.5 hadoop體系之離線計算-mapreduce分布式計算-MapReduce中的計數器
2.2.6 hadoop體系之離線計算-mapreduce分布式計算-規約Combiner
2.2.7 hadoop體系之離線計算-mapreduce分布式計算-流量統計之統計求和
2.2.8 hadoop體系之離線計算-mapreduce分布式計算-流量統計之上行流量倒序排序(遞減排序)
2.2.9 hadoop體系之離線計算-mapreduce分布式計算-流量統計之手機號碼分區
2.2.10 hadoop體系之離線計算-mapreduce分布式計算-MapReduce運行機制總結
2.2.11 hadoop體系之離線計算-mapreduce分布式計算-案例:Reduce端實現Join
2.2.12 hadoop體系之離線計算-mapreduce分布式計算-hadoop常見問題總結(hdfs+yarn+mapreduce)
2.3 Hive-數據倉庫工具
2.3.1 hadoop體系之離線計算-Hive數據倉庫-什么是數據倉庫?
2.3.2 hadoop體系之離線計算-Hive數據倉庫-Hive基本概念和架構分析
2.3.3 hadoop體系之離線計算-Hive數據倉庫-Hive的安裝和交互方式
2.3.3 hadoop體系之離線計算-Hive數據倉庫-Hive的安裝和交互方式(2)
2.3.4 hadoop體系之離線計算-Hive數據倉庫-Hive數據庫操作
2.3.5 hadoop體系之離線計算-Hive數據倉庫-Hive表操作
2.3.6 hadoop體系之離線計算-Hive數據倉庫-Hive查詢語法
2.3.7 hadoop體系之離線計算-Hive數據倉庫-Hive函數
2.3.8 hadoop體系之離線計算-Hive數據倉庫-Hive常見問題總結
2.3.9 hadoop體系之離線計算-Hive數據倉庫-hql實現wordcount操作
2.3.10 hadoop體系之離線計算-Hive數據倉庫-MaxCompute SQL調優
2.3.11 hadoop體系之離線計算-Hive數據倉庫-MaxCompute SQL多維聚合求PV和UV
2.3.12 hadoop體系之離線計算-Hive數據倉庫-HIVE的嚴格模式
2.8 Hbase(列存儲數據庫)-NoSQL數據庫
2.8.1 hadoop體系之離線計算-HBase數據庫-HBase簡介
2.8.2 hadoop體系之離線計算-HBase數據庫-HBase安裝和配置
2.8.3 hadoop體系之離線計算-HBase數據庫-HBase Shell操作
2.8.4 hadoop體系之離線計算-HBase數據庫-HBase java_api操作
2.8.5 hadoop體系之離線計算-HBase數據庫-HBase高級-詳細架構
2.8.6 hadoop體系之離線計算-HBase數據庫-HBase高級-HBase寫流程
2.8.7 hadoop體系之離線計算-HBase數據庫-HBase高級-HBase-數據Flush過程
2.8.8 hadoop體系之離線計算-HBase數據庫-HBase高級-HBase讀流程
2.8.9 hadoop體系之離線計算-HBase數據庫-HBase高級-HBase-StoreFile Compaction合并流程
2.8.10 hadoop體系之離線計算-HBase數據庫-HBase高級-HBase-Region Split拆分
2.8.11 hadoop體系之離線計算-HBase數據庫-HBase高級-HBase利用MapReduce
2.8.12 hadoop體系之離線計算-HBase數據庫-HBase高級-HBase與Hive交互
2.8.13 hadoop體系之離線計算-HBase數據庫-HBase的優化
2.8.14 hadoop體系之離線計算-HBase數據庫-HBase常見問題總結
2.8.15 hadoop體系之離線計算-HBase數據庫-項目實戰:微博
2.4?Zookeeper-分布式服務框架
2.4.1 hadoop體系之離線計算-Zookeeper分布式服務框架-初識ZooKeeper
2.4.2 hadoop體系之離線計算-Zookeeper分布式服務框架-單機環境和集群環境搭建
2.4.3 hadoop體系之離線計算-Zookeeper分布式服務框架-解釋Zookeeper的選舉機制
3.spark體系之分布式計算
3.1?scala分布式計算機開發語言
3.1.1 spark體系之分布式計算-scala編程-scala介紹和安裝(win+linux)
3.1.2 spark體系之分布式計算-scala編程-scala基礎
3.1.3 spark體系之分布式計算-scala編程-scala函數
3.1.4 spark體系之分布式計算-scala編程-scala字符串
3.1.5 spark體系之分布式計算-scala編程-scala中的集合(數組array、list、set、map、元組)
3.1.6 spark體系之分布式計算-scala編程-scala中trait特性
3.1.7 spark體系之分布式計算-scala編程-scala中模式匹配match
3.2?spark-core之離線計算
3.2.1 spark體系之分布式計算-spark-core之離線計算-初識Spark
3.2.2 spark體系之分布式計算-spark-core之離線計算-Spark-Local模式環境搭建
3.2.3 spark體系之分布式計算-spark-core之離線計算-Spark-Standalone普通模式+HA模式
3.2.4 spark體系之分布式計算-spark-core之離線計算-計算WordCount(java版【eclipse】+scala版本【IDEA】)
3.2.5 spark體系之分布式計算-spark-core之離線計算-HA-Spark集群環境搭建(Yarn模式)
3.3?spark-sql
3.4?spark-stream流式計算
3.5?STORM流式框架
4.Flink-流處理框架
4.1 Flink基礎知識
4.1.1?Flink-流處理框架-Flink簡介
4.1.2 Flink-流處理框架-wordCount的批處理和流處理
4.1.3?Flink-流處理框架-Flink-Local模式環境搭建
4.1.4?Flink-流處理框架-Flink集群環境搭建(Standalone模式)
4.1.5?Flink-流處理框架-HA-Flink集群環境搭建(Standalone模式)
4.1.6?Flink-流處理框架-HA-Flink集群環境搭建(Yarn模式)
4.1.7 Flink-流處理框架-Flink On Yarn三種部署方式
4.1.8?Flink-流處理框架-Flink運行架構
4.1.9?Flink-流處理框架-Flink流處理API之Environment
4.1.10?Flink-流處理框架-Flink流處理API之Source數據源
4.1.11?Flink-流處理框架-Flink流處理API之Transform轉換算子
4.1.12?Flink-流處理框架-Flink流處理API之支持的數據類型總結
4.1.13?Flink-流處理框架-Flink流處理API之實現 UDF 函數(更細粒度的控制流)
4.1.14 Flink-流處理框架-Flink流處理API之數據重分區操作
4.1.15 Flink-流處理框架-Flink流處理API之sink輸出操作
4.1.16 Flink-流處理框架-Window API之Windows概述
4.1.17 Flink-流處理框架-Window API之窗口分配器
4.1.18 Flink-流處理框架-Window API之窗口函數window function
4.1.19 Flink-流處理框架-Flink中的時間語義和watermark水位線
4.1.20 Flink-流處理框架-ProcessFunction API(底層 API)
4.1.21?Flink-流處理框架-Flink中的狀態管理之算子狀態+鍵控狀態
4.1.22?Flink-流處理框架-Flink中的狀態管理之狀態編程-溫度跳變報警
4.1.23 Flink-流處理框架-Flink中的狀態管理之狀態后端
4.1.24 Flink-流處理框架-Flink中的容錯機制之狀態一致性級別和端到端的狀態一致性
4.1.25 Flink-流處理框架-Flink中的容錯機制之Flink+Kafka 端到端狀態一致性的保證
4.1.26?Flink-流處理框架-Flink中的容錯機制之檢查點(checkpoint)
4.1.27 Flink-流處理框架-檢查點恢復+flink檢查點算法+保存點
4.1.28 Flink-流處理框架-Flink使用Lambda表達式引發了泛型擦除問題
4.2 Table API 和 Flink SQL
4.2.1 Flink-流處理框架-Table API 與 SQL-基本概念和簡單實例程序
4.2.2 Flink-流處理框架-Table API 與 SQL-基本程序結構(創建表環境+在 Catalog 中注冊表)
4.2.3 Flink-流處理框架-Table API 與 SQL-流轉表+表轉流+創建臨時視圖(Temporary View)
4.2.4 Flink-流處理框架-Table API 與 SQL-表的查詢
4.2.5 Flink-流處理框架-Table API 與 SQL-表的輸出
4.2.6 Flink-流處理框架-Table API 與 SQL-查看表的執行計劃
4.2.7 Flink-流處理框架-Table API 與 SQL-流處理中的特殊概念之動態表+持續查詢
4.2.8 Flink-流處理框架-Table API 與 SQL-流處理中的特殊概念之時間特性
4.2.9 Flink-流處理框架-Table API 與 SQL-流處理中的特殊概念之窗口(Windows)
4.2.10 Flink-流處理框架-Table API 與 SQL-函數(Functions)之內置函數
4.2.11 Flink-流處理框架-Table API 與 SQL-函數(Functions)之用戶自定義函數 UDF
4.3?Flink CDC數據實時數據同步
4.3.1 Flink-流處理框架-Flink CDC數據實時數據同步-何為CDC?
4.3.2 Flink-流處理框架-Flink CDC數據實時數據同步-何為Flink CDC?
4.3.3 Flink-流處理框架-Flink CDC數據實時數據同步-Flink CDC實操-DataStream方式
4.3.4 Flink-流處理框架-Flink CDC數據實時數據同步-Flink CDC實操-DataStream方式-自定義反序列化器實現
4.3.5 Flink-流處理框架-Flink CDC數據實時數據同步-Flink CDC實操-FlinkSQL方式
4.4 Flink實踐
4.4.1?
5.數據庫相關
5.1?NoSQL數據庫-Redis(鍵值key-value)
5.1.1 NoSQL數據庫-Redis(鍵值key-value)-NoSQL概述
5.1.2?NoSQL數據庫-Redis(鍵值key-value)-Redis介紹和安裝
5.1.3 NoSQL數據庫-Redis(鍵值key-value)-五大數據類型
5.1.4 NoSQL數據庫-Redis(鍵值key-value)-三種特殊數據類型
5.1.5 NoSQL數據庫-Redis(鍵值key-value)-Redis中的事務操作和監控
5.1.6 NoSQL數據庫-Redis(鍵值key-value)-基礎API之Jedis 詳解
5.1.7?NoSQL數據庫-Redis(鍵值key-value)-SpringBoot整合Redis
5.1.8 NoSQL數據庫-Redis(鍵值key-value)-Redis配置詳解
5.1.9 NoSQL數據庫-Redis(鍵值key-value)-Redis持久化
5.1.10?NoSQL數據庫-Redis(鍵值key-value)-Redis實現發布訂閱
5.1.11 NoSQL數據庫-Redis(鍵值key-value)-Redis主從復制
5.1.12?NoSQL數據庫-Redis(鍵值key-value)-Redis哨兵模式
5.1.13?NoSQL數據庫-Redis(鍵值key-value)-Redis緩存穿透、緩存擊穿、緩存雪崩
6.消息隊列相關
6.1?kafka分布式消息隊列
6.1.1 kafka分布式消息隊列-Kafka概述
6.1.2 kafka分布式消息隊列-Kafka集群環境搭建和命令行操作
6.1.3 kafka分布式消息隊列-Kafka架構深入
7.數據同步相關
7.1 Flume-日志收集系統(實時)
7.1.1 hadoop體系之離線計算-Flume日志收集系統-Flume介紹
7.1.1(2) hadoop體系之離線計算-Flume日志收集系統-Flume安裝及基本使用
7.1.2 hadoop體系之離線計算-Flume日志收集系統-Flume實戰(Telnet案例)
7.1.3 hadoop體系之離線計算-Flume日志收集系統-Flume實戰(采集目錄+采集日志)
7.1.4 hadoop體系之離線計算-Flume日志收集系統-Agent級聯
7.1.5 hadoop體系之離線計算-Flume日志收集系統-Flume高可用方案
7.1.6 hadoop體系之離線計算-Flume日志收集系統-Flume的負載均衡
7.1.7 hadoop體系之離線計算-Flume日志收集系統-Flume案例分析(攔截器)
7.2 DataX-數據同步工具(實時+離線)
7.3?Sqoop-Hadoop和數據庫數據遷移工具(離線)
7.3.1 hadoop體系之離線計算-sqoop數據遷移工具-sqoop簡介
7.3.2 hadoop體系之離線計算-sqoop數據遷移工具-sqoop安裝
7.3.3 hadoop體系之離線計算-sqoop數據遷移工具-sqoop實戰(導入+導出)
7.4?Maxwell-數據庫同步工具(實時)
7.5 Canal-數據庫同步工具(實時)
8.工作流調度相關
8.1 Azkaban-工作流調度系統
8.1.1 hadoop體系之離線計算-Azkaban工作流調度系統-Azkaban介紹
8.1.2 hadoop體系之離線計算-Azkaban工作流調度系統-Azkaban的安裝(單服務模式+雙服務模式)
8.1.3 hadoop體系之離線計算-Azkaban工作流調度系統-Azkaban多例實戰
8.2?Oozie-工作流調度
8.3?DolphinScheduler-工作流任務調度平臺
8.4?Airflow-調度和監控的工作流
?未完待續.....
總結
- 上一篇: ChIP-seq 数据分析1 ChIP-
- 下一篇: 计算机应用基础员工工资表,利用VBA编写