python写的hadoop实战_Hadoop实战
Hadoop實(shí)戰(zhàn)
1 Hadoop簡介
1.1 什么是Hadoop
1.1.1 Hadoop概述
1.1.2 Hadoop的歷史
1.1.3 Hadoop的功能與作用
1.1.4 Hadoop的優(yōu)勢(shì)
1.1.5 Hadoop的應(yīng)用現(xiàn)狀和發(fā)展趨勢(shì)
1.2 Hadoop項(xiàng)目及其結(jié)構(gòu)
1.3 Hadoop的體系結(jié)構(gòu)
1.3.1 HDFS的體系結(jié)構(gòu)
1.3.2 MapReduce的體系結(jié)構(gòu)
1.4 Hadoop與分布式開發(fā)
1.5 Hadoop計(jì)算模型—MapReduce
1.6 Hadoop的數(shù)據(jù)管理
1.6.1 HDFS的數(shù)據(jù)管理
1.6.2 HBase的數(shù)據(jù)管理
1.6.3 Hive的數(shù)據(jù)管理
1.7 小結(jié)
2 Hadoop的安裝與配置
2.1 在Linux上安裝與配置Hadoop
2.1.1 安裝JDK 1.6
2.1.2 配置SSH免密碼登錄
2.1.3 安裝并運(yùn)行Hadoop
2.2 在Windows上安裝與配置Hadoop
2.2.1 安裝Cygwin
2.2.2 配置環(huán)境變量
2.2.3 安裝和啟動(dòng)sshd服務(wù)
2.2.4 配置SSH免密碼登錄
2.3 安裝和配置Hadoop集群
2.3.1 網(wǎng)絡(luò)拓?fù)?/p>
2.3.2 定義集群拓?fù)?/p>
2.3.3 建立和安裝Cluster
2.4 日志分析及幾個(gè)小技巧
2.5 小結(jié)
3 Hadoop應(yīng)用案例分析
3.1 Hadoop在Yahoo!的應(yīng)用
3.2 Hadoop在eBay的應(yīng)用
3.3 Hadoop在百度的應(yīng)用
3.4 Hadoop在Facebook的應(yīng)用
3.5 Hadoop平臺(tái)上的海量數(shù)據(jù)排序
3.6 小結(jié)
4 MapReduce計(jì)算模型
4.1 為什么要用MapReduce
4.2 MapReduce計(jì)算模型
4.2.1 MapReduce Job
4.2.2 Hadoop中的Hello World程序
4.2.3 MapReduce的數(shù)據(jù)流和控制流
4.3 MapReduce任務(wù)的優(yōu)化
4.4 Hadoop流
4.4.1 Hadoop流的工作原理
4.4.2 Hadoop流的命令
4.4.3 實(shí)戰(zhàn)案例:添加Bash程序和Python程序到Hadoop流中
4.5 Hadoop Pipes
4.6 小結(jié)
5 開發(fā)MapReduce應(yīng)用程序
5.1 系統(tǒng)參數(shù)的配置
5.2 配置開發(fā)環(huán)境
5.3 編寫MapReduce程序
5.3.1 Map處理
5.3.2 Reduce處理
5.4 本地測(cè)試
5.5 運(yùn)行MapReduce程序
5.5.1 打包
5.5.2 在本地模式下運(yùn)行
5.5.3 在集群上運(yùn)行
5.6 網(wǎng)絡(luò)用戶界面
5.6.1 JobTracker頁面
5.6.2 工作頁面
5.6.3 返回結(jié)果
5.6.4 任務(wù)頁面
5.6.5 任務(wù)細(xì)節(jié)頁面
5.7 性能調(diào)優(yōu)
5.8 MapReduce工作流
5.8.1 將問題分解成MapReduce工作
5.8.2 運(yùn)行相互依賴的工作
5.9 小結(jié)
6 MapReduce應(yīng)用案例
6.1 單詞計(jì)數(shù)
6.1.1 實(shí)例描述
6.1.2 設(shè)計(jì)思路
6.1.3 程序代碼
6.1.4 代碼解讀
6.1.5 程序執(zhí)行
6.1.6 代碼結(jié)果
6.2 數(shù)據(jù)去重
6.2.1 實(shí)例描述
6.2.2 設(shè)計(jì)思路
6.2.3 程序代碼
6.3 排序
6.3.1 實(shí)例描述
6.3.2 設(shè)計(jì)思路
6.3.3 程序代碼
6.4 單表關(guān)聯(lián)
6.4.1 實(shí)例描述
6.4.2 設(shè)計(jì)思路
6.4.3 程序代碼
6.5 多表關(guān)聯(lián)
6.5.1 實(shí)例描述
6.5.2 設(shè)計(jì)思路
6.5.3 程序代碼
6.6 小結(jié)
7 MapReduce工作機(jī)制
7.1 MapReduce作業(yè)的執(zhí)行流程
7.1.1 MapReduce任務(wù)的執(zhí)行總流程
7.1.2 提交作業(yè)
7.1.3 初始化作業(yè)
7.1.4 分配任務(wù)
7.1.5 執(zhí)行任務(wù)
7.1.6 更新任務(wù)執(zhí)行進(jìn)度和狀態(tài)
7.1.7 完成作業(yè)
7.2 錯(cuò)誤處理機(jī)制
7.2.1 硬件故障
7.2.2 任務(wù)失敗
7.3 作業(yè)調(diào)度機(jī)制
7.4 shuffle和排序
7.4.1 map端
7.4.2 reduce端
7.4.3 shuffle過程的優(yōu)化
7.5 任務(wù)執(zhí)行
7.5.1 推測(cè)式執(zhí)行
7.5.2 任務(wù)JVM重用
7.5.3 跳過壞記錄
7.5.4 任務(wù)執(zhí)行環(huán)境
7.6 小結(jié)
8 Hadoop I/O操作
8.1 I/O操作中的數(shù)據(jù)檢查
8.2 數(shù)據(jù)的壓縮
8.2.1 Hadoop對(duì)壓縮工具的選擇
8.2.2 壓縮分割和輸入分割
8.2.3 在MapReduce程序中使用壓縮
8.3 數(shù)據(jù)的I/O中序列化操作
8.3.1 Writable類
8.3.2 實(shí)現(xiàn)自己的Hadoop數(shù)據(jù)類型
8.4 針對(duì)MapReduce的文件類
8.4.1 SequenceFile類
8.4.2 MapFile類
8.5 小結(jié)
9 HDFS詳解
9.1 Hadoop的文件系統(tǒng)
9.2 HDFS簡介
9.3 HDFS體系結(jié)構(gòu)
9.3.1 HDFS的相關(guān)概念
9.3.2 HDFS的體系結(jié)構(gòu)
9.4 HDFS的基本操作
9.4.1 HDFS的命令行操作
9.4.2 HDFS的Web界面
9.5 HDFS常用Java API詳解
9.5.1 使用Hadoop URL讀取數(shù)據(jù)
9.5.2 使用FileSystem API讀取數(shù)據(jù)
9.5.3 創(chuàng)建目錄
9.5.4 寫數(shù)據(jù)
9.5.5 刪除數(shù)據(jù)
9.5.6 文件系統(tǒng)查詢
9.6 HDFS中的讀寫數(shù)據(jù)流
9.6.1 文件的讀取
9.6.2 文件的寫入
9.6.3 一致性模型
9.7 HDFS命令詳解
9.7.1 通過distcp進(jìn)行并行復(fù)制
9.7.2 HDFS的平衡
9.7.3 使用Hadoop歸檔文件
9.7.4 其他命令
9.8 小結(jié)
10 Hadoop的管理
10.1 HDFS文件結(jié)構(gòu)
10.2 Hadoop的狀態(tài)監(jiān)視和管理工具
10.2.1 審計(jì)日志
10.2.2 監(jiān)控日志
10.2.3 Metrics
10.2.4 Java管理擴(kuò)展
10.2.5 Ganglia
10.2.6 Hadoop管理命令
10.3 Hadoop集群的維護(hù)
10.3.1 安全模式
10.3.2 Hadoop的備份
10.3.3 Hadoop的節(jié)點(diǎn)管理
10.3.4 系統(tǒng)升級(jí)
10.4 小結(jié)
11 Hive詳解
11.1 Hive簡介
11.1.1 Hive的數(shù)據(jù)存儲(chǔ)
11.1.2 Hive的元數(shù)據(jù)存儲(chǔ)
11.2 Hive的基本操作
11.2.1 在集群上安裝Hive
11.2.2 配置Hive
11.3 Hive QL詳解
11.3.1 數(shù)據(jù)定義(DDL)操作
11.3.2 數(shù)據(jù)操作(DML)
11.3.3 SQL操作
11.3.4 Hive QL的使用實(shí)例
11.4 Hive的網(wǎng)絡(luò)(WebUI)接口
11.5 Hive的JDBC接口
11.6 Hive的優(yōu)化
11.7 小結(jié)
12 HBase詳解
12.1 HBase簡介
12.2 HBase的基本操作
12.2.1 HBase的安裝
12.2.2 運(yùn)行HBase
12.2.3 HBase Shell
12.2.4 HBase配置
12.3 HBase體系結(jié)構(gòu)
12.4 HBase數(shù)據(jù)模型
12.4.1 數(shù)據(jù)模型
12.4.2 概念視圖
12.4.3 物理視圖
12.5 HBase與RDBMS
12.6 HBase與HDFS
12.7 HBase客戶端
12.8 Java API
12.9 HBase編程實(shí)例之MapReduce
12.10 模式設(shè)計(jì)
12.10.1 學(xué)生表
12.10.2 事件表
12.11 小結(jié)
13 Mahout詳解
13.1 Mahout簡介
13.2 Mahout的安裝和配置
13.3 Mahout API簡介
13.4 Mahout中的聚類和分類
13.4.1 什么是聚類和分類
13.4.2 Mahout中的數(shù)據(jù)表示
13.4.3 將文本轉(zhuǎn)化成向量
13.4.4 Mahout中的聚類、分類算法
13.4.5 算法應(yīng)用實(shí)例
13.5 Mahout應(yīng)用:建立一個(gè)推薦引擎
13.5.1 推薦引擎簡介
13.5.2 使用Taste構(gòu)建一個(gè)簡單的推薦引擎
13.5.3 簡單分布式系統(tǒng)下基于產(chǎn)品的推薦系統(tǒng)簡介
13.6 小結(jié)
14 Pig詳解
14.1 Pig簡介
14.2 Pig的安裝和配置
14.2.1 Pig的安裝條件
14.2.2 Pig的下載、安裝和配置
14.2.3 Pig運(yùn)行模式
14.3 Pig Latin語言
14.3.1 Pig Latin語言簡介
14.3.2 Pig Latin的使用
14.3.3 Pig Latin的數(shù)據(jù)類型
14.3.4 Pig Latin關(guān)鍵字
14.4 用戶定義函數(shù)
14.4.1 編寫用戶定義函數(shù)
14.4.2 使用用戶定義函數(shù)
14.5 Pig實(shí)例
14.5.1 Local模式
14.5.2 MapReduce模式
14.6 Pig進(jìn)階
14.6.1 數(shù)據(jù)實(shí)例
14.6.2 Pig數(shù)據(jù)分析
14.7 小結(jié)
15 ZooKeeper詳解
15.1 ZooKeeper簡介
15.1.1 ZooKeeper的設(shè)計(jì)目標(biāo)
15.1.2 數(shù)據(jù)模型和層次命名空間
15.1.3 ZooKeeper中的節(jié)點(diǎn)和臨時(shí)節(jié)點(diǎn)
15.1.4 ZooKeeper的應(yīng)用
15.2 ZooKeeper的安裝和配置
15.2.1 在集群上安裝ZooKeeper
15.2.2 配置ZooKeeper
15.2.3 運(yùn)行ZooKeeper
15.3 ZooKeeper的簡單操作
15.3.1 使用ZooKeeper命令的簡單操作步驟
15.3.2 ZooKeeper API的簡單使用
15.4 ZooKeeper的特性
15.4.1 ZooKeeper的數(shù)據(jù)模型
15.4.2 ZooKeeper會(huì)話及狀態(tài)
15.4.3 ZooKeeper Watches
15.4.4 ZooKeeper ACL
15.4.5 ZooKeeper的一致性保證
15.5 ZooKeeper的Leader選舉
15.6 ZooKeeper鎖服務(wù)
15.6.1 ZooKeeper中的鎖機(jī)制
15.6.2 ZooKeeper提供的一個(gè)寫鎖的實(shí)現(xiàn)
15.7 使用ZooKeeper創(chuàng)建應(yīng)用程序
15.8 小結(jié)
16 Avro詳解
16.1 Avro簡介
16.1.1 模式聲明
16.1.2 數(shù)據(jù)序列化
16.1.3 數(shù)據(jù)排列順序
16.1.4 對(duì)象容器文件
16.1.5 協(xié)議聲明
16.1.6 協(xié)議傳輸格式
16.1.7 模式解析
16.2 Avro的C/C++實(shí)現(xiàn)
16.3 Avro的Java實(shí)現(xiàn)
16.4 GenAvro(Avro IDL)語言
16.5 Avro SASL概述
16.6 小結(jié)
17 Chukwa詳解
17.1 Chukwa簡介
17.2 Chukwa架構(gòu)
17.2.1 客戶端(Agent)及其數(shù)據(jù)模型
17.2.2 收集器(Collector)和分離解析器(Demux)
17.2.3 HICC
17.3 Chukwa的可靠性
17.4 Chukwa集群搭建
17.4.1 基本配置要求
17.4.2 安裝Chukwa
17.5 Chukwa數(shù)據(jù)流的處理
17.6 Chukwa與其他監(jiān)控系統(tǒng)比較
17.7 小結(jié)
18 Hadoop的常用插件與開發(fā)
18.1 Hadoop Studio簡介和使用
18.1.1 Hadoop Studio的安裝和配置
18.1.2 Hadoop Studio的使用舉例
18.2 Hadoop Eclipse簡介和使用
18.2.1 Hadoop Eclipse安裝和配置
18.2.2 Hadoop Eclipse的使用舉例
18.2.3 Hadoop Eclipse插件開發(fā)
18.3 Hadoop Streaming簡介和使用
18.3.1 Hadoop Streaming的使用舉例
18.3.2 使用Hadoop Streaming時(shí)常見的問題
18.4 Hadoop Libhdfs簡介和使用
18.4.1 Hadoop Libhdfs安裝和配置
18.4.2 Hadoop Libhdfs API簡介
18.4.3 Hadoop Libhdfs的使用舉例
18.5 小結(jié)
附錄A 云計(jì)算在線檢測(cè)平臺(tái)
A.1 平臺(tái)介紹
A.2 結(jié)構(gòu)和功能
A.2.1 前臺(tái)用戶接口的結(jié)構(gòu)和功能
A.2.2 后臺(tái)程序運(yùn)行的結(jié)構(gòu)和功能
A.3 檢測(cè)流程
A.4 使用
A.4.1 功能使用
A.4.2 返回結(jié)果介紹
A.4.3 使用注意事項(xiàng)
A.5 小結(jié)
思維導(dǎo)圖
防止博客圖床圖片失效,防止圖片源站外鏈:
思維導(dǎo)圖在線編輯鏈接:
總結(jié)
以上是生活随笔為你收集整理的python写的hadoop实战_Hadoop实战的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 忘记用英语怎么说 忘记的英语是什么
- 下一篇: 金人是什么民族 金人所属的民族