Hadoop的介绍
今日內容
? Hadoop的介紹
? 集群環境搭建準備工作
? Linux命令和Shell腳本增強
? 集群環境搭建
大數據概述
? 大數據: 就是對海量數據進行分析處理,得到一些有價值的信息,然后幫助企業做出判斷和決策.
? 處理流程:
? 1:獲取數據
? 2:處理數據
? 3:展示結果
1:Hadoop介紹
Hadoop是一個分布式系基礎框架,它允許使用簡單的編程模型跨大型計算機的大型數據集進行分布式處理.
它主要解決兩個問題
? 大數據存儲問題: HDFS
? 大數據計算問題:MapReduce
問題一: 大文件怎么存儲?
假設一個文件非常非常大,大小為1PB/a.txt, 大到世界上所有的高級計算機都存儲不下, 怎么辦?
?
-
為了保存大文件, 需要把文件放在多個機器上
-
文件要分塊 block(128M)
-
不同的塊放在不同的 HDFS 節點
-
-
同時為了對外提供統一的訪問, 讓外部可以像是訪問本機一樣訪問分布式文件系統
-
有一個統一的 HDFS Master
-
它保存整個系統的文件信息
-
所有的文件元數據的修改都從 Master 開始
-
問題二: 大數據怎么計算?
從一個網絡日志文件中計算獨立 IP, 以及其出現的次數如果數據量特別大,我們可以將,整個任務拆開, 劃分為比較小的任務, 從而進行計算呢。
?
問題三: 如何將這些計算任務跑在集群中?
如果能夠在不同的節點上并行執行, 更有更大的提升, 如何把這些任務跑在集群中?
?
-
可以設置一個集群的管理者, 這個地方叫做 Yarn
-
這個集群管理者有一個 Master, 用于接收和分配任務
-
這個集群管理者有多個 Slave, 用于運行任務
-
-
-
?
-
Hadoop 的組成
-
Hadoop分布式文件系統(HDFS) 提供對應用程序數據的高吞吐量訪問的分布式文件系統
-
Hadoop Common 其他Hadoop模塊所需的Java庫和實用程序。這些庫提供文件系統和操作系統級抽象,并包含啟動Hadoop所需的必要Java文件和腳本
-
Hadoop MapReduce 基于YARN的大型數據集并行處理系統
-
Hadoop YARN 作業調度和集群資源管理的框架
總結
- 上一篇: spring5新特性的介绍
- 下一篇: Linux命令增强