Hadoop三大核心组件及需求催生大数据技术的背景
Spark是基于內存處理的,所以比基于磁盤處理的Hadoop要快。Hadoop是離線處理的,也就是 先要將數據收集過來,然后基于數據進行處理。Flume是數據采集,可以理解成是一個爬蟲框架,把數據比如日志等爬取過來。Hbase是存儲數據的,就類似于傳統關系型數據庫。Hive sql就類似于sql語句。
Storm是實時流式計算的頭牌。
Spark是一站式處理,什么都能做。
一個最基本的概念就是:Hadoop采用分布式集群的方式來處理海量的數據。
HDFS負責分布式分布式文件系統。提供存儲服務。File System.
MapReduce是Hadoop的第二大核心組件,是分布式運算框架。一個存儲,一個運算。
導入jar包調用API編寫程序。storm和Spark都可以替代MapReduce。
Yarn是Hadoop的第三大核心組件。編寫完成的Hadoop大數據程序,并不是通過java -jar的方式直接運行就可以的。而是需要Hadoop特定的運行平臺,而Yarn就是這么一個運行平臺。
使用Hadoop我們可以將Hadoop類比成一個類似于Spring/Mybatis等的編程框架。也可以把它當作一個Redis或Solr一樣的服務。
Google在2009年就提出了大數據的概念,后面就演化成了Hadoop的生態體系。
Nutch爬蟲+Lucene索引,不就等于Google嗎?
硬件配置再高,也有一個上限,也就是數據量很大的時候,單機的處理能力總有一個極限,也無法勝任。所以需要配置集群。
隨著數據量的增加,jvm遲早會內存溢出:
既然單機解決不了這個問題,那么就用分布式集群來解決吧,但是分布式環境下又增加了復雜性,各位看官請看:
Hadoop也就是為了解決這些麻煩問題而生,天生支持分布式。
總結
以上是生活随笔為你收集整理的Hadoop三大核心组件及需求催生大数据技术的背景的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 支付宝开发中return_url和not
- 下一篇: Vmware虚拟机网络及IP配置