Hadoop发行版的比较与选择
2019獨角獸企業重金招聘Python工程師標準>>>
?
Hadoop的發行版除了社區的Apache Hadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,華為等都提供了自己的商業版本。商業版主要是提供了專業的技術支持,這對一些大型企業尤其重要。每個發行版都有自己的一些特點,本文就各個發行版做簡單介紹。
?
2008?年成立的?Cloudera??是最早將?Hadoop?商用的公司,為合作伙伴提供?Hadoop?的商用解決方案,主要是包括支持,咨詢服務,培訓。2009年Hadoop的創始人?Doug Cutting也加盟?Cloudera公司。Cloudera?產品主要為CDH,Cloudera??Manager,Cloudera??Support。CDH是Cloudera的Hadoop發行版,完全開源,比Apache Hadoop在兼容性,安全性,穩定性上有所增強。Cloudera??Manager是集群的軟件分發及管理監控平臺,可以在幾個小時內部署好一個Hadoop集群,并對集群的節點及服務進行實時監控。Cloudera??Support即是對Hadoop的技術支持。Cloudera?的標價為每年每個節點4000美元。Cloudera開發并貢獻了可實時處理大數據的Impala項目。
?
2011年成立的Hortonworks是雅虎與硅谷風投公司Benchmark Capital合資組建的公司。公司成立之初就吸納了大約25名至30名專門研究Hadoop的雅虎工程師,上述工程師均在2005年開始協助雅虎開發Hadoop,這些工程師貢獻了Hadoop 80%的代碼。雅虎工程副總裁、雅虎Hadoop開發團隊負責人Eric Baldeschwieler出任Hortonworks的首席執行官。Hortonworks?的主打產品是Hortonworks Data Platform (HDP),也同樣是100%開源的產品,HDP除了常見的項目外還包含了Ambari,一款開源的安裝和管理系統。HCatalog,一個元數據管理系統,HCatalog現已集成到Facebook?開源的Hive中。Hortonworks的Stinger開創性地極大地優化了Hive項目。Hortonworks為入門提供了一個非常好的,易于使用的沙盒。Hortonworks開發了很多增強特性并提交至核心主干,這使得Apache Hadoop能夠在包括Windows Server和Windows Azure在內的Microsoft Windows平臺上本地運行。定價以集群為基礎,每10個節點每年為12500美元。
?
2009年成立的MapR公司在Hadoop領域顯得有點特立獨行,它提供了一款獨特的發行版 。Hadoop在性能(在Hadoop1.X及其之前的設計中,所有的meta data操作都要通過集中式的NameNode來進行,NameNode有可能是性能的瓶頸;M/R?應用程序需要通過NameNode來訪問HDFS,?這就涉及到額外的進程切換和網絡傳輸開銷),可用性與擴展性(NameNode,JobTracker單點問題),企業級應用上的弱點(比如完全可讀寫的文件系統,snapshot,mirror等等)各大廠商均知,MapR則認為,Hadoop的這些缺陷來自于其架構設計本身,小修小補不能解決問題。他們選擇了一條艱難得多的路: 用新架構重寫HDFS,同時在API級別,和目前的Hadoop?發行版保持兼容。這家2009年成立的創業公司,在蟄伏了兩年之后,終于一鳴驚人,大放異彩。他們成功實現了“構建一個HDFS的私有替代品,這個替代品比當前的開源版本快三倍,自帶快照功能,而且支持無NameNode單點故障(SPOF),并且在API上和開源版兼容,所以可以考慮將其作為替代方案”。MapR版本不再需要單獨的NameNode機器,元數據分散在集群中,也類似數據默認存儲三份,正如OpenStack對象存儲系統Swift的設計。也不再需要用網絡附加存儲(NAS)來協助NameNode做元數據備份,提高了機器使用率。還有個重要的特點是可以使用nfs直接訪問hdfs,提供了與舊有應用的兼容性。鏡像功能也很適合做數據備份,而且支持跨數據中心的鏡像,快照功能對于數據的恢復作用明顯。MapR還領導著Apache Drill項目,該項目是Google Dremel的開源實現,目的是在Hadoop上執行類似SQL的交互實時查詢。MapR有免費和商業兩個版本,免費版本在功能上有所縮減。據報道MapR標價也為每年每個節點4000美元。
?
EMC的Pivotal??HD除了所有Apache Hadoop發行版都必不可少的管理工具之外,它還提供了一個高效的數據裝載器,另外還有一個Hadoop虛擬機,重頭戲是HAWQ。HAWG是一個構建在HDFS上的通過SQL進行數據分析的方案,即構建在HDFS上的MPP DB。相比Hive、PIG等其他SQL解釋器,它有完備的DBMS管理功能,支持標準SQL語法,在性能上更加接近原有DB。如果之前使用了Greenplum數據庫,那么Pivotal HD就是一個完美的選擇。
?
IBM推出了InfoSphere BigInsights大數據平臺,由許多開源技術如?Apache Hadoop、Pig、Hive、Hbase、Flume等以及許多?IBM?技術如針對IBM的DB2數據庫的連接件以及BigSheets等組成。BigSheets是一種基于瀏覽器的、使用電子表格隱喻(spreadsheet-metaphor)的界面,用于探究和分析Hadoop里面的數據。IBM在平臺管理,安全認證,作業調度算法,與DB2及netezza的集成上做了增強。從IBM中國開發中心信息管理總經理朱輝下面這句話就可以看出IBM對于BigInsights的定位:BigInsights并沒有替代OLAP(Online Analytical Processing)或OLTP(Online Transaction Processing)應用程序,但它可以整合其中,用于“過濾大量原始數據并合并結果,將結果以結構化數據的形式保存在DBMS或數據倉庫中”。
?
傳統的硬件廠商,Intel,華為也提供了Hadoop發行版。
?
Intel的商業版本,主要是強調其能提供全面的軟硬件解決方案設計,針對硬件具有更好的性能優化,以及提供集群管理工具和安裝工具簡化了?Hadoop?的安裝和配置,能夠提供項目規劃到實施各階段專業的咨詢服務,實際中采購Intel版本貌似動力不足。
?
華為在硬件上具有天然的優勢,在網絡,虛擬化,PC機等都有很強的硬件實力。華為的FusionInsight Hadoop版本基于Apache Hadoop,構建NameNode、JobTracker、HiveServer的HA功能,進程故障后系統自動Failover,無需人工干預,這個也是對Hadoop的小修補,遠不如MapR解決的徹底。華為在Hadoop社區中的Contributor和Committer也是國內最多的,算是國內技術實力較強的公司。
?
Microsoft和Hortonworks相互合作,特別是合作將Apache Hadoop引入到Windows Server操作系統和Windows Azure云服務中。
?
Oracle通過將自己的軟硬件與Cloudera的Apache Hadoop發行版本結合到一起,提供一個大數據應用產品。而像SAP、Talend這樣的軟件提供商則同時支持幾個不同的發行版本。
?
轉載于:https://my.oschina.net/apdplat/blog/397625
總結
以上是生活随笔為你收集整理的Hadoop发行版的比较与选择的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Executors浅析
- 下一篇: Java知多少(18)类的定义及其实例化