Hadoop怎么了,大数据路在何方?
生活随笔
收集整理的這篇文章主要介紹了
Hadoop怎么了,大数据路在何方?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
導讀:近期Hadoop消息不斷,眾說紛紜。本文以Hadoop的盛衰變化為楔子聊下大數據分析的發展現狀和未來趨勢。
作者:姚延棟來源:數字化三部曲(ID:digitxcn)00 15秒鐘簡縮版Hadoop:- Hadoop 棧過于復雜,組件眾多,集成困難,玩轉代價過高
- Hadoop 創新速度不夠(或者說起點過低),且缺乏統一的理念和管控,使得其眾多組件之間的集成非常復雜
- 受到Cloud技術的沖擊,特別是類S3對象存儲提供了比HDFS更廉價、更易用、更可伸縮的存儲,撬動了Hadoop的根基HDFS
- 對 Hadoop 期望過高,Hadoop發跡于廉價存儲和批處理,而人們期望Hadoop搞定大數據所有問題,期望不匹配造成滿意度很低
- 人才昂貴,且人才匱乏
- Hadoop還有沒有前途?Hadoop發展歷史和未來方向解讀
- Hadoop 氣數已盡:逃離復雜性,擁抱云計算
- 超越云計算:對數據庫管理系統未來的思考
- Big Data Is Still Hard. Here’s Why
- Big Data Will Get By (but>Cloudera and Hortonworks merger means Hadoop’s influence is declining
- From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation
- Hadoop is Dead. Long live Hadoop (中文翻譯:Hadoop已死,Hadoop萬歲)
- Hadoop Has Failed Us, Tech Experts Say
- Hadoop Past, Present, and Future
- Hadoop: Past, present and future(又一個)
- Hadoop runs out of gas
- Hadoop Struggles and BI Deals: What’s Going On?
- Hitting the Reset Button>Is Hadoop officially dead
- Mike Olson>More turbulence is coming to the big-data analytics market in 2019
- Object and Scale-Out File Systems Fill Hadoop Storage Void
- The Decline of HADOOP and Ushering An Era of Cloud
- The elephant’s dilemma: What does the future of databases really look like?
- The Future of Database Management Systems is Cloud!
- The history of Hadoop
- Why is Hadoop dying?
然而這并不意味著 Hadoop 會消失,經過十多年的發展,現在全球部署有很多 Hadoop 集群,這些遺留資產及其衍生需求會持續相當一段時間。Hadoop 的根基 HDFS 受到對象存儲挑戰,在公有云上已經敗下陣來,在企業內部暫時會保住守勢,然而隨著云廠商進入企業級市場,很快也會面臨極大挑戰。Hadoop 也在向對象存儲發展,將來或許有望成為多種對象存儲解決方案中的一個候選項,然而可以肯定的是Hadoop不再是討論的中心。
HortonWorks 聯合創始人、CPO,現任Cloudera CPO Arun C Murthy于2019年9月10日發文表示:The old way of thinking about Hadoop is dead — done, and dusted. Hadoop as a philosophy to drive an ever-evolving ecosystem of open source technologies and open data standards that empower people to turn data into insights is alive and enduring.?譯文:你所認為的傳統的Hadoop已經死了,確實如此。但Hadoop作為一門哲學,推動不斷發展的開源技術生態系統和開放數據標準,使人們能夠將數據轉化為洞察力,這門哲學是充滿活力和持久的。——Arun C Murthy“形而上者謂之道,形而下者謂之器”。無器以為載體,則坐而論道。02 Hadoop 市場是數據倉庫市場,然而在這個市場里目前并不占優勢首先捋一下Hadoop 幾個主要組件的發展脈絡。
- Apache Nutch是Hadoop一哥Doug Cutting 寫的開源網頁爬蟲。為了存儲海量網頁,Nutch需要一個分布式存儲層。受Google GFS論文的啟發,Doug 設計了一個開源GFS實現,成為后來的 HDFS。相比于當時昂貴的磁盤陣列和SAN,HDFS提供了廉價、高可靠且可擴展的存儲;
- 分布式存儲層解決后,Nutch需要能適應分布式環境的并行計算模型。受Google MapReduce 論文的啟發,Doug 設計了開源版的MapReduce。HDFS和MapReduce解決了大數據的存儲和計算問題,受到當時受困于大數據問題的大型互聯網公司的追捧,很快 Hadoop 吸引了大量的開發者,成為 Apache 頂級項目;
- Hadoop解決了有無問題。很快人們發現MapReduce復雜度很高,即使技術實力強大如Facebook都很難寫出高效正確的MapReduce程序。此外除了解決批處理問題,人們需要Hadoop能解決其遇到的交互式查詢任務。為此,Facebook 開發了Hive,該項目快速流行起來,到現在還有很多用戶。Facebook當時更是高達95%的用戶使用Hive而不是裸寫MapReduce程序。
- 由于Hadoop 不是為交互式處理而設計,Hive 效率低,并發度也低。此外Hive不支持標準SQL,使得和其他產品的集成困難重重。為此Cloudera開發了Impala。Impala 實際上是一款分布式 MPP(大規模并行處理) 數據庫。
從市場角度也印證了這一說法:Cloudera 官方表示其收入的75%來自于 SQL產品。最近(2019年9月4日)Cloudera宣布收購AI驅動的云原生BI廠商Arcadia Data,印證了Hadoop市場領頭羊Cloudera發力的發展方向。上文中提到的Cloudera CPO也公開指出:For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company.03 大數據分析市場當前是 SQL 市場大數據分析包括兩個層面,第一個層面是基本分析,第二個層面是高級分析。基本分析層面涉及的主要應用和場景為 BI、交互查詢、可視化等場景。這些場景使用的主流核心技術是 SQL,BI等產品的基本玩法是 SQL+圖形用戶界面(UI)。和此相關的主要SQL特性是分組(group by)和聚集(aggregation)、窗口(window)函數、數據立方格(Cube)等。這些SQL功能背后的主要計算基本都是小學數學中的加減乘除,看起來高大上的“大數據分析”大都是些小學數學的東西,當然對海量數據進行這些分組加減乘除且保證ACID特性是很有挑戰性的。諸如 Greenplum、Vertica 之類的分布式MPP 數據庫已經很好的解決了這些問題。高級分析層面涉及到諸如機器學習、模式識別、AI等復雜算法的采用。目前這一層面有下沉到數據庫內部的趨勢。Apache MADLib 是最早引領這一趨勢的成熟商業產品。2017年谷歌發布了BigQuery ML亦是基于SQL的高級分析方案。對此感興趣的請參見數據庫內建分析介紹一文。從大數據分析的兩個層面來看,其核心均為 SQL。注:對更多這方面信息感興趣,以及對數據處理平臺演進歷史和其原動力感興趣的朋友,可參考Greenplum中文社區資料下載頁面的《2.數據處理平臺之演進》和《3.大數據≈分布式數據庫》。04 高級數據分析之難點不在分析而在數據本身如果你有足夠多整潔的數據,那么高級數據分析對你而言不是問題。這里“足夠多”不一定意味著PB級海量數據,僅指可以滿足需求的數據量,不同場景需求不同,從MB到GB到PB級不等。高級數據分析不一定需要大數據,現在還廣為使用的商業分析產品如SAS、SPSS都是單節點的,可處理數據量大不到那里去。大量的研究也證明,即使所用算法不變,數據量越大,模型的精度也會更好,結果準確度也越好。因而盡量使用更多數據,使用全量數據而不是抽樣成為提升精度的首要手段。“整潔”意味著數據是標準的、準確的。然而現實卻遠非如此。不準確的數據會造成高級分析結果的嚴重偏差。數據工程師和數據科學家面臨著數據發現、數據集成和數據清洗等大量復雜問題。為了解決這些問題,數據科學家需要花費大量時間去整理數據而不是分析數據。大量報道表明,數據科學家花費至少70%以上的時間進行數據發現、集成和清洗工作。iRobot上一位數據科學家甚至表示:“我90%的時間用于發現和清洗數據,剩余10%時間中的90%用于糾正清洗過程中的錯誤”。這或許有些夸張,然而數據庫科學家的主要工作內容可見一斑。如何提高數據工作者這方面的效率是目前國內外非常活躍的投資領域。05 總結綜上,作為第一代大數據方案的Hadoop巔峰已過,大數據進入第二代:分布式數據庫。分布式數據庫特別是 MPP 數據庫已經很好的解決了大數據基本分析層面的問題,未來持續向著更易用更快的方向發展。
高級數據分析向著下沉到數據庫內部的方向發展。高級數據分析層面的難點不在分析,而在于數據本身的數量和質量。期待這一方面有更多創新涌現。關于作者:姚延棟,山東大學本科,中科院軟件所研究生,Greenplum 研發總監。PostgreSQL中文社區委員,Greenplum 中文社區發起人。致力于Greenplum/PostgreSQL開源數據庫產品、社區和生態的發展。
延伸閱讀《Greenplum:從大數據戰略到實現》
推薦語:本書由Greenplum核心研發團隊精心編寫,融入了團隊十余年來對云計算、大數據和人工智能驅動的企業數字化轉型、先進技術發展趨勢以及產品研發的深刻思考,對Greenplum這款快速成長的開源大數據平臺進行了全方位深度解讀,無論是企業決策者,還是大數據相關的技術人員,都能從本書中獲益。有話要說?Q:Hadoop還有前途嗎?歡迎留言與大家分享猜你想看?轉載 / 投稿請聯系:baiyu@hzbook.com更多精彩,請在后臺點擊“歷史文章”查看點擊閱讀原文,了解更多
總結
以上是生活随笔為你收集整理的Hadoop怎么了,大数据路在何方?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国AI人才缺口500万,10本硬核技术
- 下一篇: 一文读懂人工智能的前世今生(建议收藏)