大数据之旅--Hadoop的发展史
一、 大數據概念:
大數據(Big Data):指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據主要解決:海量數據的采集、存儲和分析計算問題。
數據存儲單位(按從小到大的順序):bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
二、 大數據特點(4V):
1.Volume(大量): 很多大企業的數據量達到EB量級。
2.Velocity(高速): 大數據區分于傳統數據挖掘的最顯著特征。根據IDC的“數字宇宙”的報告,預計到2025年,全球數據使用量將達到163ZB。在海量的數據面前,處理數據的效率對于企業來說就很重要了。
eg:天貓雙十一:2020年96s,天貓交易額超過100億。
3.Variety(多樣): 這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以數據庫/文本為主的機構化數據,非結構化數據越來越多,包括網絡日志、音頻、
視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
4.Value(低價值密度): 價值密度的高低與數據總量的大小成反比。
三、Hadoop
1. Hadoop是什么?
1.Hadoop是一個由Apache基金會所開發的分布式系統基礎架構;
2.主要解決:海量數據的存儲和海量數據的分析計算問題;
3.廣義上來說,Hadoop通常是指一個更廣泛的概念—Hadoop生態圈。
2. Hadoop發展史
1.Hadoop創始人Doug Cutting,為了實現與Google類似的全文搜索功能,他在Lucene框架基礎上進行優化升級,查詢引擎和搜索引擎。
2.2001年年底Lucene成為Apache基金會的一個子項目;
3.對于海量數據的場景,Lucene框架面對與Google同樣的困難,存儲海量數據困難,檢索海量數據速度慢;
4.學習和模仿Google解決這些問題的辦法:微型版Nutch;
5.可以說Google是Hadoop的思想之源(Google在大數據方面的三篇論文):GFS—>HDFS; MapReduce—>MR; BigTable—>HBase;
6.2003-2004年,Google公開了部分GFS和MapReduce思想的細節,以此為基礎Goug Cutting等人用2年業余時間實現了DFS和MapReduce機制,使Nutch性能飆升;
7.2005年Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會;
8.2006年3月,MapReduce和Nutch Distributed File System(NDFS)分別被納入到Hadoop項目中,Hadoop就此正式誕生,標志著大數據時代來臨。
9.名字來源于Doug Cutting兒子的玩具大象。
總結
以上是生活随笔為你收集整理的大数据之旅--Hadoop的发展史的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SQL Server 日志传送[转载]
- 下一篇: CCS5连接调试C64X系列DSP核