BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略
BigData:大數據開發的簡介、核心知識(linux基礎+Java/Python編程語言+Hadoop{HDFS、HBase、Hive}+Docker)、經典場景應用之詳細攻略
BigData:大數據簡介及以Hadoop生態系統為基礎帶你了解大數據必須掌握的那些知識(HDFS、HBase、Hive、MongoDB,Spark等等)
導讀:最近幾天,有很多很多的網友留言都在咨詢——如何學習大數據開發,以及如何跟上大數據時代而不被拋棄。今天周末,博主花了一段時間,統一采用本文章,以Hadoop生態系統布局進行回答,歡迎網友留言提建議。
首先,大數定理告訴我們,在試驗不變的條件下,重復試驗多次,隨機事件的頻率近似于它概率?!坝幸幝傻碾S機事件”在大量重復出現的條件下,往往呈現幾乎必然的統計特性。
其次,大數據的主要價值——輔助決策。利用大數據分析,能夠總結經驗、發現規律、預測趨勢,這些都可以為輔助決策服務。只有掌握的數據信息越多,人類的決策才能更加科學、精確、合理。
?
?
目錄
大數據簡介
1、大數據的單位
2、大數據的5V特點——Volume、Velocity、Variety、Value、Veracity
3、大數據的價值體現
4、大數據與云計算密不可分
以Hadoop生態系統為基礎帶你了解大數據必須掌握的那些知識
大數據技術應用場景
1、經典應用場景
大數據核心技術
1、linux基礎
2、編程語言——Java、Python
3、分布式存儲框架——Hadoop生態系統+列式存儲數據庫HBase
4、資源調度框架——Docker
?
?
?
推薦文章
BigData之Hadoop:Hadoop的簡介、深入理解、下載、案例應用之詳細攻略
BigData之Hbase:Hbase數據管理的簡介、下載、案例應用之詳細攻略
BigData之Hive:Hive數據管理的簡介、下載、案例應用之詳細攻略
BigData之MongoDB:MongoDB基于分布式文件存儲數據庫的簡介、下載、案例應用之詳細攻略
BigData之Spark:Spark計算引擎的簡介、下載、經典案例之詳細攻略
BigData之Storm:Apache Storm的簡介、深入理解、下載、案例應用之詳細攻略
Docker:Docker的簡介、安裝、使用方法之詳細攻略
?
大數據簡介
? ? ? ? ? 大數據(big data),IT行業術語,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
- Gartner定義的大數據:“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。
- MGI麥肯錫全球研究所定義的大數據:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
?
1、大數據的單位
? ? ? ? ? 大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統。最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。它們按照進率1024(2的十次方)來計算:
- 1 Byte =8 bit
- 1 KB = 1,024 Bytes = 8192 bit
- 1 MB = 1,024 KB = 1,048,576 Bytes
- 1 GB = 1,024 MB = 1,048,576 KB
- 1 TB = 1,024 GB = 1,048,576 MB
- 1 PB = 1,024 TB = 1,048,576 GB
- 1 EB = 1,024 PB = 1,048,576 TB
- 1 ZB = 1,024 EB = 1,048,576 PB
- 1 YB = 1,024 ZB = 1,048,576 EB
- 1 BB = 1,024 YB = 1,048,576 ZB
- 1 NB = 1,024 BB = 1,048,576 YB
- 1 DB = 1,024 NB = 1,048,576 BB
?
2、大數據的5V特點——Volume、Velocity、Variety、Value、Veracity
? ? ? ? ? 在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而采用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
?
3、大數據的價值體現
? ? ? ? ?大數據的主要價值——輔助決策。利用大數據分析,能夠總結經驗、發現規律、預測趨勢,這些都可以為輔助決策服務。只有掌握的數據信息越多,人類的決策才能更加科學、精確、合理。從這個方面看,也可以說數據本身不產生價值,大數據必須和其他具體的領域、行業相結合,能夠給企業決策提供幫助之后,才具有價值。很多企業都可以借助大數據,提升管理、決策水平,提升經濟效益。
- (1)對大量消費者提供產品或服務的企業可以利用大數據進行精準營銷;
- (2)做小而美模式的中小微企業可以利用大數據做服務轉型;
- (3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
?
?
?
4、大數據與云計算密不可分
? ? ? ? ? 大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術。?
? ? ? ? ? 隨著云時代的來臨,大數據(Big data)也吸引了越來越多的關注。分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
?
?
?
以Hadoop生態系統為基礎帶你了解大數據必須掌握的那些知識
大數據技術應用場景
? ? ? ? ? ?大數據技術可以應用在各個領域,比如公安大數據、交通大數據、醫療大數據、就業大數據、環境大數據、圖像大數據、視頻大數據等等,應用范圍非常廣泛,大數據技術已經像空氣一樣滲透在生活的方方面面。大數據技術的出現將社會帶入了一個高速發展的時代,這不僅是信息技術的終極目標,也是人類社會發展管理智能化的核心技術驅動力。
?
1、經典應用場景
- (1)及時解析故障、問題和缺陷的根源,每年可能為企業節省數十億美元。
- (2)為成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。
- (3)分析所有SKU,以利潤最大化為目標來定價和清理庫存。
- (4)根據客戶的購買習慣,為其推送他可能感興趣的優惠信息。
- (5)從大量客戶中快速識別出金牌客戶。
- (6)使用點擊流分析和數據挖掘來規避欺詐行為。
?
?
大數據核心技術
1、linux基礎
? ? ? ? ?Linux是一種自由和開放源代碼的bai類duUnix操作系統,以Unix為原型改造的,一個多用戶多任務的操作系統,任何人都可以修改其代碼和頁面,主要的目的就是為了不收商業化的限制,服務器部署在linux系統上會更加高效穩定、安全。云計算、大數據的發展是基于開源軟件的平臺,Linux占據優勢, 大數據的分布式集群( Hadoop,Spark )都是搭建在多臺 Linux 系統上,對集群的執行命令都是在 Linux 終端窗口輸入的。
? ? ? ? ?在大數據體系中,基本都是開源軟件,這些開源軟件都是在開源的linux系統上運行的,所以,基本的linux操作一定要會,比如:
- 系統管理操作
- 基本的用戶管理
- 文件權限的操作
- 文件系統操作
- shell編程
推薦文章:Linux:Linux系統新手教程—linux系統使用攻略之常見操作、常用快捷鍵
?
2、編程語言——Java、Python
基礎需要Java語言,數據科學處理需要Python語言等等。
?
?
3、分布式存儲框架——Hadoop生態系統+列式存儲數據庫HBase
學習大數據,必須學習大數據核心知識Hadoop生態系統
- HDFS技術:
- HBase技術:
- Hive數據倉庫工具:
- Spark大數據離線分析:
- Sqoop使用流程
- 數據實時分析Storm
- 消息訂閱分發系統Kafka等
推薦文章:
BigData之Hadoop:Hadoop的簡介、深入理解、下載、案例應用之詳細攻略
BigData之Hbase:Hbase數據管理的簡介、下載、案例應用之詳細攻略
BigData之Hive:Hive數據管理的簡介、下載、案例應用之詳細攻略
BigData之MongoDB:MongoDB基于分布式文件存儲數據庫的簡介、下載、案例應用之詳細攻略
BigData之Spark:Spark計算引擎的簡介、下載、經典案例之詳細攻略
?
?
4、資源調度框架——Docker
? ? ? ? ? Docker可是整整火了最近一兩年。各個公司都在發力基于Docker的容器解決方案,最有名的開源容器調度框架就是K8S了,但同樣著名的還有Hadoop的YARN和Apache Mesos。
推薦文章:Docker:Docker的簡介、安裝、使用方法之詳細攻略
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的BigData:大数据开发的简介、核心知识(linux基础+Java/Python编程语言+Hadoop{HDFS、HBase、Hive}+Docker)、经典场景应用之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Py之scikiti -survival
- 下一篇: Database:Database数据库