第一章-大数据概述
第一章-大數據概述
文章目錄
- 第一章-大數據概述
- 大數據時代
- 大數據概念、影響、應用
- 大數據關鍵技術
- 大數據計算模式
- 大數據與云計算、物聯網的關系
本系列博客的材料均來自廈門大學林子雨老師的教材和MOOC資料。
大數據時代
根據IBM前首席執行官 Louis Gerstner 的觀點, IT領域每隔十五年就會迎來一次重大變革。
| 第一次浪潮 | 1980年前后 | 個人計算機 | 信息處理 | Intel、IBM、蘋果、微軟、聯想等 |
| 第二次浪潮 | 1995年前后 | 互聯網 | 信息傳輸 | 雅虎、谷歌、阿里巴巴、百度、騰訊等 |
| 第三次浪潮 | 2010年前后 | 物聯網、云計算和大數據 | 信息爆炸 | 將涌現出一批新的市 場標桿企業 |
信息科技為大數據時代提供技術支撐:
- 存儲設備容量不斷增加
- CPU處理能力大幅提升
- 網絡帶寬不斷增加
數據產生方式的變革促成大數據時代的來臨:
- 運營式系統階段
- 數據的產生方式是被動的,只有當實際的企業業務發生時,才會產生新的記錄并存入數據庫
- 用戶原創內容階段
- Web2.0和智能手機的出現,強調自服務,大量上網用戶本身就是內容的生成者
- 感知式系統階段
- 物聯網的自動數據產生方式,將在短時間內生成更密集、更大量的數據
大數據的發展歷程:
| 萌芽期 | 1990-2000 | 數據挖掘理論和數據庫技術的逐步成熟,“數據倉庫”等一批商業智能工具和知識管理技術開始被應用 |
| 成熟期 | 2000-2010 | Web2.0應用迅猛發展,非結構化數據大量產生,大數據解決方案逐漸走向成熟,形成了并行計算與分布式系統兩大核心技術 |
| 大規模應用期 | 2010年以后 | 大數據應用滲透各行各業,數據驅動決策, 信息社會智能化程度大幅提高 |
大數據概念、影響、應用
大數據的4V特征:
- 數據量大(Volume)
- 大數據摩爾定律:數據一直都在以每年50%的速度增長,也就是說每兩年就增長一倍
- 數據類型繁多(Variety)
- 大數據是由結構化和非結構化數據組成的。10%的結構化數據,存儲在數據庫中;90%的非結構化數據,它們與人類信息密切相關
- 處理速度快(Velocity)
- 從數據的生成到消耗,時間窗口非常小,可用于生成決策的時間非常少
- 價值密度低 (Value)
- 大數據雖然擁有海量的信息,但是真正可用的數據可能只有很小一部分
大數據的四種范式:
- 實驗科學:采用實驗的方式來解決一些科學問題
- 理論科學:采用數學、幾何、物理等理論,構建問題模型和解決方案
- 計算科學:借助于計算機的高速運算能力來解決各種問題
- 數據密集型科學:一切將以數據為中心,從數據中發現問題、解決問題,真正體現數據的價值
大數據對思維方式的影響:
- 全樣而非抽樣
- 有了大數據技術的支持,科學分析完全可以直接針對全集數據而不是抽樣數據
- 效率而非精確
- 大數據時代采用全樣分析而不是抽樣分析,不存在誤差被放大的問題,效率成為關注的核心
- 相關而非因果
- 大數據時代,因果關系不再那么重要,轉而追求“相關性”,告訴你關聯什么而不告訴你為什么
大數據無處不在,包括金融、汽車、零售、餐飲、 電信、能源、政務、醫療、體育、娛樂等在內的 社會各行各業都已經融入了大數據的印跡。
在社會發展方面,大數據決策逐漸成為一種新的決策方式,大數據應用有力促進了信息技術與各行業的深度融合,大數據開發大大推動了新技術和新應用的不斷涌現
在就業市場方面,大數據的興起使得數據科學家成為熱門職業。隨著數據科學家給企業帶來的商業價值的日益體現,市場對數據科學家的需求會越發旺盛。
在人才培養方面,大數據的興起,將在很大程度上改變中國高校信息技術相關專業的現有教學和科研體制。目前,國內的數據科學家不是高校培養的,而主要是在企業實際應用環境中通過邊工作邊學習的方式成長起來的。互聯網領域集中了大部分的數據科學家人才。
大數據關鍵技術
大數據技術層次:
| 數據采集 | 利用 ETL工具將分布的、異構數據源中的數據抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。或者把實時采集的數據作為流計算系統的輸入,進行實時處理分析 |
| 數據存儲與管理 | 利用分布式文件系統、數據倉庫、關系數據庫、NoSQL數據庫、云數據庫等,實現對結構化、半結構化和非結構化海量數據的存儲和管理 |
| 數據處理與分析 | 利用分布式并行編程模型和計算框架,結合機器學習和數據挖掘算法,實現對海量數據的處理和分析;對分析結果進行可視化呈現,幫助人們更好地理解數據、分析數據 |
| 數據隱私與安全 | 在從大數據中挖掘潛在的巨大商業價值和學術價值的同時,構建隱私數據保護體系和數據安全體系,有效保護個人隱私和數據安全 |
大數據兩大核心技術:
- 分布式存儲(解決海量數據的存儲問題)
- 分布式處理(解決海量數據的處理問題)
大數據計算模式
不同的計算模式需要使用不同的產品,企業中不同的應用場景屬于不同的計算模式,需要使用不同的大數據技術。
典型的計算模式:
| 批處理計算 | 針對大規模數據的批量處理 | MapReduce、Spark等 |
| 流計算 | 針對流數據的實時計算 | Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河流數據處理平臺等 |
| 圖計算 | 針對大規模圖結構數據的處理 | Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等 |
| 查詢分析計算 | 大規模數據的存儲管理和查詢分析 | Dremel、Hive、Cassandra、Impala等 |
大數據與云計算、物聯網的關系
云計算是通過網絡以服務的方式為用戶提供可伸縮的、廉價的分布式計算能力,用戶只需要在具備網絡接入條件的地方,就可以隨時隨地獲得所需的各種IT資源。
云計算的典型特征:
- 虛擬化
- 多租戶
云計算的服務模式和類型:
數據中心是云計算的重要載體,為云計算提供計算、存儲、帶寬等各種硬件資源,為各種平臺和應用提供運行支撐環境。數據中心是一整套復雜的設施,包括大量的刀片服務器、寬帶網絡連接、環境控制設備、監控設備以及各種安全裝置等 。
物聯網(IoT: Internet of Things):物物相連的互聯網,它利用局部網絡或互聯網等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯在一起,形成人與物、物與物相聯,實現信息化和遠程管理控制。
從技術架構上來看,物聯網可分為四層
| 感知層 | 如果把物聯網比喻為一個人體,感知層就相當于人的神經末梢,采集來自物理世界的各種信息。感知層包含了大量的傳感器,如溫度傳感器、重力傳感器、攝像頭、GPS設備等 |
| 網絡層 | 相當于人體的神經中樞,起到信息傳輸的作用。網絡層包含各種類型的網絡,如互聯網、衛星通信網絡等 |
| 處理層 | 相當于人體的大腦,起到存儲和處理的作用。處理層包括數據存儲、管理和分析平臺 |
| 應用層 | 直接面向用戶,滿足各種應用需求。例如智慧交通、智慧農業、智慧醫療等 |
物聯網中的關鍵技術:
- 識別和感知技術(二維碼、RFID、傳感器等)
- 網絡與通信技術
- 數據挖掘與融合技術
物聯網應用:
云計算、大數據和物聯網代表了IT領域最新的技術發展趨勢,三者相輔相成,有著密不可分的關聯。
總結
- 上一篇: 简单的HDFS操作
- 下一篇: 简单的MapReduce实践