當前位置：首頁 > 人文社科 > 生活经验 >内容正文

生活经验

女友问粉丝过万如何庆祝，我发万字长文《保姆级大数据入门篇》感恩粉丝们支持，学姐|学妹|学弟|小白看了就懂

發布時間：2023/11/28 生活经验 27 豆豆

生活随笔收集整理的這篇文章主要介紹了女友问粉丝过万如何庆祝，我发万字长文《保姆级大数据入门篇》感恩粉丝们支持，学姐|学妹|学弟|小白看了就懂小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

2021大數據領域優質創作博客，帶你從入門到精通，該博客每天更新，逐漸完善大數據各個知識體系的文章，幫助大家更高效學習。?

有對大數據感興趣的可以關注微信公眾號：三幫大數據??

粉絲破萬了?

新星計劃申請時粉絲數

新星內卷搶熱榜之旅

運營整頓新星執行新規

重整旗鼓輸出內容為王

女友問粉絲過萬如何慶祝

保姆級大數據入門篇

一、學習重點劃定

二、Java和大數據關系

三、云計算

1、云計算初心

2、云計算本質 ?

3、云計算分類

4、常見公有云

5、云計算企業-國際

6、云計算公司-國際

7、云計算企業-國內

四、大數據和云計算的關系

1、大數據擁抱云計算

五、人工智能AI

六、大數據和AI的關系

七、傳統業務處理和大數據分析處理

1、場景分析

2、OLTP、OLAP

3、OLTP、OLAP區別

4、OLTP系統

5、OLAP系統

6、思考一個問題

7、OLTP和OLAP關系

八、大數據時代對數據存儲的挑戰?

1、當前數據存儲新要求:

2、NoSQL（Not Only SQL）

3、NoSQL和RDBMS區別

4、關系型數據庫尚能飯否？

九、分布式系統

1、分布式存儲

2、分布式計算

十、集群系統

1、集群

2、集群和分布式區別

十一、大數據計算引擎

1、第一代計算引擎

2、第二代計算引擎

3、第三代計算引擎

4、第四代計算引擎

十二、大數據流式計算

1、流式計算-概念

2、流式計算-應用場景

3、流式計算-發展

4、流式計算-sparkstreaming

5、流式計算-storm

6、流式計算-storm-美團點評基于Storm

7、流式計算-storm小結

8、Storm VS Flink

9、流式計算-Flink

10、流式計算-Flink在快手的應用

十三、程序員要突破的瓶頸

1、選擇瓶頸?

2、?技術瓶頸

3、薪資瓶頸

4、學習瓶頸

5、職業發展瓶頸?

粉絲破萬了?

5月14日報名參加新星計劃至今已經有一個多月，現在迎來歷史性的時刻，粉絲超過1萬

新星計劃申請時粉絲數

剛申請的原力計劃時候，就被運營姐姐說粉絲數只有240粉絲數審核駁回；CSDN的個人博客的發展離不開扶持活動，這我只能參加當時有導師帶領我們寫作的新星計劃，那時也就只有240粉；一天也就增長1粉的速度，2000粉的目標是何等困難

新星內卷搶熱榜之旅

進入活動后我們就每天開始原創文章，在導師的帶領下攻占CSDN熱榜排名，每天相互一鍵關連扶持隊友，隊伍越來越多強大，評論也開始進行刷評，粉絲猛漲，不到一個月時間粉絲就達到5000多，終于可以達到申請認證標準

運營整頓新星執行新規

美好的日子都是短暫的，這一切都在運營掌控中，很快群通告出來，不能互相一鍵三連，不得刷評論了，而且刷評論達到頂峰的我處罰了，直接減去30000積分，賬號凍結3天處罰，周排名直接降為0，當天的熱榜文章也直接拉下來，可謂一波三折，痛失三天漲粉良機。

處罰前積分

處罰后積分

賬號凍結

重整旗鼓輸出內容為王

不管過程多么曲折，還是回歸初心，分享好的博文，輸出高質量的文章給廣大粉絲才是正道，很快權重被恢復，周榜排名也重新回前20名

女友問粉絲過萬如何慶祝

我會寫一篇萬字以上的博文《保姆級大數據入門篇》感恩1萬多名的粉絲支持

保姆級大數據入門篇

一、學習重點劃定

大數據主要側重數據處理和分析，我們只是使用Java來調用相關大數據框架的API

大數據中的數據分析，大部分都是通過SQL完成的，SQL需要重點掌握

大數據需要掌握Java的知識點: ?

Java基礎語法，面向對象，字符串，異常，集合，IO，線程、數據庫、JDBC，Maven

使用Java的大數據框架：

使用SQL的大數據框架：

二、Java和大數據關系

Java語言是目前最為廣泛使用的編程語言，功能強大而且簡單易用。
Hadoop 的創始人 Doug Cutting 曾說過：“ Java 在開發者的生產率和運行效率之間取得很好的權衡。開發者可以使用廣泛存在的高質量類庫，切身受益于這種簡潔、功能強大、類型安全的語言。
沒有 Hadoop 就不存在大數據，沒有 Java 就沒有 Hadoop。
大數據的很多框架都是用Java語言編寫的很多大數據框架都提供了Java相關的API

三、云計算

1、云計算初心

云計算最初的目標是對資源的管理，管理的主要是計算資源、網絡資源、存儲資源三個方面。

2、云計算本質 ?

資源到架構的全面彈性

可以把云計算當作一種商業計算模型，它是將計算的任務發布在大量的計算機的資源池里，讓用戶可以根據所需求來獲取計算力、存儲的空間以及信息上的服務。
"云"是可以進行自我維護和管理的虛擬化的計算資源，一般都是大型的服務器集群 ? 一起，包括計算服務器、存儲服務和其他的寬帶資源。
所謂云計算就是將資源池里的數據集中起來，并通過自動管理實現了無人參與，讓用戶在使用的時候可以自動調用資源，支持各種各樣的程序進行運轉，不再為細節而煩惱，可以專心于自己的 ? 業務。云計算的核心理念就是在資源池里進行運算。?

3、云計算分類

公有云

公有云是現在最主流也就是最受歡迎的云計算模式。公有云由云供應商運行，云供應商負責從應用程序、軟件運行環境到物理基礎設施等IT資源的管理、部署和維護。在使用IT資源時，用戶只需為其所使用的資源付費，無需任何前期投入，所以非常經濟。

私有云

私有云主要為企業內部提供云服務，不對公眾開放，并且企業IT人員能對其數據、安全性和服務質量進行有效地控制。與傳統的企業數據中心相比，私有云可以支持動態靈活的基礎設施，降低IT架構的復雜度，使各種IT資源得以整合。

混合云

混合云是把公有云和私有云結合到一起的方式，即它是讓用戶在私有云的私密性和公有云靈活的低廉之間做一定權衡的模式。比如，企業可以將非關鍵的應用部署到公有云上來降低成本，而將安全性要求很高、非常關鍵的核心應用部署到完全私密的私有云上。

4、常見公有云

5、云計算企業-國際

6、云計算公司-國際

AWS 全稱Amazon web service(亞馬遜網絡服務)，是亞馬遜公司旗下云計算服務平臺，為全世界各個國家和地區的客戶提供一整套基礎設施和云解決方案。

作為稱雄全球云服務市場的亞馬遜來說，長期以來在云服務市場獨領風騷，是全球規模最大的云廠商。AWS云服務營收規模繼2020年第一季度突破百億美元大關后，第二季度繼續保持穩健增長。2020年第二季度來自AWS營收規模達到108億美元（約745億元人民幣）。

Microsoft Azure是微軟基于云計算的操作系統，原名“Windows Azure”，和Azure Services Platform一樣，是微軟“軟件和服務”技術的名稱。Microsoft Azure的主要目標是為開發者提供一個平臺，幫助開發可運行在云服務器、數據中心、Web和PC上的應用程序。云計算的開發者能使用微軟全球數據中心的儲存、計算能力和網絡基礎服務

2019年2月12日，在舊金山舉行的高盛技術與互聯網大會上，Google Cloud CEO Thomas Kurian 首次公開露面，表示Google Cloud正在追趕行業領導者AWS和微軟，將招聘更多行業優秀人才加入團隊中。

報告認為，從2019年到2022年，Google Cloud的收入將以每年55％的速度增長，達到2022年170億美元的收入，屆時將為Google貢獻約7％的稅前收入。

VMware(Virtual Machine ware）是“虛擬PC”軟件公司，提供服務器、桌面虛擬化解決方案。

VMware（威睿）是全球桌面到數據中心虛擬化解決方案的領導廠商。全球不同規模的客戶依靠VMware來降低成本和運營費用、確保業務持續性、加強安全性并走向綠色。VMware使企業可以采用能夠解決其獨有業務難題的云計算模式。

Salesforce這家靠做中小企業SaaS CRM起家的公司在這20年間業務獲得了陡峭的增長，其市值從2004年上市時11億美元躍增至1300億美元，在全球企業服務級軟件公司中最快實現了百億美元年營收，超過了前輩甲骨文創造的23年記錄。截止2018年，Salesforce在全球CRM市場份額中占據第一，市場份額為20%以上，遙遙領先于第二名的SAP（8.3%）和第三名甲骨文（5.5%）。

IBM 云計算提供了最開放、最安全的企業公有云，它作為下一代混合多云平臺，具備諸多先進的數據和 AI 功能以及 20 個行業的深厚企業專業知識。

7、云計算企業-國內

阿里云創立于2009年，是亞洲最大的云計算平臺和云計算服務提供商，和亞馬遜AWS、微軟Azure共同構成了全球云計算市場第一陣營。阿里云在全球21個區域部署了上百個數據中心，管理的服務器規模在百萬臺。阿里云憑借著自主研發的飛天云操作系統，占據了國內50%左右的云計算市場份額，是國內云計算市場公認的領頭羊和行業巨頭。

阿里云的服務群體中，活躍著淘寶、支付寶、12306、中石化、中國銀行、中科院、中國聯通、微博、知乎、錘子科技等一大批明星產品和公司。在天貓雙11全球狂歡節、12306春運購票等極富挑戰的應用場景中，阿里云保持著良好的運行紀錄。

騰訊云于2013年9月正式對外全面開放，騰訊云經過QQ、QQ 空間、微信、騰訊游戲等業務的技術錘煉，從基礎架構到精細化運營，從平臺實力到生態能力建設，騰訊云得到了全面的發展，使之能夠為企業和創業者提供集云計算、云數據、云運營于一體的云端服務體驗。

騰訊云在國內市場占據18%的市場份額，緊隨阿里云之后。騰訊云業務主要包括：云計算基礎服務、存儲與網絡、安全、數據庫服務、人工智能、行業解決方案等。騰訊云憑借著在“社交、游戲”兩大領域的龐大客戶群和生態系統構建，騰訊云具備了與阿里云一較高下的實力。

華為云成立于2011年，專注于云計算中“公有云”領域的技術研究與生態拓展，致力于為用戶提供一站式的云計算基礎設施服務，是目前國內大型的公有云服務與解決方案提供商之一。華為云在國內市場占據8%左右的市場份額。

華為云，立足于互聯網領域，依托華為公司雄厚的資本和強大的云計算研發實力，面向互聯網增值服務運營商、大中小型企業、政府機構、科研院所等廣大企業、事業單位的用戶，提供各種解決方案。

百度云于2015年正式開放運營，相對于其他廠商，百度對“人工智能”和“邊緣計算”這兩塊的投入相對較大，目前百度云提供的主要業務，包括“云計算，云存儲、AI人工智能、智能互聯網、智能大數據”等四大類。

金山云，創立于2012年，是金山集團旗下的云計算企業，金山云已推出云服務器、云物理主機、關系型數據庫、緩存、表格數據庫、對象存儲、負載均衡、虛擬私有網絡、CDN、托管Hadoop、云安全、云解析等在內的完整云產品，以及適用于游戲、視頻、政務、醫療、教育等垂直行業的云服務解決方案。

UCloud云成立于2012年3月，是上海優刻得科技股份有限公司的云產品，UCloud核心團隊來自騰訊、阿里、百度、盛大、華為、微軟等國內外互聯網和IT企業。

UCloud長期專注于移動互聯網領域，深度了解移動互聯網業務場景和用戶需求。針對特定場景，UCloud通過自主研發提供一系列專業解決方案，已為上萬家企業級客戶在全球的業務提供云服務支持，行業涉及制造、零售、金融、游戲、直播等。

京東智聯云是京東集團旗下的云計算綜合服務提供商，擁有全球領先的云計算技術和完整的服務平臺。依托京東集團在云計算、大數據、物聯網和移動互聯應用等多方面的長期業務實踐和技術積淀，致力于打造社會化的云服務平臺，向全社會提供安全、專業、穩定、便捷的云服務。

H3Cloud云隸屬于杭州的新華三技術有限公司，該公司歸屬于紫光集團。

H3Cloud云計算解決方案涵蓋了網絡、云軟件、計算、存儲四大類產品。目標是為用戶在以太網和云計算相關技術基礎上，實現數據中心資源高效利用、虛擬化環境下云網融合、基于混合云理念的資源動態擴展以及針對用戶具體業務交付的行業應用交付。結合本地強大研發、服務實施能力帶給用戶"一站式"的"交鑰匙"交付體驗。

網易云是網易集團旗下云計算和大數據品牌，致力于提供開放、穩定、安全、高性能的基礎技術平臺和完善的云生態體系，幫助客戶實現數字化轉型與創新，促進其商業蛻變與持續發展，推動產業數字化升級。

依托20余年技術積淀，網易云打造了輕舟微服務、瀚海私有云、大數據基礎平臺（猛犸）、可視化分析平臺（有數）、專屬云、云計算基礎服務、通信與視頻（云信）、云安全（易盾）、服務營銷一體化方案（七魚）、云郵箱（網易郵箱）等多類型產品，以及工業、電商、金融、教育、醫療、游戲等行業解決方案，并擁有完善的知識服務。

浪潮云，創立于2015年，面向政府機構和企業組織提供覆蓋“云計算基礎產品、云安全、政府政務、企業應用、工業互聯網、行業場景解決方案”等在內的多種服務，致力于以云服務的方式，輸出安全、可信的計算能力和數據處理能力。近年來，浪潮云的優勢在于政府政務的“政務云”，根據 IDC 報告，浪潮云多年穩居中國“政務云”服務運營商的市場占有率第一。

四、大數據和云計算的關系

1、大數據擁抱云計算

大數據通俗的來講就是一臺機器的資源不夠，需要很多臺機器一塊做，想什么時候要計算資源就什么時候要，想要多少臺就要多少臺。

只有云計算，可以為大數據的運算提供資源層的靈活性。而云計算也會部署大數據放到它的平臺上，作為一個非常非常重要的通用應用。因為大數據平臺能夠使得多臺機器一起干一個事兒。

一個小公司需要大數據平臺的時候，不需要采購一千臺機器，只要到公有云上一點，這一千臺機器都出來了，并且上面已經部署好了的大數據平臺，只要把數據放進去算就可以了。云計算需要大數據，大數據需要云計算，二者就這樣結合了。

五、人工智能AI

人工智能就是通過人工開發，使得機器擁有人類的智慧，就是讓機器模仿人類，達到可以像人一樣思考。

主要應用在三個方面：

機器視覺 ?

機器視覺即讓機器能夠“看”，如人臉識別，圖片搜索等等。

語音處理

語音處理即讓機器能夠聽，還能夠發音。比如訊飛的語音智能輸入法、高德的語音導航等等。

自然語言處理

自然語言處理即通過計算機技術讓機器理解并運用自然語言的學科，比如聊天機器人，文本糾錯，文本分類等等。

AI已經在各行業均有了較大的應用，比如汽車行業的自動駕駛，廣告業的智能廣告推薦，電商的商品推薦，金融行業的異常轉賬監測，快遞物流行業的路徑智能規劃，公告交通的智慧交通，零售行業的無人超市等等。

人工智能、機器學習、深度學習

人工智能、機器學習、深度學習是我們經常聽到的三個熱詞。關于三者的關系，簡單來說，機器學習是實現人工智能的一種方法，深度學習是實現機器學習的一種技術。機器學習使計算機能夠自動解析數據、從中學習，然后對真實世界中的事件做出決策和預測;深度學習是利用一系列“深層次”的神經網絡模型來解決更復雜問題的技術。

六、大數據和AI的關系

人工智能和大數據的關系是非常緊密的，實際上大數據的發展在很大程度上推動了人工智能技術的發展，因為數據是人工智能技術的基礎之一。

一方面人工智能需要大量的數據作為”思考”和”決策”的基礎;

另一方面大數據也需要人工智能技術進行數據價值化操作，為智能體（人工智能產品）提供的數據量越大，智能體運行的效果就會越好，因為智能體通常需要大量的數據進行訓練和驗證，從而保障運行的可靠性和穩定性；

七、傳統業務處理和大數據分析處理

1、場景分析

場景一：在線購物，需要什么體驗？

極致流暢的交互
低延遲的數據處理
處理過程的安全性
狀態的最終一致性?

場景二：支付寶年度賬單，需要什么體驗？

多維度組織細分
數據的對比呈現
視覺效果誘人

技術角度分析，應用背后數據存儲有何特點？如何處理？

面向業務、支撐業務
捕捉業務狀態的改變
事務的保證單次操作數據量小
很少涉及歷史數據處理
需要很高的并發處理能力

面向分析、支撐分析
挖掘歷史數據中的價值
單次操作數據規模大
大量的讀取分析操作
處理時效性一般要求不高

2、OLTP、OLAP

上述兩種業務場景，正對應著兩種數據系統

OLTP（On-Line Transaction Processing）聯機事務處理

OLAP（On-Line Analytical Processing） ?聯機分析處理

3、OLTP、OLAP區別

下面從幾個方面來區別兩個系統

參數	OLTP	OLAP
目的	捕獲和存儲交易數據以支持日常業務運營	獲取業務見解，解決問題，支持決策
數據管理	傳統關系數據庫管理系統（RDBMS）	數據倉庫（DW）
數據源	日常業務交易	整合來自多個來源的數據，包括OLTP和外部來源
焦點	當下	過去，現在和未來（使用歷史數據來計劃和預測未來事件）
任務	插入，更新，刪除，排序，過濾	匯總和分析數據以支持決策
查詢	簡單	復雜
響應時間	毫秒	秒，分鐘，小時或天，具體取決于數據量，查詢的復雜性以及EDW的功能?

4、OLTP系統

聯機事務處理系統：RDBMS關系型數據庫管理系統

5、OLAP系統

聯機分析處理系統：Data Warehouse 數據倉庫

6、思考一個問題

業務數據是存儲在OLTP系統中，直接開展數據分析可以嗎？

7、OLTP和OLAP關系

企業中數據庫和數據倉庫一般都會存在，如何正確區分很關鍵

八、大數據時代對數據存儲的挑戰?

1、當前數據存儲新要求:

1、高并發讀寫需求 ?

對于實時性、動態性要求較高的的社交網站，如論壇、微博等，往往需要達到每秒上萬次的讀寫請求，這種很高的并發性對數據庫的并發負載相當大，特別是對與傳統關系數據庫的硬盤I/O是個很大的負擔。

2、海量非結構化數據存儲需求 ? ?

非結構化數據，指的是數據結構不規則或不完整，沒有任何預定義的數據模型，不方便用二維邏輯表來表現的數據，例如辦公文檔(Word)、文本、圖片、HTML、各類報表。

3.高擴展性 ?

對于傳統數據庫來講，可以通過縱向擴展來提高數據存儲能力，當數據量增加到一定程度是就會遇到瓶頸。

2、NoSQL（Not Only SQL）

意思是"不僅僅是 SQL"，指的是非關系型數據庫，是對不同于傳統的關系型數據庫的數據庫管理系統的統稱。

NoSQL 用于超大規模數據的存儲。這些類型的數據存儲不需要固定的模式，無需多余操作就可以橫向擴展。

靈活存儲結構；
容量水平擴張；
高可用特性；
可以大數據框架集成；

1、鍵值數據庫

相關產品：Redis、Riak、SimpleDB、Chordless、Scalaris、Memcached 應用：內容緩存,適用于數據變化快且數據庫大小可遇見（適合內存容量）的應用程序優點：擴展性好、靈活性好、大量寫操作時性能高缺點：無法存儲結構化信息、條件查詢效率較低使用者：百度云（Redis）、GitHub（Riak）、BestBuy（Riak）、Twitter（Ridis和Memcached）

2、列族數據庫

相關產品：BigTable、HBase、Cassandra、HadoopDB、GreenPlum、PNUTS 應用：分布式數據存儲與管理，并且需要對大數據進行隨機、實時訪問的場合。優點：查找速度快、可擴展性強、容易進行分布式擴展、復雜性低使用者：Ebay（Cassandra）、Instagram（Cassandra）、NASA（Cassandra）、Facebook（Hbase）

3、文檔數據庫?

相關產品：MongoDB、CouchDB、ThruDB、CloudKit 應用：存儲、索引并管理面向文檔的數據或者類似的半結構化數據優點：性能好、靈活性高、復雜性低、數據結構靈活缺點：缺乏統一的查詢語言使用者：百度云數據庫（MongoDB）、SAP（MongoDB）

4、圖形數據庫

圖形數據庫-使用圖作為數據模型來存儲數據。相關產品：Neo4J、OrientDB、InfoGrid、GraphDB 應用：大量復雜、互連接、低結構化的圖結構場合，如社交網絡、推薦系統等，社會關系，公共交通網絡，地圖及網絡拓譜優點：靈活性高、支持復雜的圖形算法、可用于構建復雜的關系圖譜缺點：復雜性高、只能支持一定的數據規模使用者：Adobe（Neo4J）、Cisco（Neo4J）、T-Mobile（Neo4J）

3、NoSQL和RDBMS區別

4、關系型數據庫尚能飯否？

隨著關系型數據庫的不足之處暴露得越來越明顯，NoSQL的出現成為了有益補充。不過NoSQL并非為了取代關系型數據庫，而是指Not Only SQL，提供了在SQL之外的另一種選擇。

正如NoSQL的定義所說，它們僅僅是基于SQL的關系型數據庫的有益補充，而非關系型數據庫的替代者

傳統數據庫的優勢:

開發優勢

對于開發人員來說，關系型數據庫的首要優勢是面向SQL。此外，SQL語言，流行度非常廣泛，降低招聘成本,除了SQL語言本身，各種開發語言對關系型數據庫的支持也十分完善。

運維優勢

成熟的關系型數據庫都有自己完善的生態圈，有成熟的配套工具。

系統優勢

關系型數據庫經歷了幾十年的考驗，已經有超大規模的使用，其存儲引擎已經十分成熟。基于ACID的事務支持可以最大限度的保證數據的正確性和完整性：

NoSQL數據庫的不足: ?

不同的NoSQL數據庫都有自己的查詢語言，相比于SQL，制定應用程序標準接口比較難。并且NoSQL對事務的支持不夠強大。

九、分布式系統

數據處理中經常發生的問題

1、服務器宕機

2、網絡異常?

?3、磁盤故障

分布式是指將多臺服務器集中在一起，每臺服務器都實現總體中的不同業務，做不同的事情。

分布式的優點是細化了應用程序的功能模塊，同時也減輕了一個完整的應用程序部署在一臺服務器上的負擔，用了分布式拆分后，就相當于把一個應用程序的多個功能分配到多臺服務器上去處理了。
分布式系統容易產生單點故障。

1、分布式存儲

分布式存儲系統面向海量數據的存儲訪問與共享需求，提供基于多存儲節點的高性能，高可靠和可伸縮性的數據存儲和訪問能力，實現分布式存儲節點上多用戶的訪問共享。

常見的分布式文件系統:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS等。

2、分布式計算

十、集群系統

所謂集群是指一組獨立的計算機系統構成的一個松耦合的多處理器系統，它們之間通過網絡實現進程間的通信，讓若干臺計算機聯合起來工作(服務)，可以是并行的，也可以是做備份。

1、集群

集群的分類

(1)高可靠性(HA)

利用集群管理軟件，當主服務器故障時，備份服務器能夠自動接管主服務器的工作，并及時切換過去，以實現對用戶的不間斷服務。

(2)高性能計算(HP)

即充分利用集群中的每一臺計算機的資源，實現復雜運算的并行處理，通常用于科學計算領域，比如基因分析、化學分析等

2、集群和分布式區別

分布式：分布式的主要工作是分解任務，將職能拆解，多個人在一起做不同的事

集群：集群主要是將同一個業務，部署在多個服務器上，多個人在一起做同樣的事

十一、大數據計算引擎

大數據的計算模式主要分為：

批量計算(batch computing)
流式計算(stream computing) –實時計算
圖計算(graph computing) ---pregel

其中，流式計算和批量計算是兩種主要的大數據計算模式，分別適用于不同的大數據應用場景。

1、第一代計算引擎

它將計算分為兩個階段，分別為 Map 和 Reduce。對于應用來說，需要想方設法將應用拆分成多個map、 reduce的作業，以完成一個完整的算法。

2、第二代計算引擎

Tez把Ｍap/Reduce過程拆分成若干個子過程，同時可以把多個Ｍap/Reduce任務組合成一個較大的DAG任務，減少了Ｍap/Reduce之間的文件存儲。

3、第三代計算引擎

Spark 使用先進的DAG（Directed Acyclic Graph，有向無環圖）執行引擎，以支持循環數據流與內存計算，基于內存的執行速度比MapReduce快上百倍，基于磁盤的執行速度也能快十倍。第三代計算引擎的出現，促進了上層應用快速發展，例如各種迭代計算的性能以及對流計算和 SQL等的支持。

4、第四代計算引擎

Flink 的誕生就被歸在了第四代。這應該主要表現在 Flink 對流計算的支持，以及更進一步的實時性提升。當然 Flink 也可以支持 Batch 的任務，以及 DAG 的運算。在Flink之前，不乏流式處理引擎，比較著名的有Storm、Spark Streaming，但某些特性遠不如Flink。

十二、大數據流式計算

1、流式計算-概念

?流式計算處理數據的速度在秒級甚至毫秒級。

2、流式計算-應用場景

物聯網

設備故障告警：極其迅速感知到故障的發生，并及時進行告警。
實時監控：實時分析設備的監控數據，實現對設備各項指標的實時監控。
動態跟蹤：實時跟蹤并顯示設備（比如汽車）的位置。

金融行業

欺詐探測：實時分析用戶行為，并及時辨識到可疑欺詐行為。

視頻直播

個性化推薦：根據視頻用戶的訪問內容，實時為視頻用戶推薦個性化內容。
實時統計：實時統計當前直播間運營情況，包括熱門視頻、用戶走勢等等。

電商行業

個性化精準推薦：實時掌握用戶的需求和喜好，進行個性化精準推薦。
實時報表：多維度實時了解PV\UV、銷量、銷售額、地域分布等。
實時感知變化趨勢：對商品整體的熱度和關注量進行動態監測，感知商品關注度變化趨勢。

3、流式計算-發展

4、流式計算-sparkstreaming

Spark Streaming 是構建在Spark Core基礎之上的實時計算框架（或流計算框架），它擴展了Spark 處理大規模流式數據的能力。 Sparking Streaming 可以整合多種輸入數據源，如Kafka、Flume、HDFS、TCP socket等等，經過處理的數據可以存儲到HDFS、數據庫和Dashboard等等。

Spark Streaming的基本原理是將實時輸入數據流以時間片（秒級）為單位進行拆分，然后經過Spark Engine以類似批處理的方式處理每個時間片數據，執行流程如下圖示。

在 Spark Streaming 中，處理數據的單位是一批而不是單條，而數據采集卻是逐條進行的，以時間為單位將數據流切分成離散的數據單位；和其他的實時計算技術(比如Storm)不太一樣，我們可以將Spark Streaming理解為micro-batch模式的實時計算，也就是說Spark Streaming本質是批處理，就是這個批處理之間的時間間隔是非常的小

5、流式計算-storm

Storm是一個分布式計算框架，最初是由Nathan Marz帶領Backtype公司團隊創建，在Backtype公司被Twitter公司收購后進行開源。最初的版本是在2011年9月17日發行，版本號0.5.0。 2013年9月，Apache基金會開始接管并孵化Storm項目，2014年9月，Storm項目成為Apache的頂級項目。 Storm是一個免費開源的分布式實時計算系統。Storm能輕松可靠地處理無界的數據流，就像Hadoop對數據進行批處理；

6、流式計算-storm-美團點評基于Storm

?1、美團開店寶的實時經營數據卡片。

2、美團點評金融合作門店的實時熱度標簽。?

7、流式計算-storm小結

美團外賣是依托美團整體的基礎數據體系建設，從技術成熟度來講，前幾年用的是 Storm，Storm 當時在性能穩定性、可靠性以及擴展性上是無可替代的。隨著 Flink 越來越成熟，從技術性能上以及框架設計優勢上已經超越Storm，從趨勢來講就像 Spark替代 MR 一樣，Storm 也會慢慢被 Flink 替代，當然從 Storm 遷移到 Flink 會有一個過程，美團有一些老的任務仍然在 Storm 上，也在不斷推進任務遷移。

8、Storm VS Flink

9、流式計算-Flink

Flink是一款分布式的計算引擎，它可以用來做批處理，即處理靜態的數據集、歷史的數據集; Flink也可以用來做流處理，即實時地處理一些實時數據流，實時地產生數據的結果; Flink還可以用來做一些基于事件的應用，比如說滴滴通過Flink CEP實現實時監測用戶及司機的行為流來判斷用戶或司機的行為是否正當。

10、流式計算-Flink在快手的應用

快手計算鏈路是從 DB/Binlog 以及 WebService Log 實時入到 Kafka 中，然后接入 Flink 做實時計算，其中包括實時數倉、實時分析以及實時訓練，最后的結果存到 Druid、Kudu、HBase 或者 ClickHouse 里面；同時 Kafka 數據實時 Dump 一份到 Hadoop 集群，然后通過 Hive、MapReduce 或者 Spark 來做離線計算；最終實時計算和離線計算的結果數據會用內部自研 BI 工具 KwaiBI 來展現出來。

快手目前集群規模有 1500 臺左右，日處理條目數總共有3萬億，峰值處理條目數大約是 3億/s 左右。集群部署都是 On Yarn 模式，實時集群和離線集群混合部署，通過 Yarn 標簽進行物理隔離，實時集群是 Flink 專用集群，針對隔離性、穩定性要求極高的業務部署。