您在2016年会做什么? Apache Spark,Kafka,Drill等
讓我們玩得開心。
這是新的一年的開始-我們正處于新事物的門檻上-因此讓我們期待您在2016年可能會(huì)做的事情。現(xiàn)在我知道做出預(yù)測(cè)的風(fēng)險(xiǎn),尤其是有記錄的預(yù)測(cè),但是我很高興您能在一年后回訪,看看我對(duì)2016年的預(yù)測(cè)是如何完成的。
您在2016年會(huì)做什么?
在我做出2016年預(yù)測(cè)之前,首先要更普遍(好玩地)思考推測(cè)未來的挑戰(zhàn)。 我們是否根據(jù)數(shù)據(jù)和模型進(jìn)行工作? 從觀察和預(yù)感? 請(qǐng)記住,描述未來的準(zhǔn)確性部分取決于目標(biāo)的未來時(shí)間。
傳統(tǒng)上遙遠(yuǎn)地預(yù)測(cè)人們的生活將是未來。 有時(shí),它們是準(zhǔn)確的,并且更經(jīng)常是滑稽的錯(cuò)誤。 回顧未來應(yīng)該是一種娛樂,我稱之為“記住未來”。
例如,2000年引起了人們多年的想像力。 我遇到了一篇發(fā)表于1900年的女士家庭雜志上的文章,其中對(duì)我們2000年的生活做出了預(yù)測(cè)。在大致正確的預(yù)測(cè)中,有汽車將大量涌現(xiàn)的情況,可以從遙遠(yuǎn)的國家以電報(bào)的形式拍攝照片,它們可以在一小時(shí)內(nèi)在報(bào)紙上印制出來,包括領(lǐng)土在內(nèi)的美國人口將超過3.5億(2000年人口普查使美國人口為2.82億,有點(diǎn)短)。 預(yù)測(cè)不會(huì)有更多的蒼蠅或蚊子,城市中的交通將在地下或高架上發(fā)生,因此城市將“沒有噪音”,而我們將不再使用字母C,X或Q 。
未來并沒有如前所述,部分是因?yàn)槲覀兘?jīng)常以與預(yù)期不同的方式解決相同的問題:今天,高速公路上的城市交通被分流了,但是-不能消除噪音。 而且,我們不是依靠“發(fā)射”某些輔音來規(guī)范拼寫,而是依靠自動(dòng)拼寫糾正系統(tǒng)(有時(shí)會(huì)產(chǎn)生可笑的結(jié)果)。
返回大數(shù)據(jù)
Ted Dunning在那個(gè)城市的Strata Hadoop World會(huì)議的一周期間,在新加坡大數(shù)據(jù)聚會(huì)上對(duì)當(dāng)前和未來的大數(shù)據(jù)趨勢(shì)進(jìn)行了生動(dòng)的演講,提出了“記住未來”的主題。 另一位演講者,Hadoop創(chuàng)始人Doug Cutting,也談到了大數(shù)據(jù)系統(tǒng)在不久的將來的發(fā)展方向。
Doug談到了Hadoop生態(tài)系統(tǒng)的發(fā)展,特別是在分析方面。 在許多情況下,基于批處理的計(jì)算已被內(nèi)存中的微批處理計(jì)算能力所取代,因此,人們對(duì)Apache Spark的興趣日益濃厚。
泰德(Ted)最初以文化趨勢(shì)招待人們,但并未像預(yù)期的那樣成功,然后他描述了一個(gè)成功的,具有前瞻性的大數(shù)據(jù)項(xiàng)目-這是19世紀(jì)的開源項(xiàng)目,該項(xiàng)目很好地利用了海洋和風(fēng)能數(shù)據(jù)來建立航行航海圖。 跳到了今天,Ted解釋了當(dāng)前大數(shù)據(jù)趨向于簡(jiǎn)化機(jī)器學(xué)習(xí)項(xiàng)目的趨勢(shì),從而使其具有實(shí)用價(jià)值。 Ted還談到了需要更簡(jiǎn)化的方式來處理復(fù)雜數(shù)據(jù)以避免必須構(gòu)建數(shù)百個(gè)表的情況(傳統(tǒng)關(guān)系系統(tǒng)就是如此),他展示了在這種情況下利用SQL引擎Apache Drill的靈活性的優(yōu)勢(shì)。
2016年的六大預(yù)測(cè)
受描述大數(shù)據(jù)趨勢(shì)的其他人的啟發(fā),現(xiàn)在我伸出我的脖子,對(duì)自己在2016年的工作做出自己的預(yù)測(cè)(純觀點(diǎn))。畢竟,這僅僅是未來一年……
流數(shù)據(jù)
我有信心在整個(gè)2016年對(duì)流數(shù)據(jù)和流分析產(chǎn)生爆炸性的興趣。 流數(shù)據(jù)將以比以前更多的方式和新的方式被更多的組織使用。 物聯(lián)網(wǎng)傳感器數(shù)據(jù)量的增加只是流數(shù)據(jù)的來源之一。 一系列事件(例如來自網(wǎng)絡(luò)流量的點(diǎn)擊流數(shù)據(jù)或機(jī)器日志文件)將越來越多地使用Apache Spark進(jìn)行近實(shí)時(shí)處理或使用更新的工具Apache Flink進(jìn)行實(shí)時(shí)分析,以流的形式進(jìn)行分析。
重大變化之一將是以不同的方式來考慮最能支持這些應(yīng)用程序的體系結(jié)構(gòu): 消息隊(duì)列將成為設(shè)計(jì)這些系統(tǒng)的中心焦點(diǎn)。 在流分析程序的工作流中,消息傳遞層將不僅僅是一個(gè)安全緩沖區(qū)。 正確完成后,消息隊(duì)列將成為可重播,不變的持久日志,為多個(gè)主服務(wù)器(例如實(shí)時(shí)分析應(yīng)用程序,數(shù)據(jù)庫或搜索文檔)提供服務(wù)。 由于這些原因,我預(yù)計(jì)將大大增加已經(jīng)流行的消息傳遞工具Apache Kafka的使用,并對(duì)新的MapR Streams (支持Kafka API的集成消息傳遞技術(shù))產(chǎn)生濃厚的興趣。
縮短實(shí)現(xiàn)價(jià)值的時(shí)間
企業(yè)需要實(shí)用的方法來更快地實(shí)現(xiàn)價(jià)值,因此,如果您的企業(yè)需要SQL ,我相信您可能會(huì)在2016年嘗試Apache Drill 。 隨著發(fā)布次數(shù)的增加,Drill的功能不斷擴(kuò)展,但它已經(jīng)是使用標(biāo)準(zhǔn)SQL的高性能,高可伸縮性和極其靈活的查詢引擎。 這對(duì)于來自傳統(tǒng)背景的大數(shù)據(jù)用戶以及Hadoop和NoSQL世界的資深人士來說同樣具有吸引力,他們希望查詢引擎能夠輕松處理各種非結(jié)構(gòu)化和嵌套的數(shù)據(jù)類型,例如JSON和Parquet。
Drill的特性也許最有可能讓您嘗試使用它,而它幾乎無需準(zhǔn)備就可以查詢數(shù)據(jù),從而可以減少從數(shù)據(jù)獲取見解所需的時(shí)間或數(shù)天。 在開始查詢之前,只需花費(fèi)較少的時(shí)間,借助Drill,您就可以根據(jù)從第一個(gè)查詢中學(xué)到的知識(shí)快速構(gòu)建第二個(gè)查詢。 更快的開發(fā),更快的洞察力,更短的價(jià)值實(shí)現(xiàn)時(shí)間。
集權(quán)
人們?cè)絹碓蕉嗟貙⒋髷?shù)據(jù)平臺(tái)視為其整個(gè)組織的中心部分,而不是一個(gè)特殊目的的項(xiàng)目。 大數(shù)據(jù)平臺(tái)(例如基于Hadoop和NoSQL的系統(tǒng))將需要輕松地連接到傳統(tǒng)技術(shù),例如企業(yè)數(shù)據(jù)倉庫,關(guān)系數(shù)據(jù)庫或BI工具。
對(duì)于全球組織而言,集中化的一個(gè)自相矛盾的方面是需要在全球范圍內(nèi)分發(fā)數(shù)據(jù)。 您組織的不同部門需要訪問統(tǒng)一的數(shù)據(jù)集。 在分解地理位置不同的中心內(nèi)或中心之間不必要的孤島時(shí),您將要避免傳播延遲。 可能存在法律問題,需要對(duì)數(shù)據(jù)進(jìn)行本地化。 出于這些原因,我預(yù)測(cè)許多組織將希望使用一種具有安全可靠方法的系統(tǒng)來維護(hù)可以快速同步的多個(gè)數(shù)據(jù)中心。
專題:醫(yī)療保健
我認(rèn)為醫(yī)療保健行業(yè)中的大數(shù)據(jù)使用有望在2016年實(shí)現(xiàn)快速擴(kuò)展。人們認(rèn)識(shí)到使用數(shù)據(jù)來減少欺詐并通過使用電子病歷,機(jī)器的長(zhǎng)期維護(hù)記錄來改善醫(yī)療保健的力量。 ,以及傳感器信息流。 對(duì)于這些用例而言,出色的數(shù)據(jù)安全性和治理無疑將非常重要。
專題:電信
電信將在2016年在大數(shù)據(jù)領(lǐng)域中脫穎而出的另一個(gè)領(lǐng)域。 電信公司已經(jīng)有很好的大數(shù)據(jù)用例:將ETL的壓力轉(zhuǎn)移到Hadoop,同時(shí)維持企業(yè)倉庫的復(fù)雜賬單; 對(duì)進(jìn)出蜂窩塔的數(shù)據(jù)進(jìn)行異常檢測(cè)以發(fā)現(xiàn)并快速響應(yīng)突然的使用變化,并在通話中斷后采用實(shí)時(shí)分析快速響應(yīng)用戶,以改善體驗(yàn)并減少用戶流失。
流數(shù)據(jù)架構(gòu)和技術(shù)(如上所述)的擴(kuò)展將使電信受益。 但是,即使您自己不使用電信,這種特殊情況也可能會(huì)影響您。 越來越多的非電話應(yīng)用正在利用電信網(wǎng)絡(luò)。 例如,汽車中的傳感器通常通過電信網(wǎng)絡(luò)發(fā)送數(shù)據(jù)。 綜上所述,我預(yù)計(jì)您可能會(huì)在2016年將高級(jí)電信與大數(shù)據(jù)結(jié)合起來。
最好的預(yù)測(cè):你會(huì)讓我驚訝
我對(duì)2016年的最佳預(yù)測(cè)是,您將想出一些創(chuàng)新的方法來使用尚未出現(xiàn)的大數(shù)據(jù)。 也許它將以一種新穎的方式解決我已經(jīng)意識(shí)到的問題。 也許這將是全新的東西。 無論哪種方式,到2017年1月,我都會(huì)“記住未來”,即使我的其他五個(gè)預(yù)測(cè)都是準(zhǔn)確的,我也會(huì)為新事物感到驚訝。
其他資源
對(duì)于作者的相關(guān)內(nèi)容,請(qǐng)參見以下免費(fèi)資源:
- 實(shí)用機(jī)器學(xué)習(xí):異常檢測(cè)的新視角
- 真實(shí)世界的Hadoop
- O'Reilly Radar博客上有關(guān)Apache Drill的文章
翻譯自: https://www.javacodegeeks.com/2016/01/will-2016-apache-spark-kafka-drill.html
總結(jié)
以上是生活随笔為你收集整理的您在2016年会做什么? Apache Spark,Kafka,Drill等的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: p1417 烹调方案_Java 8的烹调
- 下一篇: linux代理服务器搭建(linux代理