大数据技术有哪些
2018年注定是大數(shù)據(jù)的時(shí)代,很多企業(yè)都紛紛向數(shù)據(jù)轉(zhuǎn)型,對(duì)于大數(shù)據(jù)技術(shù)人才也是求賢若渴。對(duì)于大數(shù)據(jù)工程師崗位,我們需要掌握哪些技術(shù)才能勝任?今天給大家分享的是大數(shù)據(jù)工程師的技能樹(shù),讓你對(duì)大數(shù)據(jù)工程師有一個(gè)基本的了解。
1. 什么是大數(shù)據(jù)工程師
數(shù)據(jù)工程師這個(gè)概念其實(shí)很模糊,不同的人和公司對(duì)它賦予的含義也區(qū)別很大,在這里,我們大概聊一下一般意義上的大數(shù)據(jù)工程師在工作中會(huì)做什么?
集群運(yùn)維:安裝、測(cè)試、運(yùn)維各種大數(shù)據(jù)組件
數(shù)據(jù)開(kāi)發(fā):細(xì)分一點(diǎn)的話會(huì)有ETL工程師、數(shù)據(jù)倉(cāng)庫(kù)工程師等
數(shù)據(jù)系統(tǒng)開(kāi)發(fā):偏重Web系統(tǒng)開(kāi)發(fā),比如報(bào)表系統(tǒng)、推薦系統(tǒng)等
?
這里面有很多內(nèi)容其實(shí)是十分重要的,下面大致聊一下每一塊內(nèi)容大致需要學(xué)什么,以及側(cè)重點(diǎn)。
2. 集群運(yùn)維
大數(shù)據(jù)工程師,基本上是離不開(kāi)集群搭建,比如hadoop、Spark、Kafka,不要指望有專門的運(yùn)維幫你搞定,新組件的引入一般都要自己來(lái)動(dòng)手的。
因此這就要求數(shù)據(jù)工程師了解各種大數(shù)據(jù)的組件。
由于要自己的安裝各種開(kāi)源的組件,就要求數(shù)據(jù)工程師要具備的能力: Linux 。要對(duì)Linux比較熟悉,能各種自己折騰著玩。
由于現(xiàn)在的大數(shù)據(jù)生態(tài)系統(tǒng)基本上是 JVM 系的,因此在語(yǔ)言上,就不要猶豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要學(xué)的很深,Scala就看情況了。
3. ETL
ETL 在大數(shù)據(jù)領(lǐng)域主要體現(xiàn)在各種數(shù)據(jù)流的處理。這一塊一方面體現(xiàn)在對(duì)一些組件的了解上,比如Sqoop、Flume、Kafka、Spark、MapReduce;另一方面就是編程語(yǔ)言的需要,Java、Shell和Sql是基本功。
4. 系統(tǒng)開(kāi)發(fā)
我們大部分的價(jià)值最后都會(huì)由系統(tǒng)來(lái)體現(xiàn),比如報(bào)表系統(tǒng)和推薦系統(tǒng)。因此就要求有一定的系統(tǒng)開(kāi)發(fā)能力,最常用的就是 Java Web 這一套了,當(dāng)然Python也是挺方便的。
需要注意的是,一般數(shù)據(jù)開(kāi)發(fā)跑不掉的就是各種提數(shù)據(jù)的需求,很多是臨時(shí)和定制的需求,這種情況下, Sql 就跑不掉了,老老實(shí)實(shí)學(xué)一下Sql很必要。
????大數(shù)據(jù)工程師相對(duì)于其他it技術(shù)人而言,是比較全能型人才,需要掌握的知識(shí)技術(shù)也比較多,未來(lái)的路還很長(zhǎng),一定要持續(xù)學(xué)習(xí)哦!
總結(jié)
- 上一篇: 单向流动的拓扑结构_单向流与乱流净化工程
- 下一篇: 图解数据中心冷热电三联供原理