超级菜鸟如何入门数据分析?
大家好,我是寶器!
今天這篇文章是寶器在知乎上的一個(gè)問答,超級菜鳥如何入門數(shù)據(jù)分析?
我的回答全文大致如下(全文很長,建議收藏閱讀):
經(jīng)常看到很多朋友會問,入行數(shù)據(jù)分析之前我要不要學(xué)個(gè)java,學(xué)個(gè)Tableau,然后在學(xué)個(gè)Python會比較容易。好像是說,數(shù)據(jù)分析一定需要Python才能做,分析變成了為某種編程語言、某種可視化工具服務(wù)。
其實(shí)這樣誤區(qū)的是很不對的,按這種方式學(xué)習(xí)下去,即使最后Python學(xué)的很好,也挺難找到一份數(shù)據(jù)分析的工作。?
01
什么是數(shù)據(jù)分析
所以在討論這個(gè)話題之前,第一個(gè)問題可能要思考的是什么是數(shù)據(jù)分析。為了簡便,第一部分寶器先用之前整理的幾張圖回答,詳細(xì)文章請見:
數(shù)據(jù)分析只需要看懂一張圖,附下載鏈接!
請先耐心看完第一部分:
02
數(shù)據(jù)分析職業(yè)發(fā)展不同階段
第二部分談的是關(guān)于數(shù)據(jù)分析這個(gè)崗位不同階段所需要業(yè)務(wù)能力和技能需求(這一部分來源參考了各種大佬的解答)。
第一階段:助理分析師,這是個(gè)使命必達(dá)的階段,你核心要做的是快速學(xué)習(xí),執(zhí)行配合,業(yè)務(wù)能力上你需要做到幾點(diǎn):
問題識別:在一定指導(dǎo)下準(zhǔn)確識別問題
分析規(guī)劃:在一定知道下完成分析規(guī)劃
數(shù)據(jù)獲取:提取簡單數(shù)據(jù),了解分析方法
展示演示:能夠形成報(bào)告,展示分析結(jié)果
價(jià)值應(yīng)用:完成業(yè)務(wù)需求,提出自己的見解??
執(zhí)行和管理能力:合理分配和安排,完成分析任務(wù)即可。
影響力:這一階段基本上是學(xué)習(xí)階段,沒什么大的影響力。
第二階段:數(shù)據(jù)分析師,這是個(gè)無懈可擊的階段,你核心要做的是獨(dú)立執(zhí)行,小有成就,業(yè)務(wù)能力上你需要做到幾點(diǎn):
問題識別:能夠獨(dú)立清晰的識別問題
分析規(guī)劃:明確范圍并做好分析規(guī)劃
數(shù)據(jù)獲取:熟練提取數(shù)據(jù),應(yīng)用分析方法
展示演示:展現(xiàn)的條理、邏輯、表達(dá)清晰
價(jià)值應(yīng)用:提出建議并推動建議被采納
執(zhí)行和管理能力:作為核心成員、控制項(xiàng)目進(jìn)度和質(zhì)量
影響力:推動建議被采納,跨團(tuán)隊(duì)溝通協(xié)調(diào)
第三階段:資深數(shù)據(jù)分析師,這是個(gè)無中生有的階段,你核心要做的是發(fā)掘項(xiàng)目,主動執(zhí)行,業(yè)務(wù)能力上你需要做到幾點(diǎn):
問題識別:發(fā)現(xiàn)問題并轉(zhuǎn)化成分析目標(biāo)
分析規(guī)劃:提煉問題并做好分析規(guī)劃
數(shù)據(jù)獲取:熟練提取數(shù)據(jù),指導(dǎo)員工分析
展示演示:結(jié)論突出清晰、指導(dǎo)員工
價(jià)值應(yīng)用:提出有效建議,獨(dú)立主動
執(zhí)行和管理能力:領(lǐng)導(dǎo)跨部門項(xiàng)目、尋求資源
影響力:具備一定判斷力和影響力
第四階段:數(shù)據(jù)分析專家,這是個(gè)獨(dú)當(dāng)一面的階段,你核心要做的是推動業(yè)務(wù),輔導(dǎo)團(tuán)隊(duì),業(yè)務(wù)能力上你需要做到幾點(diǎn):
問題識別:識別問題并推動解決問題
分析規(guī)劃:提煉問題并做好分析規(guī)劃
數(shù)據(jù)獲取:熟練提取數(shù)據(jù),指導(dǎo)員工分析
展示演示:結(jié)論突出清晰、指導(dǎo)員工
價(jià)值應(yīng)用:提出有效建議,獨(dú)立主動
執(zhí)行和管理能力:完成影響力大的復(fù)雜項(xiàng)目
影響力:具備較強(qiáng)判斷力和影響力
第五階段:高級數(shù)據(jù)分析專家,這是個(gè)紅杏出墻的階段,你核心要做的是統(tǒng)籌規(guī)劃,名聲在外,業(yè)務(wù)能力上你需要做到幾點(diǎn):
問題識別:思考數(shù)據(jù)的價(jià)值并規(guī)劃推進(jìn)
分析規(guī)劃:提煉問題并做好分析規(guī)劃
數(shù)據(jù)獲取:熟練提取數(shù)據(jù),指導(dǎo)員工分析
展示演示:結(jié)論突出清晰、指導(dǎo)員工
價(jià)值應(yīng)用:提出有效建議,獨(dú)立主動
執(zhí)行和管理能力:完成影響力大的復(fù)雜項(xiàng)目
影響力:分享和指導(dǎo),在公司層面具有強(qiáng)影響力
第六階段:資深數(shù)據(jù)分析專家,這是個(gè)諸葛連弩的階段,你核心要做的是參與決策、指揮有度,業(yè)務(wù)能力上你需要做到幾點(diǎn):
問題識別:提出業(yè)務(wù)的前瞻性建議
分析規(guī)劃:提煉問題并做好分析規(guī)劃
數(shù)據(jù)獲取:熟練提取數(shù)據(jù),指導(dǎo)員工分析
展示演示:結(jié)論突出清晰、指導(dǎo)員工
價(jià)值應(yīng)用:提出有效建議,獨(dú)立主動
執(zhí)行和管理能力:完成影響力大的復(fù)雜項(xiàng)目
影響力:在專業(yè)領(lǐng)域有一定影響力
03?
你需要的技能樹拆解
這一部分談的數(shù)據(jù)從業(yè)者需要學(xué)習(xí)的一些技能,下圖后面有拆解版(圖打開看更清晰)。
概括為以下內(nèi)容:
1、SQL腳本取數(shù)
SQL一定要寫的非常熟練,最好是熟悉Hive-sql,可參見以下幾篇文章:
數(shù)據(jù)分析招聘要求:熟練SQL!| 精簡版復(fù)習(xí)大綱送給大家!
解一下TMD幾道熱門數(shù)據(jù)分析面試題。
2、統(tǒng)計(jì)學(xué)理論
統(tǒng)計(jì)學(xué)可分兩部分學(xué)習(xí),第一部分是描述性統(tǒng)計(jì),分別要掌握以下知識點(diǎn):
第二部分是推斷性統(tǒng)計(jì),你最少要知道中心極限定理、大數(shù)定律、置信區(qū)間、假設(shè)檢驗(yàn)、t檢驗(yàn)、f檢驗(yàn)、卡方檢驗(yàn)、ABtest等等。(面試考這一部分較多)可參考這篇文章:
AB test ?| 數(shù)據(jù)分析師面試必知 !
3、機(jī)器學(xué)習(xí)理論。
這部分你需要從幾點(diǎn)準(zhǔn)備,第一要理解每個(gè)算法的應(yīng)用背景,優(yōu)缺點(diǎn)(最重要的)。第二,熟悉常見的公式推倒(不需要每個(gè)都會)。大致要掌握的是邏輯回歸、SVM、決策樹、隨機(jī)森林、Adboost、XGboost等集成學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)。(DNN、CNN、inception、ResNet、RNN、LSTM等深度學(xué)習(xí)算法在數(shù)據(jù)分析面試中很少問,不需要準(zhǔn)備那么多)
4、業(yè)務(wù)分析。
這部分可以從“人人都是產(chǎn)品經(jīng)理”社區(qū)、增長黑客等內(nèi)容學(xué)習(xí),你最少要知道Pv、Uv、DAU等各種指標(biāo),如何進(jìn)行指標(biāo)拆解、如何進(jìn)行流量分析、留存分析、用戶行為分析,啥是海盜模型,RFM模型、某個(gè)指標(biāo)下降/上升如何分析等等。寶器之前做流量分析的時(shí)候會做一個(gè)這樣框架圖,其他的也可參考:
一邊吃粽子,一邊思考流量數(shù)據(jù)分析!
5、?工具類
語言:非大數(shù)據(jù)類R、Python最多(比較geek的也有用julia的,不差錢和某些公司要求的用SAS、Matlab)。
可視化:Tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn、Pyechart等都不錯(cuò).
其他框架、類庫(選學(xué)):爬蟲(requests、beautifulsoup、scrapy).
04
想好自己的發(fā)展方向
數(shù)據(jù)分析的小方向比較多,分類方法也不盡相同。在這里根據(jù)技術(shù)要求的側(cè)重點(diǎn)不同,簡單的劃分為三個(gè)方向(這部分回答乘次不齊,有的是直接簡單的分技術(shù)類和業(yè)務(wù)類,這里參考廣大網(wǎng)友作答):
1、BI方向
BI的概念已經(jīng)出現(xiàn)很久了,但仍然不過時(shí)。
重點(diǎn)在于如何設(shè)計(jì)高效的數(shù)據(jù)模型,以及如何通過BI工具從多個(gè)角度觀察數(shù)據(jù),了解數(shù)據(jù)內(nèi)部的規(guī)律。
傳統(tǒng)的BI工具可以滿足大部分傳統(tǒng)企業(yè)的數(shù)據(jù)分析場景。近些年隨著分析工具功能日趨強(qiáng)大,大數(shù)據(jù)領(lǐng)域的BI平臺也有了長足的發(fā)展。所以BI仍然具有強(qiáng)大的生命力。
2、機(jī)器學(xué)習(xí)方向
機(jī)器學(xué)習(xí)與BI的區(qū)別在于,更多的依賴機(jī)器模擬人類學(xué)習(xí)的過程去發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的規(guī)律,構(gòu)建一個(gè)數(shù)據(jù)模型,通過某些算法來預(yù)測未來的可能性。
機(jī)器學(xué)習(xí)和深度學(xué)習(xí)概念非常火熱,但相對入門門檻也較高,因?yàn)橄胝嬲斫饽切┧惴ǖ脑硇枰叩葦?shù)學(xué)的基礎(chǔ)。
3、行業(yè)分析方向
還有一些數(shù)據(jù)分析師,僅僅通過一些公開的市場宏觀數(shù)據(jù),通過經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)分析方法,觀察經(jīng)濟(jì)的運(yùn)行狀況,從而發(fā)現(xiàn)行業(yè)的經(jīng)濟(jì)發(fā)展規(guī)律,進(jìn)一步預(yù)測未來行業(yè)發(fā)展的趨勢。這個(gè)方向也很不錯(cuò)的,但是需要對統(tǒng)計(jì)和經(jīng)濟(jì)學(xué)有一定基礎(chǔ)。
首先要認(rèn)準(zhǔn)自身的優(yōu)勢,參考上面列出的幾個(gè)發(fā)展方向,選擇其一進(jìn)行深入的學(xué)習(xí)和實(shí)踐。
如果計(jì)算機(jī)基礎(chǔ)比較好,擅長SQL和BI工具,可以向著BI方向發(fā)展;如果數(shù)學(xué)基礎(chǔ)比較好,可以考慮機(jī)器學(xué)習(xí)方向;如果對所在行業(yè)的業(yè)務(wù)比較精通,也可以從事業(yè)務(wù)分析或行業(yè)分析方向。
做適合的和喜歡的最重要。不論哪個(gè)方向,都是要先掌握工具使用,了解你要分析的業(yè)務(wù)流程,培養(yǎng)獨(dú)到的分析思維模式,鍛煉自己的表達(dá)。
05
一些優(yōu)秀的DA大佬,書籍推薦
Sql類我只看了三本書(我不會推薦sql必知必會系列,對比看,你會發(fā)現(xiàn)這里SQL基礎(chǔ)和進(jìn)階書寫的非常好,至少是很適合分析師看的數(shù)據(jù)庫書):
《Sql基礎(chǔ)教程》
《Sql進(jìn)階教程》
《Hive編程指南》
統(tǒng)計(jì)學(xué):
《統(tǒng)計(jì)基礎(chǔ)》人大版本,
《女士品茶》
《統(tǒng)計(jì)陷阱》
《漫畫統(tǒng)計(jì)學(xué)入門》
《機(jī)會的數(shù)學(xué)》
Python、爬蟲:
《Python學(xué)習(xí)手冊》
《Python for everyone》
《對比Excel,輕松學(xué)習(xí)Python數(shù)據(jù)分析》
《Python3網(wǎng)絡(luò)爬蟲開發(fā)實(shí)戰(zhàn)》
業(yè)務(wù)、方法論及其他:
《增長黑客》
《精益數(shù)據(jù)分析》
《深入淺出數(shù)據(jù)分析》
《誰說菜鳥不會數(shù)據(jù)分析》
《決戰(zhàn)大數(shù)據(jù) 》
一些大佬,排名不分先后,履歷真的厲害,有行業(yè)領(lǐng)軍人物,有年輕的數(shù)據(jù)總監(jiān),有幾十萬粉的博主。就不一一介紹了,因?yàn)槲乙彩蔷W(wǎng)上看到這些大佬的相關(guān)問答,各位有興趣可自己看:
空白白白白:
https://www.zhihu.com/people/jiafeimao/activities
鄒昕:
https://www.zhihu.com/people/xin_zou/activities
張溪夢:
https://www.zhihu.com/people/simonzhang1/activities
何明科:
https://www.zhihu.com/people/he-ming-ke/activities
秦路:
https://www.zhihu.com/people/qin-lu-17/activities
當(dāng)然還有很多優(yōu)秀的書籍和作者,這里不在一一列舉了,希望以上回答對想入手?jǐn)?shù)據(jù)分析的朋友有些幫助。
總結(jié)
以上是生活随笔為你收集整理的超级菜鸟如何入门数据分析?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 心路历程:「双非」研究生数据分析春招
- 下一篇: 代码实现中文命名实体识别(包括多种模型: