深入了解数据人才 | 中国数据人才白皮书
數據工作者作為大家求職的熱門崗位,需要什么樣的人才呢?又怎么衡量自己是否符合招聘要求呢?現在讓我們來深入了解下數據工作者吧。
數據人才
The world's most valuable resource is no longer oil, but data.
數據即資源!數據工作者的稀缺性與重要性也被逐漸凸顯出來。如何讓數據工作者成為更具競爭力的數據人才,在工作中發揮個人最大價值,從而實現良好的職業發展,這是每個數據工作者去思考的問題。相信,這篇文章可以給你一些指導思路。
數據工作者該如何定義
知識工作者:以知識資源為主要資本積累,基于知識發揮生產力和商業價值的一類人群。
數據工作者:知識工作者的一種,基于知識和工具開展工作,對數據進行加工和利用,解決問題并創造價值。
內容預覽
初識數據人才
數據人才畫像
數據人才對未來的期望
如何成為?頭部數據人才
1
初識數據人才
首先我們通過?成長經歷?及?目前現狀?兩個維度來對數據人才這一新型族群有一個初步的了解。
1.1
成長歷程
數據工作者擁有怎樣的專業背景與教育背景
多元化專業背景,理工科人才依舊是主力
數據人才的專業背景呈現出多元化特點,并不僅僅局限于某一專門學科,可以說數據處理技術已經滲透到各個專業領域。然而,在數據人才多元化的專業背景中,依然可以看出計算機類、數理統計及工程類學科占比總計超過60%。足以看出,偏理工學科背景的人才,具備良好的數理統計基礎、邏輯思維與編程能力。
優質院校占據半壁江山,市場供給質量較高
與其他人才群體相比,海外院校與國內985/211院校占比接近50%,2位數據專業人才中就有1位來自海外院校或國內985/211院校,從側面反映出數據人才群體整體供給質量較高。
1.2
目前現狀
數據人才分布主要集中在哪些城市,他們聚集在哪些類型的行業,性別是否有明顯的差異,工作經驗與工作滿意度如何,這些問題亦是企業、學校與個人關注的重點。
數據人才的分布與行業及城市的發展程度呈現高度相關性
從行業分布來看,數據人才主要集中在數據分析需求較高的行業,比如,互聯網、科技金融、零售等;同時,隨著高科技賦能現代化商業場景,信息化戰略的實施達到了一定成效,數據處理技術得以在此基礎上發揮其良好的效用。
從地域分布來看,數據人才主要分布在高科技企業較為集中的城市,比如,北京、上海、廣州、深圳、杭州等城市;同時,同時數據人才已經不再是一線城市的獨寵,二線城市的實力也在增強。
數據工作亦受女性青睞
在傳統的高科技行業的技術崗位中,男性工作者數量普遍具有更高占比,且與女性數量有較大差異。然而在上圖中可以看出,每3位數據人才中就有1位女性,與科技行業的其他技術崗位相比,女性占比更高。
數據人才的主要來源
從上圖分布可以看出,有接近50%的人目前具有3年以下工作經驗,從側面反映出數據人才群體中職場新人居多;同時,有30%的人具備超過5年的工作經驗,反映出目前數據人才中的另一主要人群來自于企業中傳統崗位的人才轉型。職場新人和企業內部轉型員工是數據人才的主要來源
2
?數據人才畫像
成為一名優秀的人才需要兼備硬實力與軟實力。那想要成為一名數據工作者應該具有哪些硬實力與哪些軟實力呢?
在數據人才的硬實力方面,從常用的數據科學理論知識、數據分析的工作棧、數據處理的方法與步驟及主流軟件的使用等四個方面分析了數據人才的硬實力。
在數據人才的軟實力方面,從思維、影響、適應和執行四個構面,108個個性特質和行為風格去評估和預測參與調研的數據人才的勝任力潛能,從而充分了解數據人才的軟實力。
本文主要介紹數據工作者應該具備的硬實力,給想要成為數據工作者的學習者提供技能上的提升參考。
數據人才的知識技能
常用的數據科學理論知識
調研結果表明,數據工作者最常用的數據科學方法是線性回歸、邏輯回歸以及決策樹,這三種方法也是數據分析學科中最經典的模型,也是數據人才在解決問題的過程中首選的方法。這表明,數據人才的知識門檻并非想象的那么高。
數據處理的目的與步驟
通過對數據工作的應用目的分析可知,清洗整理數據、統計描述以及收集數據是最常用的三個應用目的。其中,收集數據以及清洗整理數據一般是數據處理的第一步,統計描述是對統計分析結果進行分析及解釋。
從數據人才在工作中的步驟來看,大部分工作中都涉及基礎步驟,而隨著步驟本身的復雜程度提高,工作中涉及到這些步驟的人的比例也有了顯著的下降。調研結果顯示,在工作中,越復雜的步驟使用的人越少,這從側面也為數據人才提升自身競爭力提供了明確的方向。
數據處理的工作棧
從工具的常見程度和重要程度對數據處理的各個工具棧進行調研,這些工具主要包括:Python、 SQL、 Excel、Hadoop/Hive/Pig、R、Jupyter Notebooks、Tableau、Spark/MLlib、Java等。
實際數據分析工作中,數據人才需要將目標分解為對數據的查詢、清洗、建模分析等工作任務。Excel、SQL、Python 三者相輔相成,助力數據人才根據實際業務需求,選擇相應的工具棧完成任務。
此處需要特別說明的是?Jupyter Notebook?雖然在國內的流行程度還不高,但已經受到了大部分數據工作者的重視,相信他會被越來越多的數據人才所應用。
?用 Python 做數據分析
Pandas 主要被用于數據讀取、清洗預處理等操作;Numpy 提供了許多高級的數值編程API,被用于完成更復雜的數據處理任務;Matplotlib 是一個基礎的繪圖庫,可以協助數據工作者完成數據可視化任務。
Pandas、Numpy 及 Matplotlib 是用Python編程的數據人才最常用的3個工具包。
3
數據人才對未來的期望
雙通道職業發展的期望
根據調研結果分析,有48%的數據人才未來期望成為高管/創始人,成為公司或團隊的領頭羊。有42%-43%的數據人才以工程師、咨詢師作為自己的職業目標,依托精湛的技術獲取自身滿足感與事業成就感。相較于其他人才群體,數據人才對于未來的職業發展通道更偏好于走專業路線。
未來三年內繼續學習深造
?有超過7成的數據人才傾向自己未來三年內要繼續學習和深造,這也充分反映出數據人才對自我提升的較強意愿。
偏好閱讀及網絡碎片化知識的方式充電
數據分析行業的算法、技術與工具的更新迭代速度較快,調研結果表明,有三分之一的數據人才每天學習兩個小時以上。
數據人才獲取知識的途徑比較綜合,不僅以傳統閱讀的方式獲取系統知識,在各種交流網站及微信朋友圈中吸收碎片化知識也是主要渠道。
4
?如何成為頭部數據人才
頭部數據人才:以知識技能(硬實力)為橫軸,以勝任力潛能為縱軸(軟實力),原點以兩個指數各自的均值,得到數據人才評估的坐標系,落在第一象限的即為頭部數據人才。即頭部數據人才的軟硬實力皆高于均值。調查顯示,頭部數據人才約占22%。
其他數據人才:除頭部數據人才外的其他
來源更優
調查顯示,頭部數據人才來源更優,有35%的頭部數據人才擁有碩士及以上學歷,同時有50%的頭部數據人才來源于985/211高校。
頭部數據人才 | 其他數據人才 | |
碩士及以上 | 35% | 20% |
985/211 | 50% | 低于40% |
知識技能更強
頭部人才知識技能(硬實力)與勝任力潛能(軟實力)上同樣優于其余數據人才,在這里我們重點關注知識技能方面,給大家一些指導意見,如果想成為一位頭部數據人才,需要往哪方面努力?
數據人才的需要掌握的知識技能
知識技能上的均值差異
對比發現,在數學與統計分析和機器學習相關知識技能方面,頭部人才均值都要優于其他數據人才,但同時我們可以看到,兩者之間的差距在機器學習領域表現更為突出。
機器學習在數據工作中的運用不僅可以更好地做一系列的預測或判斷,還能自動化理解并捕捉非結構化數據(如圖像,文本,語言等)中的信息,從而為進一步的挖掘與分析奠定了基礎,因此機器學習是非常重要的一部分數據專業能力。
這也就告訴我們想要成為頭部數據人才,必須對機器學習的內容有了解涉略。
常用算法差別
在各個算法的常用性方面,線性回歸作為最基礎的數據分析模型,使用頻率基本一致,而在較為復雜的算法方面,兩者之間的使用頻率有明顯的差異。這也就建議學習者在復雜算法增加學習投入,提升自己專業技能。
自我提升投入時間差異
這里有一項很有意思的調查,是調查數據工作者每天的學習時間,經過對比發現,頭部數據人才之所以是頭部人才,大概率是因為他們在提升自我學習上花了更多的時間。
總結
成為一名數據人才非一日之功,希望以上四個方面能夠為學習者提供一定的幫助作用與借鑒價值,同時你還要有著將工具、技術與勝任力潛能融為一體的深入理解。身處 AI 與 大數據時代—“這是一個最好的時代,也是一個最壞的時代”! 數據分析師在業內需求巨大,對于任何愿意從事這一工作的人來說,這依舊是一個心照不宣的選擇!
寫到后邊
文章內容來源《2018年數據人才白皮書》,該書由中國領先的數據科學平臺科賽網與國際頂級咨詢公司韋萊韜悅共同策劃與制作。作者自己在讀這本書時,受到了極大的啟發,把它推薦給朋友讀,也有相同的感受。于是,萌生了把書中內容提煉,總結的想法,于是有了今天的文章。
在這里,Datawhale面對廣大學習者,對書中內容進行了篩選與總結,將對學習者自身有價值的內容提煉出來,并做了部分內容取舍后,編輯了這篇文章的結構內容。意在給廣大學習者提供學習指導。
需要說明的是,對該書的引用已經經過官方授權,若有疑問,可后臺聯系我們。
作者
張峰,安徽工業大學研究生。Datawhale團隊成員,Datawhale優秀回答者。熟悉機器學習、數據挖掘、模式識別及計算機視覺等領域知識;擅長于機器學習、數據挖掘等經典常用算法的實踐應用。
馬晶敏,上海交通大學研究生。Datawhale核心成員,Datawhale團隊負責人,目前從事運籌優化研究,主要設計算法解決路徑調度問題。
圖片/《2018年數據人才白皮書》
文字/張峰 馬晶敏
作者的公眾號:
Datawhale
和學習者一起成長
長按掃碼關注我們
請關注和分享↓↓↓?
本站的知識星球(黃博的機器學習圈子)ID:92416895
目前在機器學習方向的知識星球排名第一
往期精彩回顧
良心推薦:機器學習入門資料匯總及學習建議(2018版)
黃海廣博士的github鏡像下載(機器學習及深度學習資源)
吳恩達老師的機器學習和深度學習課程筆記打印版
機器學習小抄-(像背托福單詞一樣理解機器學習)
首發:深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書
科研工作者的神器-zotero論文管理工具
機器學習的數學基礎
機器學習必備寶典-《統計學習方法》的python代碼實現、電子書及課件
吐血推薦收藏的學位論文排版教程(完整版)
機器學習入門的百科全書-2018年“機器學習初學者”公眾號文章匯總
Python環境的安裝(Anaconda+Jupyter notebook+Pycharm)
Python代碼寫得丑怎么辦?推薦幾個神器拯救你
總結
以上是生活随笔為你收集整理的深入了解数据人才 | 中国数据人才白皮书的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TIANCHI天池-OGeek算法挑战赛
- 下一篇: 重磅推荐《南瓜书》:周志华《机器学习》的