那些年,我在阿里当数据开发
前言:
-更多關于數智化轉型、數據中臺內容請加入阿里云數據中臺交流群—數智俱樂部?(文末掃描二維碼或點此加入)
-阿里云數據中臺官網?https://dp.alibaba.com/index
(作者:數據從業者 )
我是阿里數據部門的一名數據技術專家,現在主要在對外部客戶的一些數據中臺項目中,做技術以及產品的支持。
我原來在阿里內部其實做了5年的數據開發,現在在做一些外部項目的時候,經常會和一些生態合作伙伴公司一起去交付項目,在這些合作伙伴的數據開發中,不管是新人還是老人,都能看到我曾經的一些影子,所以我想借助這篇文章,講述一下我在阿里當數據開發的一些經歷 ,希望在個人發展上對他們有一點幫助。
我是13年加入阿里的,在進阿里前,原來是做銀行的數據倉庫建設,用的是TERADATA的LSDM那套3NF建模的方法,技術也主要圍繞TERADATA和后來的GREENPLUM為主,所以進到阿里后,會有一個在業務和技術上適應的過程。
首先是技術上,我進到阿里后,那時候阿里正處于底層的數據處理平臺更換的階段,從GREENPLUM替換到HADOOP平臺,因此我進入部門后,首先對HADOOP大數據平臺并不是很熟悉,因為那時候銀行里面都還沒有開始用HADOOP平臺,所以一開始對HADOOP這套計算架構就非常的不適應,比如為什么跑個SQL這么慢,執行個SQL還要打開網頁運行(因為我們原來用的是在云端),這是一個慢慢熟悉和適應的過程。
另外一方面是業務方面的適應,需要從原來熟悉的銀行業務,過度到互聯網業務。業務變了,對應的數據也都發生了很大的變化,我到了ICBU后,被分配到負責流量和廣告相關的業務,會接觸到大量的日志數據,比如頁面瀏覽,點擊,曝光,還有P4P點擊廣告相關的日志,面對這么多非結構化的日志數據,我一開始都不清楚為什么需要這些日志的數據, 但是通過后面不斷對互聯網業務的熟悉,才知道流量分析對網站的重要性,這個階段我也熟悉了很多流量相關的業務知識,比如SEM,PPC,SEO,聯盟等等。
這個階段除了提高新的技術和業務能力外,主要的工作就是不斷的接需求做報表。團隊里面有專門的數據PD,他們的職責就是"接活",每天接業務方的需求,然后通過需求溝通和分析,每個月排定我們數據開發的資源,所以時間長了以后你就會覺得你就僅僅是一個資源,個人價值無法得到體現。
所以后來我們進行了改革,就是讓數據開發自己到前面,接業務的需求,然后自己溝通和分析,數據PD就都去做PD應該做的數據產品設計。說實話,這是一個很好的讓開發成長的措施,因為做數據的,要想真正了解數據,你首先要了解對應的業務,不然你開發出來的數據,就只是那幾張硬生生的報表。也正因為這個階段,我學會了一些如何和業務“談”需求的方法,比如WBRD,問需求方十個問題,像需求基于什么樣的業務背景,業務的痛點是什么,指標中的模糊詞匯如何定義,等等,將這些都問題清楚,你才能知道你為了什么而開發這個需求,而且你才能知道哪些需求該重點優先去排自己的時間做,這就是去做正確的事情。
另外這階段也學到了一些數據分析的方法,因為我做出來的報表需要直接面向我的最終用戶的,原來是開發好后,就丟給數據PD,所以現在業務方會直接來找我說,某某,你這個數據不對啊,這個時候,我才知道業務原來是這樣分析數據的,因為我所在的是流量線,我也知道了原來流量是如何做相應的數據監控,才能及時的發現問題,排查問題,定位原因以及解決和預防問題。
所以,這是一個“往前邁一步”的階段,這個階段讓我學會了需求分析和數據分析的一些方法,讓我覺得個人的價值還是有一定的體現的,有時候被業務方點贊和認可,自己心里還是很暗爽的~~~
后來,阿里進行了登月項目,這個大家很多人都知道,就是將阿里所有部門的數據平臺都遷移到ODPS,然后統一使用ONEDATA建模方法論去進行建模工作。但是我后面的工作重心并不是在ONEDATA建模上,而是在ODPS資源優化上。因為自從登月以后,ODPS的計算和存儲是使用量不斷提高,出于降本增效的目的,當時的CTO就成立了專門的數據管理委員會,并且基于統一的數據資產管理平臺,進行全集團的數據治理。參加過我們培訓的人應該知道,主要的治理也是包括計算和存儲兩方面,對應的有計算健康分和存儲健康分,如果達不到一定分數的人到時候就不能使用ODPS,所以那時候,我接到的副業就是,做為接口人,幫助整個B2B的同學一起進行優化。
所以,這一階段,我的工作就是組織全BU的人,學習ODPS的優化方法,包括一些后端和算法部門會使用到ODPS的同學,將一個個有問題,比如消耗資源TOP的幾個SQL,抓出來教他們進行優化,但是你要教他們首先你得會一套有體系的優化方法,這個首先還得依賴我們阿里強大的產品能力,一些優化的方法論其實都體現在產品上,通過對數據管理平臺中優化方法的學習和沉淀,那段時間我幾乎每天都在和這些問題SQL打交道。而且后來我還接了整個數據開發部門慢報表的治理的工作,就是看部門哪個報表慢,哪個報表30天沒人訪問了,該下的下,該優化的優化。所以也正因為這個階段的刻意訓練吧,我熟悉了ODPS的底層的一些原理,以及處理MYSQL,ADB一些慢SQL的方法,以及針對不同的分析場景需要采用什么樣的數據存儲,是MYSQL還是ADB。
所以,假如你是一名合格的數據開發人員,你開發出來的報表查詢時間不能低于3秒,開發的ODPS任務不能出現像數據傾斜,或者分區裁剪失效等問題,而且你要知道具體優化的方法。
接著后來做完這些工作后,我又往前走了一步,就是和團隊的產品PD,一起搞了一些數據產品,比如一些應用計算的組件平臺,還有核心指標庫,以及一些業務的數據門戶。因為你做到后來你會發現,正在能帶來價值的還是產品,而且一方面你可以將你的一些方法論沉淀在產品上。這個階段也從產品PD那里學了一些產品設計的方法,至少用AXURE畫個產品的DEMO應該沒問題吧。
另外這個階段我也懂得了一個方法,就是你要學習一個技術,或者一個事情吧,你可以先從它對應的產品學起,因為產品往往是業界對應的方法論的沉淀,你可以通過產品,很快地掌握這件事情的方法,就比如我們的DATAPHIN產品,如果你要學習數據中臺相應的方法論,你可以通過DATAPHIN產品學,包括數據建模,數據資產,數據質量等等方法論,都會在產品中體現。
至于后來為什么我開始支持對外的項目,是因為我看到了更多的社會價值,通過阿里云,我們輸出原來阿里沉淀的一些數據中臺建設的方法論,可以幫助外部的企業進行數字化轉型,我覺得我更傾向于選擇支持外部。
寫在最后,我覺得大家都是在將自己的能力最大化,價值最大化的過程中前進,所以有時候“往前邁一步”,可能會有更好的風景。
?
數據中臺是企業數智化的新基建,阿里巴巴認為數據中臺是集方法論、工具、組織于一體的,“快”、“準”、“全”、“統”、“通”的智能大數據體系。目前正通過阿里云數據中臺解決方案對外輸出,包括零售、金融、互聯網、政務等領域,其中核心產品有:
- Dataphin,一站式、智能化的數據構建及管理平臺;
- Quick BI,隨時隨地 智能決策;
- Quick Audience,全方位洞察、全域營銷、智能增長;
- Quick A+, 跨多端全域應用體驗分析及洞察的一站式數據化運營平臺;
官方站點:
數據中臺官網?https://dp.alibaba.com
?
原文鏈接
本文為云棲社區原創內容,未經允許不得轉載。
總結
以上是生活随笔為你收集整理的那些年,我在阿里当数据开发的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 人工智能如何提升大数据存储与管理效率?
- 下一篇: 一文了解EPaxos核心协议流程