利用拉勾网爬取的数据查看当前的数据分析岗的市场行情
通過(guò)拉勾網(wǎng)的數(shù)據(jù)分析數(shù)據(jù)分析行情
- 1、明確需求和目的
- 2、數(shù)據(jù)準(zhǔn)備
- 3、數(shù)據(jù)處理
- 3.1 數(shù)據(jù)整合
- 3.1.1 加載相關(guān)的庫(kù)包和數(shù)據(jù)集
- 3.1.2 數(shù)據(jù)概覽
- 3.2 數(shù)據(jù)清洗
- 3.2.1 數(shù)據(jù)挑選與去重
- 3.2.2 去掉非數(shù)據(jù)分析崗的數(shù)據(jù)
- 4、 數(shù)據(jù)分析
- 4.1 各城市對(duì)數(shù)據(jù)分析崗位的需求情況
- 4.2 不同細(xì)分領(lǐng)域?qū)?shù)據(jù)分析崗的需求情況
- 4.3 數(shù)據(jù)分析崗位的薪資狀況
- 4.4 工作經(jīng)驗(yàn)與薪水的關(guān)系
- 4.5 公司都要求什么掌握什么技能
- 4.6 崗位的學(xué)歷要求高嗎
- 4.7 不同規(guī)模的企業(yè)對(duì)工資經(jīng)驗(yàn)的要求以及提供的薪資水平
- 4.8 整體總結(jié)
- 總結(jié)
- 參考鏈接
1、明確需求和目的
- 針對(duì)當(dāng)前形勢(shì)下分析數(shù)據(jù)分析崗位的行情。
- 選取某一/某些招聘平臺(tái)上的招聘數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)分析。
- 對(duì)于各大城市、各種規(guī)模的數(shù)據(jù)分析需求進(jìn)行詳細(xì)的分析與總結(jié)。
2、數(shù)據(jù)準(zhǔn)備
- 數(shù)據(jù)來(lái)源為某位偉大的貢獻(xiàn)者提供的爬蟲(chóng)和數(shù)據(jù)文件,是爬取拉勾網(wǎng)上的招聘數(shù)據(jù)信息。
- 數(shù)據(jù)文件集為"lagou.csv",其中共有3140行數(shù)據(jù),52具體特征。
3、數(shù)據(jù)處理
3.1 數(shù)據(jù)整合
3.1.1 加載相關(guān)的庫(kù)包和數(shù)據(jù)集
- 其中用到的庫(kù)包主要包括pandas、numpy、matplotlib、seaborn和pyecharts
- 使用的數(shù)據(jù)集是lagou.csv
3.1.2 數(shù)據(jù)概覽
2. 接著看一下這個(gè)數(shù)據(jù)集中的列名(特征):
3.2 數(shù)據(jù)清洗
3.2.1 數(shù)據(jù)挑選與去重
# 取出我們進(jìn)行后續(xù)分析所需的字段 columns = ["positionName", "companyShortName", "city", "companySize", "education", "financeStage","industryField", "salary", "workYear", "hitags", "companyLabelList", "job_detail"] df = df[columns].drop_duplicates() #去重 # 查看挑選后的數(shù)據(jù)長(zhǎng)度 len(df)3.2.2 去掉非數(shù)據(jù)分析崗的數(shù)據(jù)
從job_detail中提取出技能要求
我們將技能分為以下幾類:
- Python/R
- SQL
- Tableau
- Excel
處理方式: 如果job_detail中含有上述四類,則賦值為1,不含有則為0。
3. 處理行業(yè)信息
Tip: 在這一步我們的數(shù)據(jù)處理工作就初步結(jié)束了,因?yàn)檫@里我們整理出來(lái)的是我們后續(xù)需要的數(shù)據(jù),接下來(lái)的一步就是最終的數(shù)據(jù)分析步驟了,請(qǐng)各位小伙伴擦亮自己的雙眼,穩(wěn)住自己的雙手。Let’s go!
4、 數(shù)據(jù)分析
在此我們需要先明確我們的分析目標(biāo),主要是一下7點(diǎn):
4.1 各城市對(duì)數(shù)據(jù)分析崗位的需求情況
fig, ax = plt.subplots(figsize=(12,8)) sns.countplot(y="city",order= df["city"].value_counts().index,data=df,color='#3c7f99') plt.box(False) fig.text(x=0.04, y=0.90, s=' 各城市數(shù)據(jù)分析崗位的需求量 ', fontsize=32, weight='bold', color='white', backgroundcolor='#c5b783') plt.tick_params(axis='both', which='major', labelsize=16) ax.xaxis.grid(which='both', linewidth=0.5, color='#3c7f99') plt.xlabel('') plt.ylabel('')
小結(jié): 從這個(gè)圖標(biāo)我們可以看出,在很多著名的一線城市中對(duì)于數(shù)據(jù)分析崗位的需求量是十分巨大的,尤其是北上廣深,從中我們也可以明白數(shù)據(jù)分析在一線城市的立足之地是比較充沛的,當(dāng)然競(jìng)爭(zhēng)也在所難免。
4.2 不同細(xì)分領(lǐng)域?qū)?shù)據(jù)分析崗的需求情況
industry_index = df["industryField"].value_counts()[:10].index industry =df.loc[df["industryField"].isin(industry_index),"industryField"]fig, ax = plt.subplots(figsize=(12,8)) sns.countplot(y=industry.values,order = industry_index,color='#3c7f99') plt.box(False) fig.text(x=0, y=0.90, s=' 細(xì)分領(lǐng)域數(shù)據(jù)分析崗位的需求量(取前十) ', fontsize=32, weight='bold', color='white', backgroundcolor='#c5b783') plt.tick_params(axis='both', which='major', labelsize=16) ax.xaxis.grid(which='both', linewidth=0.5, color='#3c7f99') plt.xlabel('') plt.ylabel('')
小結(jié): 在此我們也可以看到,數(shù)據(jù)分析崗位在各個(gè)不同的細(xì)分領(lǐng)域中的需求量不低,而且也都是當(dāng)前的熱門(mén)領(lǐng)域,像電商、金融和數(shù)據(jù)服務(wù)等領(lǐng)域中都對(duì)數(shù)據(jù)分析有著極高的需求。
4.3 數(shù)據(jù)分析崗位的薪資狀況
fig,ax = plt.subplots(figsize=(12,8)) city_order = df.groupby("city")["salary"].mean()\.sort_values()\.index.tolist() sns.barplot(x="city", y="salary", order=city_order, data=df, ci=95,palette="RdBu_r") fig.text(x=0.04, y=0.90, s=' 各城市的薪資水平對(duì)比 ', fontsize=32, weight='bold', color='white', backgroundcolor='#3c7f99') plt.tick_params(axis="both",labelsize=16,) ax.yaxis.grid(which='both', linewidth=0.5, color='black') ax.set_yticklabels([" ","5k","10k","15k","20k"]) plt.box(False) plt.xlabel('') plt.ylabel('')
另外我們?cè)賮?lái)看看一線城市的薪資對(duì)比:
小結(jié): 從上述圖表上我們可以看到數(shù)據(jù)分析在個(gè)城市的薪資水平,在一線城市中的薪資基本都是10k以上。例如廣州的平均薪資更多集中在10k;北京最高,集中在23k之間;雖然上海和深圳薪資主要集中20k,但是它們的需求非常廣泛。價(jià)值源于需求和利益,而且在以后,數(shù)據(jù)分析崗位或許會(huì)越來(lái)越熱門(mén)。
4.4 工作經(jīng)驗(yàn)與薪水的關(guān)系
corr = df.pivot_table(index="city",columns="workYear",values="salary") corr = corr[["應(yīng)屆畢業(yè)生","1-3年","3-5年","5-10年"]] corr.loc[city_order]我們先看一下各大城市對(duì)于工作經(jīng)驗(yàn)和薪水的數(shù)據(jù)報(bào)表。
接著我們?cè)龠M(jìn)行比較細(xì)致的圖表描繪:
小結(jié): 從上述的報(bào)表和圖表我們可以看得到,數(shù)據(jù)分析崗的工作經(jīng)驗(yàn)與薪水幾乎是呈線性正相關(guān)關(guān)系。也就是說(shuō)隨著工作經(jīng)驗(yàn)的增加,薪水也會(huì)隨著增加,表面著這并非就是一份年輕的青春飯,有想法的同學(xué)們可以考慮一下。
4.5 公司都要求什么掌握什么技能
py_rate = df["Python/R"].value_counts(normalize=True).loc[1] sql_rate = df["SQL"].value_counts(normalize=True).loc[1] tableau_rate = df["Tableau"].value_counts(normalize=True).loc[1] excel_rate = df["Excel"].value_counts(normalize=True).loc[1] print("職位技能需求:") print("Python/R:",py_rate) print("SQL:",sql_rate) print("Excel:",excel_rate) print("Tableau:",tableau_rate)我們看一下主要的技能要求占比:
接著我用一張比較直觀的圖表展示,讓大家感受的更加貼切:
另外補(bǔ)充的一個(gè)就是大公司對(duì)于技能的要求占比:
最后就是事關(guān)未來(lái)的發(fā)展前景與當(dāng)前形勢(shì)了:
小結(jié): Look! 現(xiàn)如今的市場(chǎng)行情要求要具備的數(shù)據(jù)分析技能要求就是這樣。占比最大的兩個(gè)就是Python/R 以及 SQL ,Excel的含量也挺不錯(cuò)的,可以看情況使用,而對(duì)于Tableau的需求非常低,可以當(dāng)作額外興趣去學(xué)習(xí)。對(duì)于Python/R,我覺(jué)得選取其中一門(mén)進(jìn)行學(xué)習(xí)就可以,它們的市場(chǎng)占比是非常高的;而對(duì)于SQL,我只能說(shuō),若想爬的更高,那就必須去學(xué),如果問(wèn)Why?那就去看看上面那些圖表;Excel我覺(jué)得更多的前期過(guò)渡,因?yàn)镋xcel對(duì)于大量數(shù)據(jù)目前來(lái)看是硬傷。
4.6 崗位的學(xué)歷要求高嗎
education = df["education"].value_counts(normalize=True)from pyecharts.commons.utils import JsCode def new_label_opts():return opts.LabelOpts(formatter=JsCode("學(xué)歷要求")) pie = (Pie().add("",[list(z) for z in zip(education.index, np.round(education.values,4))],center=["50%", "50%"],radius=["50%","75%"],label_opts=new_label_opts()).set_global_opts(title_opts=opts.TitleOpts(title=""),legend_opts=opts.LegendOpts(is_show=False)).set_series_opts(label_opts=opts.LabelOpts(formatter=": ze8trgl8bvbq%")))pie.render_notebook()
小結(jié): 就目前的形勢(shì)來(lái)看,本科永遠(yuǎn)是占大頭的,因?yàn)榫透鞣N性價(jià)比來(lái)看,永遠(yuǎn)是本科生最實(shí)惠。
4.7 不同規(guī)模的企業(yè)對(duì)工資經(jīng)驗(yàn)的要求以及提供的薪資水平
最后的這個(gè)大家肯定也非常關(guān)心,那就讓我們來(lái)瞧一瞧吧!
3.函數(shù)干活,負(fù)責(zé)最累的活
def seed_scale_plot():seeds=np.arange(5)+1y=np.zeros(len(seeds),dtype=int)s=seeds*100colors=['#ff0000', '#ffa500', '#c5b783', '#3c7f99', '#0000cd'][::-1] fig,ax=plt.subplots(figsize=(12,1))plt.scatter(seeds,y,s=s,c=colors,alpha=0.3)plt.scatter(seeds,y,c=colors)plt.box(False)plt.grid(False)plt.xticks(ticks=seeds,labels=list(workYear_map.keys())[::-1],fontsize=14)plt.yticks(np.arange(1),labels=[' 經(jīng)驗(yàn):'],fontsize=16)萬(wàn)眾矚目的時(shí)刻到了
小結(jié): 其實(shí)總體看來(lái),數(shù)據(jù)分析崗位在各種規(guī)模的公司都是存在的,不過(guò)大公司一般招收的各階段的數(shù)據(jù)分析師都比較多一些,對(duì)于工作經(jīng)驗(yàn)十足的數(shù)據(jù)分析師更是十分歡迎的,不過(guò)工作經(jīng)驗(yàn)少的也可以努力爭(zhēng)取的。總之,加油嘍!
4.8 整體總結(jié)
總結(jié)
整體來(lái)說(shuō),這篇文章我是借鑒別的大佬的數(shù)據(jù)資料來(lái)進(jìn)行分析的,所以在此必須感謝大佬提供的資料。我也是想從事關(guān)于數(shù)據(jù)分析崗位的,這個(gè)崗位說(shuō)實(shí)話壓力會(huì)很大,競(jìng)爭(zhēng)力十足,但是也不要立刻放棄,你不試試怎么就知道自己真的不是主角呢?不過(guò)如果對(duì)于自己沒(méi)有試錯(cuò)機(jī)會(huì)的人來(lái)說(shuō),那就慎重一點(diǎn)吧!總之能看到這里的各位都是有耐心的狼滅了,非常感謝大家,謝謝!參考鏈接
大佬的鏈接:https://zhuanlan.zhihu.com/p/96073413
總結(jié)
以上是生活随笔為你收集整理的利用拉勾网爬取的数据查看当前的数据分析岗的市场行情的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ARDUNIO测试L297和L298n组
- 下一篇: 椭圆光学性质的几何证明