當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

数据可视化组队学习：《Task06 - 场景案例显神通》笔记

發(fā)布時(shí)間：2025/3/15 编程问答 14 豆豆

生活随笔收集整理的這篇文章主要介紹了数据可视化组队学习：《Task06 - 场景案例显神通》笔记小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

前言
1 展示趨勢(shì)變化（Evolution）
- 1.1 折線圖
- - 1.1.1 簡(jiǎn)單線圖
  - 1.1.2 突出某一重點(diǎn)的多線圖
- 1.2 面積圖
- 1.3 堆積面積圖
2 展示分布關(guān)系
- 2.1 小提琴圖
- 2.2 箱型圖
- 2.3 直方圖
- 2.4 密度圖
3 展示相關(guān)關(guān)系
- 3.1 散點(diǎn)圖
- 3.2 熱力圖
- 3.3 氣泡圖
4 展示排序信息
- 4.1 柱狀圖
- 4.2 雷達(dá)圖
- 4.3 平行坐標(biāo)圖
- 4.4 棒棒糖圖
- 4.5 圓形柱狀圖
5 展示組成關(guān)系
- 5.1 餅圖
- 5.2 甜甜圈圖
- 5.3 文氏圖
- 5.6 樹形圖
作業(yè)

前言

本文為《Task06 - 場(chǎng)景案例顯神通》筆記。
介紹用于不同場(chǎng)景的可視化圖表類型：

1）展示趨勢(shì)變化（Evolution）
2）展示分布關(guān)系（Distribution）
3）展示相關(guān)關(guān)系（Correlation）
4）展示排序信息（Ranking）
5）展示組成關(guān)系（Part of a whole）

1 展示趨勢(shì)變化（Evolution）

1.1 折線圖

通過用于呈現(xiàn)時(shí)間趨勢(shì)的變化（時(shí)間序列），所以x軸常用來代表時(shí)間。

使用折線圖使需要注意：

X軸的數(shù)據(jù)必須是有序的

是否需要截?cái)郰軸，即Y軸是否必須要從0點(diǎn)開始？

如果要比較兩個(gè)或多個(gè)不同的變量的變化趨勢(shì)，不要使用雙Y軸圖表

小心有很多線條的線圖(spaghetti chart-意大利面條圖),太多的線條會(huì)讓圖表變得混亂、無法閱讀；建議使用多子圖形式或重點(diǎn)突出某一個(gè)種類

用plt繪制時(shí)，如果只輸入一列數(shù)則默認(rèn)為y的值，而自動(dòng)生成x。

1.1.1 簡(jiǎn)單線圖

import matplotlib.pyplot as plt import numpy as np import pandas as pd# 創(chuàng)建數(shù)據(jù)，分別對(duì)應(yīng)X軸和Y軸，注意X軸要是有序排列的 df=pd.DataFrame({'xdata': range(1,101), 'ydata': np.random.randn(100) })# 繪圖 plt.style.use('seaborn-darkgrid') # 也可以選擇其他的風(fēng)格式樣 seaborn-whitegrid plt.figure(figsize=(15, 10)) # 設(shè)置畫布大小# color：控制線條顏色，red/skyblue/blue 等 # alpha：控制線條透明度 # linestyle：控制線條式樣，'--'， '-'， '-.'， ':' 等 # linewidth：控制線條粗細(xì)大小 plt.plot( 'xdata', 'ydata', data=df, color='blue',alpha=0.3, linestyle='-.', linewidth=2, label='linestyle') plt.legend(loc='upper left', frameon=False) # 設(shè)置標(biāo)簽 plt.title('Basic line plot') # 設(shè)置標(biāo)題 plt.show()

1.1.2 突出某一重點(diǎn)的多線圖

當(dāng)途中又多條線時(shí)，我們可以突出某條或幾條線。有兩種方法：

還是在一張圖上，突出其中一條或兩條線，其他都是作為背景的灰色

有幾條線就畫幾個(gè)子圖

未突出重點(diǎn)的圖：

突出了重點(diǎn)的圖：

# 導(dǎo)入包 import matplotlib.pyplot as plt import numpy as np import pandas as pd# 導(dǎo)入數(shù)據(jù)集并轉(zhuǎn)成方便作圖的格式 Dataset = pd.read_csv('data/Drugs.csv') group = Dataset.groupby(['YYYY','State']).agg('sum').reset_index() df = group.pivot(index='YYYY', columns='State', values='DrugReports').reset_index()# 設(shè)定式樣 plt.style.use('seaborn-darkgrid')# 繪圖 plt.figure(figsize=(10, 10), dpi=70) # 所有的線條都畫成灰色 for column in df.drop('YYYY', axis=1):plt.plot(df['YYYY'], df[column], marker='', color='grey', linewidth=1, alpha=0.4) # PA的特殊處理，用橘色且加粗 plt.plot(df['YYYY'], df['PA'], marker='', color='orange', linewidth=4, alpha=0.7)# 設(shè)定每條線的label的位置，其他的都為灰色，PA的為橘色 num=0 for i in df.values[7][1:]:num+=1name=list(df)[num]if name != 'PA':plt.text(2017.02, i, name, horizontalalignment='left', size='small', color='grey') # 特殊處理PA plt.text(2017.02, df.PA.tail(1), 'PA', horizontalalignment='left', size='small', color='orange')# 添加圖的標(biāo)題和XY軸的標(biāo)簽 plt.title("Evolution of PA vs other states", loc='left', fontsize=12, fontweight=0, color='orange') plt.xlabel("Year") plt.ylabel("DrugReports")

多子圖：
多個(gè)子圖對(duì)比的時(shí)候，需要注意，X軸和Y軸的刻度大小需要嚴(yán)格一致，不然會(huì)帶來誤導(dǎo)。

# 導(dǎo)入包 import matplotlib.pyplot as plt import numpy as np import pandas as pd# 導(dǎo)入數(shù)據(jù)集并轉(zhuǎn)成方便作圖的格式 Dataset = pd.read_csv('data/Drugs.csv') group = Dataset.groupby(['YYYY','State']).agg('sum').reset_index() df = group.pivot(index='YYYY', columns='State', values='DrugReports').reset_index()# 初始化畫布的設(shè)定 plt.style.use('seaborn-darkgrid') # 風(fēng)格 palette = plt.get_cmap('Set1') # 顏色卡 plt.figure(figsize=(15, 10)) # 畫布大小# 繪制 num=0 for column in df.drop('YYYY', axis=1):num+=1# 設(shè)定子圖在畫布的位置plt.subplot(3,3, num)# 畫線圖plt.plot(df['YYYY'], df[column], marker='', color=palette(num), linewidth=1.9, alpha=0.9, label=column)# 設(shè)定子圖的X軸和Y軸的范圍，注意，這里所有的子圖都是用同一套X軸和Y軸plt.xlim(2009.3,2017.3)plt.ylim(0,50000)# 添加每個(gè)子圖的標(biāo)題plt.title(column, loc='left', fontsize=12, fontweight=0, color=palette(num) )# 添加整個(gè)畫布的標(biāo)題 plt.suptitle("How many DrugReports the 5 states have in past few years?", fontsize=13, fontweight=0, color='black', style='italic', y=0.95)# 添加整個(gè)畫布的橫縱坐標(biāo)的名稱 plt.text(2014, -9500, 'Year', ha='center', va='center') plt.text(1998, 60000, 'DrugReports', ha='center', va='center', rotation='vertical')

1.2 面積圖

在折線圖下方區(qū)域填充顏色，相比于折線圖，面積圖能更明顯地反應(yīng)數(shù)據(jù)的變化趨勢(shì)。

注意事項(xiàng)：

是否要截?cái)郰軸，見折線圖部分。

如果需要對(duì)比兩個(gè)或以上的類別，建議使用堆積面積圖；如果一定要在單一面積圖上表示，注意填充顏色一定要是透明色的，可以看到所有的線條。

注意圖形的長(zhǎng)寬比，讓圖形更易讀一點(diǎn)。

一個(gè)好的做法是，將線條和填充的顏色保持統(tǒng)一，填充的顏色設(shè)置一些透明度，這些的圖形會(huì)更美觀一點(diǎn)。

在python中，可以用 fill_between 和 stackplot 來實(shí)現(xiàn)。
這里更推薦使用 fill_between，在之后的定制化操作中更方便一點(diǎn); stackplot更多的是用在堆積面積圖中。

# 導(dǎo)入包 import numpy as np import matplotlib.pyplot as plt# 創(chuàng)建數(shù)據(jù) x=range(1,15) y=[1,4,6,7,4,9,3,2,4,1,5,4,8,7]# 繪圖 # facecolor：控制填充顏色，red/skyblue/blue 等 # alpha：控制填充透明度 # hatch: 控制陰影式樣{'/', '\', '|', '-', '+', 'x', 'o', 'O', '.', '*'} plt.fill_between( x, y, facecolor="skyblue", alpha=0.4, hatch='/') plt.show()# 在填充的基礎(chǔ)上，添加一條折線，圖形更加清晰 plt.fill_between( x, y, facecolor="skyblue", alpha=0.2) plt.plot(x, y, color="skyblue", alpha=0.6, linewidth=1.5) # 線的更多設(shè)置可以參考 line plot文檔 plt.show()

1.3 堆積面積圖

特點(diǎn)如下：

不同于多折線圖的線條可能相互交叉，堆積面積圖不會(huì)出現(xiàn)不同分類的數(shù)據(jù)點(diǎn)被遮蓋、被隱藏的狀況。每個(gè)類別都是都是堆積在下面類別面積圖之上的。

堆積面積圖與標(biāo)準(zhǔn)面積圖不同，某一分類的值并非與縱坐標(biāo)完全對(duì)應(yīng)，而是通過折線之間的相對(duì)高度來表達(dá)。

堆積面積圖不僅可以展示各類的發(fā)展趨勢(shì)(面積圖和折線圖都能表示這個(gè))，可以表達(dá)總體的發(fā)展趨勢(shì)和個(gè)種類間的關(guān)系，比如重要程度，大致占比等。

stackplot函數(shù)繪制的方式有二：

一個(gè)X和多個(gè)Y
將多列Y的數(shù)據(jù)合并成一個(gè)

一個(gè)X和多個(gè)Y：

將多個(gè)y合并成一個(gè)：

# library import numpy as np import matplotlib.pyplot as pltplt.style.use('seaborn-darkgrid') # 風(fēng)格 plt.figure(figsize=(10, 6)) # 畫布大小# 方式一， y由三個(gè)序列組成 x=range(1,6) y=[ [1,4,6,8,9], [2,2,7,10,12], [2,8,5,10,6] ]# 繪圖 plt.stackplot(x,y, labels=['A','B','C']) plt.legend(loc='upper left') plt.show()

2 展示分布關(guān)系

2.1 小提琴圖

小提琴圖是用來展示多組數(shù)據(jù)的分布狀態(tài)以及概率密度，它顯示了一個(gè)（或多個(gè)）分類變量多個(gè)屬性上的定量數(shù)據(jù)的分布，從而可以比較這些分布。

seaborn.violinplot 參數(shù)data可接受的數(shù)據(jù)類型:

dataDataFrame, array, or list of arrays, optional

參數(shù)x,y,hue的作用：

x,y是用作橫縱坐標(biāo)的屬性，hue是在x,y取某組值（屬性x，屬性y）時(shí)要觀察其數(shù)據(jù)分布和概率密度的屬性。當(dāng)hue屬性有不同的值時(shí)，在同一（屬性x，屬性y）情況下會(huì)展現(xiàn)出多個(gè)小提琴圖。

下小節(jié)的箱形圖同理。

注意事項(xiàng)：

不適合展示只有很少組別的數(shù)據(jù)

按照中位數(shù)排序能讓數(shù)據(jù)看起來更直觀

import seaborn as sns df = pd.read_csv('data/iris.csv')#根據(jù)分類變量分組繪制一個(gè)縱向的小提琴圖： sns.violinplot( x=df['species'],y=df["sepal_length"],inner='quartile' )#x代表不同的類別特征，y代表連續(xù)特征,inner代表在小提琴圖中顯示四分位數(shù)線

tips = pd.read_csv('data/tips.csv') #根據(jù)2個(gè)分類變量嵌套分組繪制一個(gè)小提琴圖 ax = sns.violinplot(x="day", y="total_bill", hue="smoker",data=tips, palette="muted")

在上圖中，可以看到，根據(jù)hue代表的屬性’smoker’‘的取值’‘No’和’Yes’，在每組（屬性x，屬性y）下展現(xiàn)了兩個(gè)小提琴圖。

2.2 箱型圖

箱形圖（或盒須圖）以一種利于變量之間比較或不同分類變量層次之間比較的方式來展示定量數(shù)據(jù)的分布。矩形框顯示數(shù)據(jù)集的上下四分位數(shù)，而矩形框中延伸出的線段（觸須）則用于顯示其余數(shù)據(jù)的分布位置，剩下超過上下四分位間距的數(shù)據(jù)點(diǎn)則被視為“異常值”。

作用：

同一數(shù)軸上，幾批數(shù)據(jù)的箱形圖并行排列，幾批數(shù)據(jù)的中位數(shù)、尾長(zhǎng)、異常值、分布區(qū)間等形狀信息便一目了然。在一批數(shù)據(jù)中，哪幾個(gè)數(shù)據(jù)點(diǎn)出類拔萃，哪些數(shù)據(jù)點(diǎn)表現(xiàn)不及一般，這些數(shù)據(jù)點(diǎn)放在同類其它群體中處于什么位置，可以通過數(shù)據(jù)箱形圖的形狀看出。

箱型圖可以直接使用 seaborn.boxplot 方法來實(shí)現(xiàn):

import seaborn as sns sns.set(style="whitegrid") tips = pd.read_csv('data/tips.csv') #根據(jù)分類變量分組繪制一個(gè)縱向的箱型圖 ax = sns.boxplot(x="day", y="total_bill", data=tips)

# 根據(jù)2個(gè)分類變量嵌套分組繪制一個(gè)箱型圖 ax = sns.boxplot(x="day", y="total_bill", hue="smoker",data=tips, palette="Set2")

# 使用 swarmplot() 展示箱型圖頂部的數(shù)據(jù)點(diǎn) ax = sns.boxplot(x="day", y="total_bill", data=tips) ax = sns.swarmplot(x="day", y="total_bill", data=tips, color=".25")

2.3 直方圖

直方圖只能接收數(shù)值類型的變量數(shù)據(jù)，該變量被切割成幾個(gè)箱子，每個(gè)箱子的高度代表處于分箱中的數(shù)量。

注意事項(xiàng)

使用過程中要注意分箱數(shù)量的選擇

不要用直方圖展示超過5個(gè)變量的分布情況

避免使用彩色

可以使用seaborn.histplot方法繪制直方圖。

重要參數(shù)stat,element:

stat: {“count”, “frequency”, “density”, “probability”}

Aggregate statistic to compute in each bin.

count shows the number of observations
frequency shows the number of observations divided by the bin width
density normalizes counts so that the area of the histogram is 1
probability normalizes counts so that the sum of the bar heights is 1

element: {“bars”, “step”, “poly”}

Visual representation of the histogram statistic. Only relevant with univariate data.

import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_boston boston=load_boston() y = boston['target']f, axs = plt.subplots(7,1,figsize=(10,10)) # 計(jì)算標(biāo)準(zhǔn)直方圖 sns.histplot(y,stat='count',ax=axs[0]) # 計(jì)算頻率直方圖 sns.histplot(y,stat='frequency',ax=axs[1]) # 計(jì)算密度 sns.histplot(y,stat='density',ax=axs[2]) # 歸一化的直方圖 sns.histplot(y,stat='probability',ax=axs[3]) # 在直方圖上同時(shí)畫出密度曲線 sns.histplot(y,stat='probability',kde=True,ax=axs[4]) # 取消填充 sns.histplot(y,stat='probability', fill=False,ax=axs[5]) # 取消直方圖的分割線 sns.histplot(y,stat='probability',element="step", fill=False,ax=axs[6])plt.tight_layout()

2.4 密度圖

密度圖和直方圖很類似，同樣用來展示數(shù)值型變量的分布情況。

注意事項(xiàng)

注意密度函數(shù)的帶寬

不要用直方圖展示超過5個(gè)變量的分布情況

避免使用彩色

可以使用 seaborn.deplot 方法繪制直方圖;

#kdeplot()中的bw參數(shù)控制著估計(jì)值與真實(shí)數(shù)據(jù)之間的貼近程度 #它與我們的KDE圖的寬度相關(guān)。它提供了默認(rèn)的規(guī)則來確定一個(gè)取值 x = np.random.normal(size=100) sns.kdeplot(x, label="bw: default") sns.kdeplot(x, bw_method=0.2, label="bw: 0.2") sns.kdeplot(x, bw_method=2, label="bw: 2") plt.legend();

mean, cov = [0, 1], [(1, .5), (.5, 1)] data = np.random.multivariate_normal(mean, cov, 200) df = pd.DataFrame(data, columns=["x", "y"]) #核密度估計(jì)也適用于二元的情況。在seaborn中，這種圖會(huì)以等高線的方式展示出來，我們可以用jointplot(kind="kde")來繪制 sns.jointplot(x="x", y="y", data=df, kind="kde")

3 展示相關(guān)關(guān)系

3.1 散點(diǎn)圖

散點(diǎn)圖常用于查看數(shù)值型變量之間的相關(guān)性，同時(shí)可以利用不同顏色來區(qū)分樣本所屬的類別。

注意事項(xiàng)
繪制散點(diǎn)圖時(shí)要避免Overplotting，意思是由于散點(diǎn)數(shù)量過多導(dǎo)致圖中的樣例點(diǎn)過度重合。

可以通過抽樣來作圖

可以用熱力圖代替

調(diào)節(jié)樣本點(diǎn)的size

可以直接用 matplotlib.scatter 方法繪制散點(diǎn)圖:

import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np df = pd.read_csv('data\diamonds.csv').sample(1000)# 繪制標(biāo)準(zhǔn)散點(diǎn)圖 plt.scatter(df.carat, df.price, s=0.2)

# 用顏色區(qū)別不同類別的散點(diǎn) sns.lmplot(x='carat', y='price', data=df, hue='cut', fit_reg=False)

3.2 熱力圖

通常用于數(shù)值變量的總體信息，可以通過顏色深淺明顯地看出哪些數(shù)據(jù)更多。

通常和pandas一起使用。

注意事項(xiàng)

考慮到長(zhǎng)尾分布等情況，經(jīng)常需要對(duì)數(shù)據(jù)做標(biāo)準(zhǔn)化的預(yù)處理

經(jīng)常需要對(duì)數(shù)據(jù)先進(jìn)行分箱再繪圖，對(duì)于類別變量而言，可以進(jìn)行類別的合并；同時(shí)對(duì)于數(shù)值變量而言，既可以包含分位數(shù)分箱，也可以包含等間隔分箱

可以直接使用seaborn.heatmap方法繪制熱力圖，用seaborn.jointplot繪制蜂窩熱力圖：

# 類別變量的統(tǒng)計(jì) res = pd.crosstab(df.cut, df.clarity) sns.heatmap(res, cmap='Greens', annot=True)

補(bǔ)充，pd.crosstab()的用法：

# 類別變量和數(shù)值變量分箱統(tǒng)計(jì) res = pd.crosstab(pd.qcut(df.price, 5), df.clarity) sns.heatmap(res, cmap='Greens', annot=True)

補(bǔ)充，pd.qcut()的用法：
qcut()是按變量的數(shù)量來對(duì)變量進(jìn)行分割，并且盡量保證每個(gè)分組里變量的個(gè)數(shù)相同。

# 數(shù)值變量之間的密度圖 sns.jointplot(x=df["price"], y=df["carat"], kind='hex')

在上述密度圖作圖時(shí)，由于原來的特征是長(zhǎng)尾分布的，所以導(dǎo)致密度圖的偏向性很高，此時(shí)可以考慮使用對(duì)數(shù)變換、分位數(shù)截?cái)嗪蜆?biāo)準(zhǔn)差截?cái)唷?/p>

其實(shí)上述三種方法，都是為了讓我們的密度圖能更好地反映出數(shù)據(jù)的有效信息。而針對(duì)于對(duì)數(shù)變換，我補(bǔ)充一些東西：

下圖可以看到，對(duì)數(shù)變換后數(shù)據(jù)近似于正態(tài)分布:

# 使用對(duì)數(shù)變換 sns.jointplot(x=np.log(df["price"]), y=np.log(df["carat"]), kind='hex')

# 使用標(biāo)準(zhǔn)差截?cái)?/span> s1, s2 = df.price, df.carat s1 = s1.mask((s1>(s1.median()+1*s1.std()))|(s1<(s1.median()-s1.std()))) s2 = s2.mask((s2>(s2.median()+1*s2.std()))|(s2<(s2.median()-s2.std()))) sns.jointplot(x=s1, y=s2, kind='hex')

# 使用分位數(shù)截?cái)?/span> s1, s2 = df.price, df.carat s1 = s1.mask((s1>(s1.quantile(0.5)))|(s1<(s1.quantile(0.05)))) s2 = s2.mask((s2>(s2.quantile(0.5)))|(s2<(s2.quantile(0.05)))) sns.jointplot(x=s1, y=s2, kind='hex')

3.3 氣泡圖

氣泡圖適用于超過二維特征的可視化，一般可以用氣泡的顏色和大小來表示第三維、第四維的特征，可以認(rèn)為氣泡圖是散點(diǎn)圖的衍生。

注意事項(xiàng)

使用氣泡面積而不是氣泡的直徑作為數(shù)值指標(biāo)對(duì)比

和散點(diǎn)圖類似，氣泡圖同樣要注意overplotting的問題

可以使用 matplotlib.scatter 方法繪制氣泡圖，同時(shí)用顏色和尺寸參數(shù)控制第三，第四維度：

new_feature1 = np.random.randint(0, 10, 10) # 用氣泡大小顯示該feature大小 new_feature2 = np.random.randint(0, 10, 10) # 用氣泡深淺顯示該feature大小 plt.scatter(df.carat.sample(10), df.price.sample(10), s=new_feature1*100, c=new_feature2, cmap="Blues", alpha=0.8, edgecolors="grey", linewidth=2)

plt.scatter(df.cut.sample(10), df.price.sample(10), s=new_feature1*100, c=new_feature2, cmap="Blues", alpha=0.8, edgecolors="grey", linewidth=2)

4 展示排序信息

4.1 柱狀圖

柱狀圖用來展示一個(gè)類別變量和一個(gè)數(shù)值變量之間的關(guān)系，每個(gè)柱子代表一個(gè)類別，柱子的長(zhǎng)度代表這個(gè)類別的數(shù)值。通常來說，柱狀圖是展示此類信息最有效的方式之一。

注意，直方圖展示的是某個(gè)變量取值是在某個(gè)范圍的數(shù)量。例如：[1,1,2,3,5,6]在[1,5)的取值有4個(gè)，分別是1 1 2 3 。

注意事項(xiàng)

不要和直方圖混淆

類別標(biāo)簽較長(zhǎng)時(shí)，可以采用橫向柱狀圖

給柱子排序通常更有利于展示信息

可以直接用 matplotlib.bar 方法繪制柱狀圖：

# 計(jì)算分類別的平均屬性值 import pandas as pd import numpy as np import matplotlib.pyplot as plt pokemon = pd.read_csv('data/pokemon.csv') data=pokemon.groupby('Type 1')['Total'].mean().sort_values(ascending=False).reset_index() # 繪制柱狀圖 bars = data['Type 1'] pos = np.arange(len(bars)) plt.bar(pos, data['Total']) plt.xticks(pos, bars,rotation=270) plt.show()

4.2 雷達(dá)圖

較少使用。

可以使用極坐標(biāo)系和多邊形填充的方式繪制雷達(dá)圖，具體用法如下：

from math import pi # 繪制背景，選擇2只口袋妖怪，比較六維屬性值 data = pokemon.loc[[0,4]] categories=['HP','Attack','Defense','Sp. Atk','Sp. Def','Speed'] N=6 angles = [n / float(N) * 2 * pi for n in range(N)] angles += angles[:1] ax = plt.subplot(111, polar=True) ax.set_theta_offset(pi / 2) ax.set_theta_direction(-1) plt.xticks(angles[:-1], categories) ax.set_rlabel_position(0) plt.yticks([20,40,60,80], ["20","40","60","80"], color="grey", size=7) plt.ylim(0,80)# 分別添加兩個(gè)變量的雷達(dá)曲線 values= data.loc[0, ['HP','Attack','Defense','Sp. Atk','Sp. Def','Speed','HP']] ax.plot(angles, values, linewidth=1, linestyle='solid', label=data.loc[0,'Name']) ax.fill(angles, values, 'b', alpha=0.1)values= data.loc[4, ['HP','Attack','Defense','Sp. Atk','Sp. Def','Speed','HP']] ax.plot(angles, values, linewidth=1, linestyle='solid', label=data.loc[4,'Name']) ax.fill(angles, values, 'r', alpha=0.1)# 圖例 plt.legend(loc='upper right', bbox_to_anchor=(0.1, 0.1))

4.3 平行坐標(biāo)圖

用來比較樣本在一組數(shù)值型變量上的特征，它是雷達(dá)圖的另一種表現(xiàn)形式，在可視化中更推薦被使用。

注意事項(xiàng)

不適合用于組別過多的情況

可以在X軸對(duì)數(shù)據(jù)排序，避免曲線之間的交叉

可以通過 pandas.plotting.parallel_coordinates 方法繪制平行坐標(biāo)圖:

from pandas.plotting import parallel_coordinates import seaborn as sns import matplotlib.pyplot as plt data =pd.read_csv('data/iris.csv')# Make the plot parallel_coordinates(data, 'species', colormap=plt.get_cmap("Set2")) plt.show()

從上圖可以看到x軸上變量共用一個(gè)y坐標(biāo)軸，此時(shí)因sepal_length、sepal_width、petal_length以及petal_width這四個(gè)變量的值得范圍相近，利用這種方式作出的共用y軸的平行坐標(biāo)圖有著很好的可視化效果；但假如sepal_length、sepal_width、petal_length以及petal_width這些變量的值的范圍相差較大時(shí)，這種共用y軸的平行坐標(biāo)圖就不再適用，此時(shí)我們需要的是y軸獨(dú)立的平行坐標(biāo)圖。下面介紹的另一種方法實(shí)現(xiàn)的就是y軸獨(dú)立的平行坐標(biāo)圖。

df = sns.load_dataset('iris') df['species_id'] = df['species'].map({'setosa':1,'versicolor':2,'virginica':3}) #用于顏色映射py.offline.iplot({"data": [go.Parcoords(line = dict(color = df['species_id'],colorscale = [[0,'#D7C16B'],[0.5,'#23D8C3'],[1,'#F3F10F']]),dimensions = list([dict(range = [2,8],constraintrange = [4,8],label = 'Sepal Length', values = df['sepal_length']),dict(range = [1,6],label = 'Sepal Width', values = df['sepal_width']),dict(range = [0,8],label = 'Petal Length', values = df['petal_length']),dict(range = [0,4],label = 'Petal Width', values = df['petal_width'])]))],"layout": go.Layout(title='Iris parallel coordinates plot') })

4.4 棒棒糖圖

棒棒糖圖本質(zhì)上是柱狀圖的另一種表現(xiàn)形式，區(qū)別是把柱子用線和點(diǎn)來代替，但是從視覺上表現(xiàn)效果更好。

注意事項(xiàng)

排序會(huì)使得顯示效果更好

如果因?yàn)槟撤N原因不能保持排序狀態(tài)，那么寧愿選擇柱狀圖

可以使用 pyplot.hlines 方法來展示棒棒糖圖:

# 計(jì)算分類別的平均屬性值 data=pokemon.groupby('Type 1')['Total'].mean().reset_index() # 繪制棒棒糖圖 data = data.sort_values(by='Total') my_range=range(1,len(data.index)+1) plt.hlines(y=my_range, xmin=0, xmax=data['Total'], color='skyblue') plt.plot(data['Total'], my_range, "o") plt.yticks(my_range, data['Type 1']) plt.title("A vertical lolipop plot", loc='left') plt.xlabel('Average value of Total') plt.ylabel('Type')

4.5 圓形柱狀圖

圓形柱狀圖相比于柱狀圖更吸引眼球，但同時(shí)也更難識(shí)別出柱子尺寸的差別，因此只有當(dāng)你有大量類別需要展示，并且有一些明顯突出的類別時(shí)才會(huì)使用。

注意事項(xiàng)

內(nèi)圈的比例不能太小，一般須超過外圈的三分之一

通常只有當(dāng)你有很多類別并且要突出某幾個(gè)類別的時(shí)候才會(huì)用（>40）

# 計(jì)算分類別的平均屬性值 data=pokemon.groupby('Type 1')['Total'].mean().reset_index() # 繪制圓形柱狀圖 N = len(data) bottom = 250 value = data['Total'] theta = np.linspace(0.0, 2 * pi, N, endpoint=False) width = (2*pi) / N-0.02 plt.figure(figsize = (16, 10)) ax = plt.subplot(111, polar=True) bars = ax.bar(theta, value, width=width, bottom=bottom) ax.set_theta_zero_location("N") ax.set_theta_direction(-1) ticks =data['Type 1'] for theta,tick,value in zip(theta,ticks,value):ax.text(theta+0.03, value+380,tick) plt.axis('off') plt.show()

5 展示組成關(guān)系

5.1 餅圖

餅圖在圖像上是一個(gè)被分成若干部分的圓，用于反映每個(gè)部分對(duì)于整體所占的比重。

注意事項(xiàng)

如果使用百分?jǐn)?shù)，確保它加起來是100%

不要使用3d和圖例，使得圖的閱讀性更差

餅圖可以直接用 pyplot.pie 函數(shù)繪制，也可以調(diào)用pandas庫(kù)的繪圖接口 dataframe.plot，具體用法如下：

#繪制Pie chart import matplotlib.pyplot as plt import numpy as npfig, ax = plt.subplots() # 1*1畫布size = 0.3 vals = np.array([[60., 32.], [37., 40.], [29., 10.]]) # 3*2 arraycmap = plt.get_cmap("tab20c") # Get a colormap instance, matplotlib.cm outer_colors = cmap(np.arange(3)*4) # cmap([0,4,8]), len(cmap.colors) -> 20 inner_colors = cmap(np.array([1,2,5,6,9,10]))# 第一個(gè)環(huán) ax.pie(vals.sum(axis=1)) # wedge object 控制圓環(huán)的寬度 plt.show()

import pandas as pd# --- dataset 1: just 4 values for 4 groups: df = pd.DataFrame([8,8,1,2], index=['a', 'b', 'c', 'd'], columns=['x'])# make the plot df.plot(kind='pie', subplots=True, figsize=(8, 8))

5.2 甜甜圈圖

甜甜圈圖和餅圖極為類似，都是用來反映幾個(gè)對(duì)象的組成比例，因而也有著相似的注意事項(xiàng)

注意事項(xiàng)

如果使用百分?jǐn)?shù)，確保它加起來是100%

不要使用3d和圖例，使得圖的閱讀性更差

在繪圖時(shí)可以通過在餅圖的中心畫一個(gè)和底色相同的同心圓方式來繪制，具體用法如下：

import matplotlib.pyplot as plt# 創(chuàng)建數(shù)據(jù) names='groupA', 'groupB', 'groupC', 'groupD', size=[12,11,3,30]# 在中心畫一個(gè)白色的圓 my_circle=plt.Circle( (0,0), 0.7, color='white')# 畫外圍的餅圖 plt.pie(size, labels=names, colors=['red','green','blue','skyblue']) p=plt.gcf() p.gca().add_artist(my_circle) plt.show()

import matplotlib.pyplot as plt# Make data: I have 3 groups and 7 subgroups group_names=['groupA', 'groupB', 'groupC'] group_size=[12,11,30] subgroup_names=['A.1', 'A.2', 'A.3', 'B.1', 'B.2', 'C.1', 'C.2', 'C.3', 'C.4', 'C.5'] subgroup_size=[4,3,5,6,5,10,5,5,4,6]# Create colors a, b, c=[plt.cm.Blues, plt.cm.Reds, plt.cm.Greens]# First Ring (outside) fig, ax = plt.subplots() ax.axis('equal') mypie, _ = ax.pie(group_size, radius=1.3, labels=group_names, colors=[a(0.6), b(0.6), c(0.6)] ) plt.setp( mypie, width=0.3, edgecolor='white')# Second Ring (Inside) mypie2, _ = ax.pie(subgroup_size, radius=1.3-0.3, labels=subgroup_names, labeldistance=0.7, colors=[a(0.5), a(0.4), a(0.3), b(0.5), b(0.4), c(0.6), c(0.5), c(0.4), c(0.3), c(0.2)]) plt.setp( mypie2, width=0.4, edgecolor='white') plt.margins(0,0)plt.show()

5.3 文氏圖

文氏圖用于表示不同集合的有限集合之間所有可能的邏輯關(guān)系，每個(gè)集合用一個(gè)圓表示，圓的大小反映了該組的重要性，組與組之間通常會(huì)有交疊，交疊的部分體現(xiàn)了不同組之間的交叉數(shù)據(jù)。

不建議繪制超過3個(gè)集合的venn圖。

文氏圖可以利用matplotlib_venn包中的venn2和venn3方法繪制兩個(gè)集合或三個(gè)集合的之間的邏輯關(guān)系。文氏圖的數(shù)據(jù)類型可以是set或tuple

import matplotlib.pyplot as plt from matplotlib_venn import venn2 from matplotlib_venn import venn3 venn3(subsets=[set([3, 2, 1,4,5,6]),set([2,3,4]),set([1,2,3,4,5])], set_labels=('A', 'B','C'),set_colors = ('lightpink','pink','pink'))

import matplotlib.pyplot as plt from matplotlib_venn import venn2 from matplotlib_venn import venn3 venn2(subsets=(3, 2,4,1), set_labels=('A', 'B'),set_colors = ('r','g'))

import matplotlib.pyplot as plt from matplotlib_venn import venn2 from matplotlib_venn import venn3 venn3(subsets=(1,2,3,4,5,6,0), set_labels=('A', 'B','C'),set_colors = ('r','g','b'))

5.6 樹形圖

通過矩形的面積反映其取值大小，使用配色方案，可以表示多個(gè)維度:組、子組。

注意事項(xiàng)

不要在層次結(jié)構(gòu)中注釋超過3個(gè)級(jí)別，這會(huì)使圖形不可讀。

優(yōu)先考慮層次結(jié)構(gòu)的最高層次

可以使用 squarify 包繪制樹圖，squarify的底層代碼也是基于matplotlib實(shí)現(xiàn)的：

#繪制treemap import matplotlib.pyplot as plt import squarify # pip install squarify (algorithm for treemap)# Change color squarify.plot(sizes=[13,22,10,5], label=["group A", "group B", "group C", "group D"], color=["red","green","blue", "grey"], alpha=.4 ) plt.axis('off') plt.show()

import matplotlib import matplotlib.pyplot as plt import pandas as pd import squarify # pip install squarify (algorithm for treemap)</pre># Create a dataset: my_values=[i**3 for i in range(1,100)]# create a color palette, mapped to these values cmap = matplotlib.cm.Blues mini=min(my_values) maxi=max(my_values) norm = matplotlib.colors.Normalize(vmin=mini, vmax=maxi) # 歸一化 colors = [cmap(norm(value)) for value in my_values] # matplotlib.cm.Blues接受0~1的參數(shù)，所以需要?dú)w一化# Change color squarify.plot(sizes=my_values, alpha=.8, color=colors ) plt.axis('off') plt.show()

作業(yè)

用Drugs數(shù)據(jù)集，做出面積圖的多子圖形式。
注意，需要添加如下要素：
①添加每個(gè)子圖標(biāo)題，在子圖右上方；
②添加整個(gè)畫布的總標(biāo)題，在畫布左上方；
③添加X和Y軸的標(biāo)簽。

from matplotlib.pyplot import MultipleLocator import numpy as np import matplotlib.pyplot as plt import pandas as pddata = pd.read_csv('Drugs.csv') df = pd.DataFrame(data) # 以'YYYY'和'State'對(duì)'DrugReports'進(jìn)行統(tǒng)計(jì) reports = df.groupby(['YYYY', 'State'])['DrugReports'].sum().unstack('State') # 以‘State’列為目標(biāo)消除堆疊max_y = reports.max().max() #子圖中縱坐標(biāo)最大值 min_y = reports.min().min() #子圖中縱坐標(biāo)最小值 max_x = reports.idxmax().max()#子圖中橫坐標(biāo)最大值 min_x = reports.idxmin().min()#子圖中橫坐標(biāo)最小值# 獲取'State'的值['KY', 'OH', 'PA', 'VA', 'WV'] value_State = reports.columns# 畫圖 # 標(biāo)題顏色樣式 colors = plt.get_cmap('tab10') plt.figure(figsize=(20,10))x_major_location = MultipleLocator(100) #將橫坐標(biāo)寬度設(shè)為10 y_major_location = MultipleLocator(1000) #將縱坐標(biāo)寬度設(shè)為10for i, value in enumerate(value_State):x = reports.indexy = reports[value]plt.subplot(2,3,i+1) # 記得是i+1，因?yàn)樽訄D的下標(biāo)是從1開始的。plt.plot(x,y,color=colors(i))plt.fill_between(x,y,facecolor='skyblue',alpha=0.4)plt.title(value,loc='right',color=colors(i))# 修改每個(gè)子圖的刻度寬度axis = plt.gca() # 獲取當(dāng)前axisax.xaxis.set_major_locator(x_major_location)ax.yaxis.set_major_locator(y_major_location )# 設(shè)置每個(gè)子圖的刻度總范圍plt.xlim(min_x,max_x)plt.ylim(min_y,max_y)plt.grid() # 給figure加橫縱軸的名稱，范圍在[0,1]之間 plt.figtext(0.5, 0.05, 'Year', fontsize=15) plt.figtext(0.05, 0.5, 'DrugReports', va='center', rotation='vertical',fontsize=15)# figure的標(biāo)題 plt.suptitle('DrugReport of each state every year', fontsize=20)plt.show()

總結(jié)

以上是生活随笔為你收集整理的数据可视化组队学习：《Task06 - 场景案例显神通》笔记的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：作者：曹建峰，男，腾讯研究院版权研究中心
下一篇：作者：高丰，英国南安普敦大学计算机博士，