【Python基础】用Python制作漂亮的流动桑基图
??來源:Python數據之道
作者:Peter
整理:Lemon
桑基圖繪制實踐
本文中介紹的是如何制作桑基圖,使用的可視化庫是強大的 Pyecharts (版本1.7.1,版本一致很重要)。文章將從如下幾個方面進行介紹:
什么是桑基圖
官網的兩個 demo
桑基圖繪制項目實戰
在開始之前,我們先來看看通過本文制作的最終效果圖:
什么是桑基圖?
桑基圖(桑葚圖),也叫桑基能量分流圖或者桑基能量平衡圖,里面的桑基其實是一個人名,全名是 馬修·亨利·菲尼亞斯·里爾·桑基(Matthew Henry Phineas Riall Sankey) ,是一名愛爾蘭裔工程師,也是英國皇家陸軍工兵的上尉[1]。
早在 1898 年的時候,他就使用這種圖形來表示蒸汽機的能源效率:
桑基之后,桑基圖逐漸成為科學和工程領域,代表平衡、能量流、物質流的標準模型,在一些產品的生命周期評估中也常被使用,通常應用于能源、材料成分、金融等數據的可視化分析。主要特點是:
圖形由邊、流量和支點組成。邊代表了流動的數據,流量代表了流動數據的具體數值,節點代表了不同分類
始末端的分支寬度總和相等,即所有主支寬度的總和應與所有分出去的分支寬度的總和相等,保持能量的平衡。
官網demo
本文中使用的Pyecharts版本是1.7.1,版本的一致非常重要。
import?pyecharts pyecharts.__version__demo_1
首先我們看看官網的第一個demo:
from?pyecharts?import?options?as?opts from?pyecharts.charts?import?Sankeynodes?=?[???#?所有節點名稱{"name":?"category1"},{"name":?"category2"},{"name":?"category3"},{"name":?"category4"},{"name":?"category5"},{"name":?"category6"}, ]links?=?[??#?每一條鏈路的數據,包含:父節點source +?子節點target +?數據值value{"source":?"category1",?"target":?"category2",?"value":?10},???{"source":?"category2",?"target":?"category3",?"value":?15},{"source":?"category3",?"target":?"category4",?"value":?20},{"source":?"category5",?"target":?"category6",?"value":?25}, ] c?=?(Sankey().add("sankey",nodes,links,linestyle_opt=opts.LineStyleOpts(opacity=0.2,?curve=0.5,?color="source"),label_opts=opts.LabelOpts(position="right"),).set_global_opts(title_opts=opts.TitleOpts(title="Sankey-基本示例"))#??.render("sankey_base.html")????生成HTML文件 )c.render_notebook()???#?jupyter?notebook中在線顯示在上面的代碼中,nodes部分表示的是所有的節點名稱,不管是父節點還是最小的子節點都要列出來;links部分表示的是每條鏈路的數據,包含:父節點source + 子節點target + 數據值value。根據links的數據,我們可以發現:category1——-category2———category3———category4構成了一條完整的鏈路,category5—category6構成了另一條鏈路。
下面是最終的圖形:
demo_2
接下來我們看看官網的第二個demo:
import?jsonfrom?pyecharts?import?options?as?opts from?pyecharts.charts?import?Sankeywith?open("product.json",?"r",?encoding="utf-8")?as?f:???#?導入json數據j?=?json.load(f)????#?json數據轉成字典數據 c?=?(Sankey().add("sankey",nodes=j["nodes"],???#?取出json數據的節點和鏈路數據links=j["links"],pos_top="10%",focus_node_adjacency=True,levels=[opts.SankeyLevelsOpts(depth=0,itemstyle_opts=opts.ItemStyleOpts(color="#fbb4ae"),linestyle_opts=opts.LineStyleOpts(color="source",?opacity=0.6),),opts.SankeyLevelsOpts(depth=1,itemstyle_opts=opts.ItemStyleOpts(color="#b3cde3"),linestyle_opts=opts.LineStyleOpts(color="source",?opacity=0.6),),opts.SankeyLevelsOpts(depth=2,itemstyle_opts=opts.ItemStyleOpts(color="#ccebc5"),linestyle_opts=opts.LineStyleOpts(color="source",?opacity=0.6),),opts.SankeyLevelsOpts(depth=3,itemstyle_opts=opts.ItemStyleOpts(color="#decbe4"),linestyle_opts=opts.LineStyleOpts(color="source",?opacity=0.6),),],linestyle_opt=opts.LineStyleOpts(curve=0.5),).set_global_opts(title_opts=opts.TitleOpts(title="Sankey-Level?Settings"),tooltip_opts=opts.TooltipOpts(trigger="item",?trigger_on="mousemove"),) #????.render("sankey_with_level_setting.html") )c.render_notebook()???#?在線顯示讀取本地的json數據,通過josn.load()讀取轉成Python字典
取出json數據中的節點和鏈路數據進行繪圖
桑基圖繪制實踐
原始數據整理
通過上面官網的例子我們明白了繪制桑基圖需要的兩個數據:節點數據+鏈路數據,下面????通過一個實際的案例來講解如何生成繪制桑基圖需要的數據
認識原始數據
Peter同學一個人在深圳搬磚,辛辛苦苦地搬了一個月,產生很多的開銷????,這些開支主要分成5大塊:
住宿
餐飲
交通
服裝
紅包
每個部分又分別有不同的去向,所以這些數據就自然構成了一條條的鏈路,比如:總費用—住宿—房租(2000),總費用—交通—滴滴(220)等,我們只考慮兩個節點之間的關系
分層級整理數據
1、接下來我們分不同的層級來整理原始數據,首先是第一層:總費用到5個子版塊。算出每個子版塊的總和
2、整理5個子版塊的數據
3、我們將上面兩個步驟得到的數據放入一個sheet中,命名為開支:
桑基圖數據生成
讀取數據
首先我們將上面制作好的開支這份數據讀到pandas中:
import?pandas?as?pd import?numpy?as?np import?json#?等價于:data = pd.read_excel("life.xlsx",sheet_name=1)? 1表示sheet_name的索引位置,索引從0開始 df?=?pd.read_excel("life.xlsx",sheet_name="開支")??#?直接寫名字 df.head()注意兩點:
當一個表格中存在多個sheet的時候,我們需要指定sheet_name的名字
指定sheet_name的名字有兩種方式:
直接指定名字
指定該sheet_name的位置索引
確定全部節點nodes
1、先找出全部的節點
所有的節點數據就是上面的父類和子類中去重后的元素,我們使用集合set進行去重,再轉成列表
#?父類+子類中的數據,需要去重df['父類'].tolist() df['子類'].tolist()將上面的數據相加并且去重:
#?將兩個列表相加,在轉成集合set進行元素去重,再轉成列表nodes?=?list(set(df['父類'].tolist()?+?df['子類'].tolist()))? nodes2、生成節點數據
#?節點列表數據:?nodes_listnodes_list?=?[] for?i?in?nodes:dic?=?{}dic["name"]?=?inodes_list.append(dic) nodes_list生成鏈路數據
我們將導入的數據生成鏈路數據:每一行記錄都是一個鏈路數據:
links_list?=?[]for?i?in?range(len(df)):dic?=?{}dic['source']?=?df.iloc[i,0]??#?父類dic['target']?=?df.iloc[i,1]??#?子類dic['value']?=?int(df.iloc[i,2])???#?數據值?:?使用int函數直接強制轉換,防止json.dump()報錯links_list.append(dic)Attention??:導入的數據部分需要強制轉換成int類型,防止后面的數據處理報錯。
到此為止,我們已經完成了桑葚圖中節點數據和鏈路數據的生成,下面開始繪圖。
繪制桑基圖
我們通過官網的2種不同方式來繪制桑基圖
方式1
這種方式比較簡單:直接將上面得到的nodes_list和links_list整體放入繪圖的代碼中:
#?需要事先導入,否則jupyter?notebook中可能不會出圖 from?pyecharts.globals?import?CurrentConfig,?OnlineHostType from?pyecharts?import?options?as?opts??#?圖形設置 from?pyecharts.charts?import?Sankey????#?導入桑基圖型的類nodes_list?=?[{'name':?'圍巾'},{'name':?'長輩'},{'name':?'網絡費'},{'name':?'服裝'},{'name':?'公交'},{'name':?'同學'},{'name':?'襪子'},{'name':?'總費用'},{'name':?'衣服'},{'name':?'紅包'},{'name':?'交通'},{'name':?'聚餐'},{'name':?'滴滴'},{'name':?'餐飲'},{'name':?'管理費'},{'name':?'水電'},{'name':?'共享單車'},{'name':?'外賣'},{'name':?'房租'},{'name':?'住宿'},{'name':?'飲料'},{'name':?'鞋子'},{'name':?'地鐵'} ]links_list?=?[{'source':?'總費用',?'target':?'住宿',?'value':?2580},{'source':?'總費用',?'target':?'餐飲',?'value':?1300},{'source':?'總費用',?'target':?'交通',?'value':?500},{'source':?'總費用',?'target':?'服裝',?'value':?900},{'source':?'總費用',?'target':?'紅包',?'value':?1300},{'source':?'住宿',?'target':?'房租',?'value':?2000},{'source':?'住宿',?'target':?'水電',?'value':?400},{'source':?'住宿',?'target':?'管理費',?'value':?100},{'source':?'住宿',?'target':?'網絡費',?'value':?80},{'source':?'餐飲',?'target':?'外賣',?'value':?800},{'source':?'餐飲',?'target':?'聚餐',?'value':?300},{'source':?'餐飲',?'target':?'飲料',?'value':?200},{'source':?'交通',?'target':?'滴滴',?'value':?220},{'source':?'交通',?'target':?'地鐵',?'value':?150},{'source':?'交通',?'target':?'公交',?'value':?80},{'source':?'交通',?'target':?'共享單車',?'value':?50},{'source':?'服裝',?'target':?'衣服',?'value':?400},{'source':?'服裝',?'target':?'鞋子',?'value':?300},{'source':?'服裝',?'target':?'圍巾',?'value':?150},{'source':?'服裝',?'target':?'襪子',?'value':?50},{'source':?'紅包',?'target':?'同學',?'value':?800},{'source':?'紅包',?'target':?'長輩',?'value':?500} ]c?=?(Sankey().add("月度開支",nodes_list,links_list,linestyle_opt=opts.LineStyleOpts(opacity=0.5,?curve=0.5,?color="source"),label_opts=opts.LabelOpts(position="right"),).set_global_opts(title_opts=opts.TitleOpts(title="月度開支桑葚圖")) )c.render_notebook()得到的桑基圖在notebook中是動態的圖形:
動態視頻效果如下:
方式2
如果數據比較少,將nodes_list和links_list放入繪圖的代碼中不會占據過多的空間;但是如果數據量大,不同鏈路種類多,全部放在整個繪圖代碼中,就會顯得整個代碼很臃腫。
于是產生了方式2:先將上面得到的nodes_list和links_list生成一個json文件,再將json文件通過with方法讀進來進行繪圖。下面講解如何通過得到的nodes_list和links_list數據生成我們繪圖需要的json數據。
json格式的數據,在python中以字符串的形式呈現,一定要用雙引號括起來。json模塊中提供的4個功能:
dumps:python字典數據類型轉成json數據類型的字符串
dump:字典數據轉成字符串并且存儲在文件中
loads:把json字符串轉成字典數據類型
load:把文件打開,并且從字符串轉換成字典數據類型
1、先生成字典數據
data_dic?=?{}data_dic["nodes"]?=?nodes_list data_dic["links"]?=?links_list得到的字典data_dic數據分為節點數據和鏈路數據,具體如下:
{'nodes':?[{'name':?'圍巾'},???#?節點部分數據{'name':?'長輩'},{'name':?'網絡費'},{'name':?'服裝'},{'name':?'公交'},{'name':?'同學'},{'name':?'襪子'},{'name':?'總費用'},{'name':?'衣服'},{'name':?'紅包'},{'name':?'交通'},{'name':?'聚餐'},{'name':?'滴滴'},{'name':?'餐飲'},{'name':?'管理費'},{'name':?'水電'},{'name':?'共享單車'},{'name':?'外賣'},{'name':?'房租'},{'name':?'住宿'},{'name':?'飲料'},{'name':?'鞋子'},{'name':?'地鐵'}],'links':?[{'source':?'總費用',?'target':?'住宿',?'value':?2580},??#?鏈路部分數據{'source':?'總費用',?'target':?'餐飲',?'value':?1300},{'source':?'總費用',?'target':?'交通',?'value':?500},{'source':?'總費用',?'target':?'服裝',?'value':?900},{'source':?'總費用',?'target':?'紅包',?'value':?1300},{'source':?'住宿',?'target':?'房租',?'value':?2000},{'source':?'住宿',?'target':?'水電',?'value':?400},{'source':?'住宿',?'target':?'管理費',?'value':?100},{'source':?'住宿',?'target':?'網絡費',?'value':?80},{'source':?'餐飲',?'target':?'外賣',?'value':?800},{'source':?'餐飲',?'target':?'聚餐',?'value':?300},{'source':?'餐飲',?'target':?'飲料',?'value':?200},{'source':?'交通',?'target':?'滴滴',?'value':?220},{'source':?'交通',?'target':?'地鐵',?'value':?150},{'source':?'交通',?'target':?'公交',?'value':?80},{'source':?'交通',?'target':?'共享單車',?'value':?50},{'source':?'服裝',?'target':?'衣服',?'value':?400},{'source':?'服裝',?'target':?'鞋子',?'value':?300},{'source':?'服裝',?'target':?'圍巾',?'value':?150},{'source':?'服裝',?'target':?'襪子',?'value':?50},{'source':?'紅包',?'target':?'同學',?'value':?800},{'source':?'紅包',?'target':?'長輩',?'value':?500}]}2、將生成的字典數據轉成json數據,并保存到本地
通過json.dump方法將上面生成的字典類型數據轉成json數據,并保存到本地:
with?open("sankey.json","w",encoding="utf-8")?as?f:???#?數據保存到了本地#?json.dump(data_dic,?f)???寫入一行數據json.dump(data_dic,?f,?indent=2,?sort_keys=True,?ensure_ascii=False)??#?寫入多行數據3、讀取json數據進行繪圖
import?jsonfrom?pyecharts?import?options?as?opts from?pyecharts.charts?import?Sankeywith?open("sankey.json",?"r",?encoding="utf-8")?as?f:???#?1、打開保存的文件j?=?json.load(f)???#?2、json字符串轉成字典類型數據 c?=?(Sankey().add("月度開支",nodes=j["nodes"],???#?3、通過鍵值對的映射關系來讀取數據links=j["links"],pos_top="20%",focus_node_adjacency=True,levels=[opts.SankeyLevelsOpts(depth=0, #?????????????????itemstyle_opts=opts.ItemStyleOpts(color="#fbb4ae"),??4、屬性的設置部分linestyle_opts=opts.LineStyleOpts(color="source",?opacity=0.6),),opts.SankeyLevelsOpts(depth=1, #?????????????????itemstyle_opts=opts.ItemStyleOpts(color="#b3cde3"),linestyle_opts=opts.LineStyleOpts(color="source",?opacity=0.6),),opts.SankeyLevelsOpts(depth=2, #?????????????????itemstyle_opts=opts.ItemStyleOpts(color="#ccebc5"),linestyle_opts=opts.LineStyleOpts(color="source",?opacity=0.6),),],linestyle_opt=opts.LineStyleOpts(curve=0.5,color="source",opacity=0.6,type_="dotted"),label_opts=opts.LabelOpts(position="right")).set_global_opts(title_opts=opts.TitleOpts(title="月度開支桑葚圖"),tooltip_opts=opts.TooltipOpts(trigger="item",?trigger_on="mousemove|click",is_show=True),) )c.render_notebook()看看實際的動態化效果:
參考資料
[1]
桑基的介紹: https://zhuanlan.zhihu.com/p/127360262
作者簡介
Peter,碩士畢業僧一枚,從電子專業自學Python入門數據行業,擅長數據分析及可視化。喜歡數據,堅持跑步,熱愛閱讀,樂觀生活。個人格言:不浮于世,不負于己
個人站點:www.renpeter.cn,歡迎常來小屋逛逛
---------End---------
總結
以上是生活随笔為你收集整理的【Python基础】用Python制作漂亮的流动桑基图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【论文解读】腾讯FAT | 未来感知的多
- 下一篇: 曝!BAT大厂NLP学习进阶之法~