Facets:评估机器学习数据集质量利器 (来自Google、可交互、可可视化)
生活随笔
收集整理的這篇文章主要介紹了
Facets:评估机器学习数据集质量利器 (来自Google、可交互、可可视化)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
好的數據集質量,決定后續模型的上限 (Better data leads to better models),那么怎么快速評估數據集的質量了?
本文分享的Facets,是一款由Google開源、快速評估數據集質量的神器;
Facets包含2個組件:
facets overview:outlier檢測、數據集間各特征分布比較
facets dive:交互式探索某一特定數據細節。
安裝
pip?install?facets-overviewfacets overview
以一個案例簡單介紹使用方法,
#?1、生成數據源 import?pandas?as?pdfeatures?=?["Age",?"Workclass",?"fnlwgt",?"Education",?"Education-Num","Marital?Status",?"Occupation",?"Relationship",?"Race",?"Sex","Capital?Gain",?"Capital?Loss",?"Hours?per?week",?"Country",?"Target" ] train_data?=?pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data",names=features,sep=r'\s*,\s*',engine='python',na_values="?") test_data?=?pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.test",names=features,sep=r'\s*,\s*',skiprows=[0],engine='python',na_values="?")#?2、GenericFeatureStatisticsGenerator()和ProtoFromDataFrames()函數存儲數據集的所有統計信息 from?facets_overview.generic_feature_statistics_generator?import?GenericFeatureStatisticsGenerator import?base64gfsg?=?GenericFeatureStatisticsGenerator() proto?=?gfsg.ProtoFromDataFrames([{'name':?'train','table':?train_data },?{'name':?'test','table':?test_data }]) protostr?=?base64.b64encode(proto.SerializeToString()).decode("utf-8")#?3、生成HTML并可視化結果 from?IPython.core.display?import?display,?HTMLHTML_TEMPLATE?=?"""<script?src="https://cdnjs.cloudflare.com/ajax/libs/webcomponentsjs/1.3.3/webcomponents-lite.js"></script><link?rel="import"?href="https://raw.githubusercontent.com/PAIR-code/facets/1.0.0/facets-dist/facets-jupyter.html"?><facets-overview?id="elem"></facets-overview><script>document.querySelector("#elem").protoInput?=?"{protostr}";</script>""" html?=?HTML_TEMPLATE.format(protostr=protostr) display(HTML(html))以上結果可非常方便的展示train//test數據集的偏斜情況、缺失值情況等等。
facets dive
同樣以一個案例簡單介紹使用方法,
import?base64 import?urllib.request import?os import?pandas?as?pd#?數據準備 img_url?=?"https://storage.googleapis.com/what-if-tool-resources/misc-resources/fmnist_sprite_atlas.png" img_name?=?os.path.basename(img_url) urllib.request.urlretrieve(img_url,?img_name)df_fmnist?=?pd.read_csv("https://storage.googleapis.com/what-if-tool-resources/misc-resources/fmnist.csv" ) with?open("fmnist_sprite_atlas.png",?"rb")?as?image_file:encoded_string?=?base64.b64encode(image_file.read())#?生成HTML并可視化展示 from?IPython.core.display?import?display,?HTMLjsonstr?=?df_fmnist.to_json(orient='records') HTML_TEMPLATE?=?"""<script?src="https://cdnjs.cloudflare.com/ajax/libs/webcomponentsjs/1.3.3/webcomponents-lite.js"></script><link?rel="import"?href="https://raw.githubusercontent.com/PAIR-code/facets/1.0.0/facets-dist/facets-jupyter.html">??????<facets-dive?id="elem"?height="1000"?sprite-image-width="28"?sprite-image-height="28"?atlas-url="data:image/png;base64,{encoded_string}"></facets-dive>?#調用facets-dive?<script>var?data?=?{jsonstr};document.querySelector("#elem").data?=?data;</script>""" html?=?HTML_TEMPLATE.format(jsonstr=jsonstr,encoded_string=encoded_string.decode("utf-8")) display(HTML(html))參考&進一步學習👉👉https://github.com/PAIR-code/facets
E?N?D
各位伙伴們好,詹帥本帥假期搭建了一個個人博客和小程序,匯集各種干貨和資源,也方便大家閱讀,感興趣的小伙伴請移步小程序體驗一下哦!(歡迎提建議)
推薦閱讀
牛逼!Python常用數據類型的基本操作(長文系列第①篇)
牛逼!Python的判斷、循環和各種表達式(長文系列第②篇)
牛逼!Python函數和文件操作(長文系列第③篇)
牛逼!Python錯誤、異常和模塊(長文系列第④篇)
總結
以上是生活随笔為你收集整理的Facets:评估机器学习数据集质量利器 (来自Google、可交互、可可视化)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux下常见的网络相关命令
- 下一篇: 上午写了一段代码,下午就被开除了...