Pandas及简单学习
生活随笔
收集整理的這篇文章主要介紹了
Pandas及简单学习
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Pandas
pandas 是一種列存數據分析 API。它是用于處理和分析輸入數據的強大工具,很多機器學習框架都支持將 pandas 數據結構作為輸入。
導入 pandas API 并輸出相應的 API 版本
from __future__ import print_function import pandas as pd pd.__version__pandas主要數據結構分類:
- DataFrame,類似一張統計表格,帶有行標題和列標題,包含多個Series
- Series,單一列,包含在DataFrame中
創建Series
pd.Series(['iterm_1','iterm_2','iterm_3',...]) #添加自定義個數item創建DataFrame對象
DataFrame即是由多個Series構成
city_names = pd.Series(['San Francisco', 'San Jose', 'Sacramento']) population = pd.Series([852469, 1015785, 485199])pd.DataFrame({ 'City name': city_names, 'Population': population })output would be like this:
如果插入的Series 在長度上不一致,系統會用特殊的 NA/NaN 值填充缺失的值。
加載整個文件到DataFrame
california_housing_dataframe = pd.read_csv("https://download.mlcc.google.cn/mledu-datasets/california_housing_train.csv", sep=",") california_housing_dataframe.describe()output would be like this:
其中使用了 DataFrame.describe() 來顯示關于 DataFrame 的統計信息。另一個實用函數是 DataFrame.head(),它顯示 DataFrame 的前幾個記錄。
繪制直方圖
借助 DataFrame.hist()繪制某一Series的直方圖
california_housing_dataframe.hist('housing_median_age')output would be like this:
訪問數據
利用python的list/dict操作即可訪問DataFrame中的數據。
例如:
WITHOUT output pictures,HAHAHAH
操控數據
population / 1000.可以導入numpy對數據進行處理:
import numpy as np np.log(population)WITHOUT output pictures too (Dancing
DataFrame修改
向現有 DataFrame 添加了兩個 Series:
cities['Area square miles'] = pd.Series([46.87, 176.53, 97.92]) cities['Population density'] = cities['Population'] / cities['Area square miles']output would be like this:
DONE!
總結
以上是生活随笔為你收集整理的Pandas及简单学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: tensorflow中tf.get_va
- 下一篇: 玉米大碴粥发苦怎么回事