2.Explore Your Data
Using Pandas to Get Familiar With Your Data
任何機器學習項目的第一步都是熟悉數據。 您將使用Pandas庫。 Pandas是科學家用于挖掘和處理數據的主要工具。 大多數人在他們的代碼中將pandas縮寫為pd。 我們使用如下命令執行此操作。
[1]
import pandas as pdPandas庫中最重要的部分是DataFrame。 DataFrame包含您可能認為是表格的數據類型。 這類似于Excel中的工作表或SQL數據庫中的表。
對于您希望使用此類數據進行的大多數事情,Pandas都有強大的方法。
例如,我們將查看澳大利亞墨爾本的房價數據。 在動手練習中,您將相同的處理方法應用于新的數據集,該數據集含有愛荷華州的房價。
示例(墨爾本)數據位于文件路徑../input/melbourne-housing-snapshot/melb_data.csv。
我們使用以下命令加載和挖掘數據:
【2】
# save filepath to variable for easier access melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv' # read the data and store data in DataFrame titled melbourne_data melbourne_data = pd.read_csv(melbourne_file_path) # print a summary of the data in Melbourne data melbourne_data.describe()| 13580.000000 | 1.358000e+04 | 13580.000000 | 13580.000000 | 13580.000000 | 13580.000000 | 13518.000000 | 13580.000000 | 7130.000000 | 8205.000000 | 13580.000000 | 13580.000000 | 13580.000000 |
| 2.937997 | 1.075684e+06 | 10.137776 | 3105.301915 | 2.914728 | 1.534242 | 1.610075 | 558.416127 | 151.967650 | 1964.684217 | -37.809203 | 144.995216 | 7454.417378 |
| 0.955748 | 6.393107e+05 | 5.868725 | 90.676964 | 0.965921 | 0.691712 | 0.962634 | 3990.669241 | 541.014538 | 37.273762 | 0.079260 | 0.103916 | 4378.581772 |
| 1.000000 | 8.500000e+04 | 0.000000 | 3000.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 0.000000 | 1196.000000 | -38.182550 | 144.431810 | 249.000000 |
| 2.000000 | 6.500000e+05 | 6.100000 | 3044.000000 | 2.000000 | 1.000000 | 1.000000 | 177.000000 | 93.000000 | 1940.000000 | -37.856822 | 144.929600 | 4380.000000 |
| 3.000000 | 9.030000e+05 | 9.200000 | 3084.000000 | 3.000000 | 1.000000 | 2.000000 | 440.000000 | 126.000000 | 1970.000000 | -37.802355 | 145.000100 | 6555.000000 |
| 3.000000 | 1.330000e+06 | 13.000000 | 3148.000000 | 3.000000 | 2.000000 | 2.000000 | 651.000000 | 174.000000 | 1999.000000 | -37.756400 | 145.058305 | 10331.000000 |
| 10.000000 | 9.000000e+06 | 48.100000 | 3977.000000 | 20.000000 | 8.000000 | 10.000000 | 433014.000000 | 44515.000000 | 2018.000000 | -37.408530 | 145.526350 | 21650.000000 |
Interpreting Data Description
結果顯示原始數據集中每列的8個數字。 第一個數字(計數)顯示有多少行具有有效值。
由于許多原因而出現缺失值。 例如,在調查單臥室房屋時,不會收集第二間臥室的大小。 我們將回到缺失數據的主題。
第二個值是平均值,?在此之下,std是標準差,它衡量數值如何展開。
要解釋最小值,25%,50%,75%和最大值,請設想將每列從最低值到最高值進行排序。 第一個(最小)值是min。 如果你在列表中走四分之一,這就是25%的值。 第50和第75百分位數也是同樣定義。
?
Your Turn
開始的第一個編程練習。
?
總結
以上是生活随笔為你收集整理的2.Explore Your Data的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 索尼新品牌INZONE推出4K144Hz
- 下一篇: 浦发信用卡中心电话 满足你全方位的需求