在Python-dataframe中如何把出生日期转化为年龄?
我們?cè)谧鰯?shù)據(jù)挖掘項(xiàng)目或大數(shù)據(jù)競(jìng)賽時(shí),如果個(gè)體是人的時(shí)候,獲得的數(shù)據(jù)中可能有出生日期的Series,舉個(gè)簡(jiǎn)單例子,比如這樣的一些數(shù):
# -*- coding: utf-8 -*- import pandas as pd from pandas import Series, DataFrame import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline data = {'birth': ['10/8/00', '7/21/93', '6/14/01', '5/18/99', '1/5/98']} frame = DataFrame(data) frame從數(shù)據(jù)來(lái)看,'10/8/00'之類的數(shù),最左邊的數(shù)表示月份,中間的數(shù)表示日,最后的數(shù)表示年度。
實(shí)際上我們?cè)诜治鰰r(shí)并不需要人的出生日期,而是需要年齡,不同的年齡階段會(huì)有不同的狀態(tài),比如收入、健康、居住條件等等,且能夠很好地把不同樣本的差異性進(jìn)行大范圍的劃分,而不是像出生日期那樣包含信息量過(guò)大且在算法訓(xùn)練時(shí)不好作為有效數(shù)據(jù)進(jìn)行訓(xùn)練,age是一個(gè)很好地特征工程指示變量。
那如何把上述birth數(shù)據(jù)變?yōu)槟挲gage呢?
在這里用到datetime這個(gè)庫(kù),如下:
(1)首先把birth轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式
frame['birth'] = pd.to_datetime(frame['birth']) frame(2)獲取當(dāng)前時(shí)間的年份,并減去birth的年份
import datetime as dt now_year =dt.datetime.today().year #當(dāng)前的年份 frame['age']=now_year-frame.birth.dt.year frame在這里使用了dt.datetime.today().year來(lái)獲取當(dāng)前日期的年份,然后將birth數(shù)據(jù)中的年份數(shù)據(jù)提取出來(lái)(frame.birth.dt.year),兩者相減就得到需要的年齡數(shù)據(jù),如下:
有時(shí)候我們可能還會(huì)關(guān)注到人的出生月份與要預(yù)測(cè)變量的關(guān)系,比如人的星座就是很流行的一種以出生月份、日份來(lái)評(píng)估其對(duì)人的影響,也可以按這種方法去提取月、日數(shù)據(jù)。
原文發(fā)布時(shí)間為:2018-10-18
本文作者:博觀厚積
本文來(lái)自云棲社區(qū)合作伙伴“Python愛(ài)好者社區(qū)”,了解相關(guān)信息可以關(guān)注“Python愛(ài)好者社區(qū)”。
總結(jié)
以上是生活随笔為你收集整理的在Python-dataframe中如何把出生日期转化为年龄?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: “我的父老乡亲”公益征文活动 ——讲述平
- 下一篇: 腾讯十年老兵:区块链本质上是一个异地多活