【数据竞赛】Kaggle时序建模案例:预测水资源可用性
Acea Smart Water Analytics
您能否預(yù)測(cè)水資源未來(lái)的的可用性?
每個(gè)數(shù)據(jù)集代表一種不同類(lèi)型的水體。由于每個(gè)水體彼此不同,相關(guān)特征也不同。我們會(huì)注意到它的特征與湖泊的特征不同。這些差異是根據(jù)每個(gè)水體的獨(dú)特行為和特征預(yù)期的。
步驟1:數(shù)據(jù)集讀取
首先讀取數(shù)據(jù),并找到對(duì)應(yīng)的日期列,
from?datetime?import?datetime,?date? df['date']?=?pd.to_datetime(df['date'],?format?=?'%d/%m/%Y')其中特征列為Rainfall、Temperature、Volume和Hydrometry,標(biāo)簽列為Depth to Groundwater。
步驟2:數(shù)據(jù)集分析
時(shí)間間隔
分析日期是否包含連續(xù):通過(guò)date列進(jìn)行diff,如果日期列沒(méi)有缺失值則最大diff為1day。
df?=?df.sort_values(by='date') df['delta']?=?df['date']?-?df['date'].shift(1) df[['date',?'delta']].head()缺失值分析
分析數(shù)據(jù)集是否包含空值,繪制的時(shí)間序列顯示似乎有一些零值,我們將用nan值替換它們,然后再填充它們。
缺失值填充
使用NaN填充
使用均值填充
使用最近的樣本填充
使用插值填充
平滑數(shù)據(jù)/重采樣
重采樣可以提供更多的數(shù)據(jù)信息。重采樣有兩種類(lèi)型:
上采樣:采樣頻率增加(例如,數(shù)天到數(shù)小時(shí))。
下采樣:采樣頻率降低(例如,從天到周)。
平穩(wěn)性
一些時(shí)間序列模型,如ARIMA,假設(shè)基礎(chǔ)數(shù)據(jù)是平穩(wěn)的。平穩(wěn)性描述了時(shí)間序列具有:
常數(shù)均值和均值不依賴(lài)于時(shí)間
常數(shù)方差和方差與時(shí)間無(wú)關(guān)
常數(shù)協(xié)方差和協(xié)方差與時(shí)間無(wú)關(guān)
平穩(wěn)性檢查可以通過(guò)三種不同的方法來(lái)完成:
視覺(jué)上:繪制時(shí)間序列并檢查趨勢(shì)或季節(jié)性
基本統(tǒng)計(jì):拆分時(shí)間序列,比較每個(gè)分區(qū)的均值和方差
統(tǒng)計(jì)檢驗(yàn):擴(kuò)充Dickey Fuller檢驗(yàn)
特征工程
日期信息
周期編碼
新的時(shí)間特性是周期性的,特征月周期為每年1至12個(gè)月。雖然每個(gè)月之間的差值在一年內(nèi)增加1,但在兩年內(nèi),月特性從12(12月)跳到1(1月)。
時(shí)序分解
時(shí)間序列分解涉及到將一個(gè)序列看作水平、趨勢(shì)、季節(jié)性和噪聲成分的組合。
等級(jí):級(jí)數(shù)中的平均值。
趨勢(shì):數(shù)列中增加或減少的值。
季節(jié)性:在系列中重復(fù)的短期循環(huán)。
噪聲:數(shù)列中的隨機(jī)變化。
Lag特征
EDA分析
相關(guān)性分析
自相關(guān)分析
自相關(guān)函數(shù)(ACF): P=滯后周期,P幫助調(diào)整用于預(yù)測(cè)序列的擬合線,P對(duì)應(yīng)于MA參數(shù)
部分自相關(guān)函數(shù)(PACF): D是時(shí)間序列達(dá)到平穩(wěn)所需的差分變換次數(shù)。D對(duì)應(yīng)AR參數(shù)。
構(gòu)建模型
時(shí)間序列可以是單變量的也可以是多變量的:
單變量時(shí)間序列只有一個(gè)時(shí)間因變量。
多變量時(shí)間序列具有多個(gè)時(shí)間因變量。
數(shù)據(jù)劃分方法
from?sklearn.model_selection?import?TimeSeriesSplit單變量時(shí)序模型
Prophet
ARIMA
LSTM
多變量時(shí)序模型
Prophet
完整代碼鏈接:https://www.kaggle.com/andreshg/timeseries-analysis-a-complete-guide/notebook
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門(mén)系列下載中國(guó)大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專(zhuān)輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼:總結(jié)
以上是生活随笔為你收集整理的【数据竞赛】Kaggle时序建模案例:预测水资源可用性的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: c语言 %15s,c语言求助
- 下一篇: 【NLP】大模型时代,我们真的不再需要分