时间序列(一):时间序列数据与时间序列预测模型
時間序列系列文章:
時間序列(一):時間序列數據與時間序列預測模型
時間序列(二):時間序列平穩性檢測
時間序列(三):ARIMA模型實戰
時間序列及其預測是日常工作中建模,分析,預測的重要組成部分。本系列我們將從0開始介紹時間序列的含義,模型及其分析。本篇為第一部分,我們主要介紹時間序列,與其常用的預測模型。
時間序列定義:
時間序列是按照一定的時間間隔排列的一組數據,其時間間隔可以是任意的時間單位,如小時、日、周月等。比如,每天某產品的用戶數量,每個月的銷售額,這些數據形成了以一定時間間隔的數據。
通過對這些時間序列的分析,從中發現和揭示現象發展變化的規律,并將這些知識和信息用于預測。比如銷售量是上升還是下降,銷售量是否與季節有關,是否可以通過現有的數據預測未來一年的銷售額是多少等。
對于時間序列的預測,由于很難確定它與其他變量之間的關系,這時我們就不能用回歸去預測,而應使用時間序列方法進行預測。
采用時間序列分析進行預測時需要一系列的模型,這種模型稱為時間序列模型。
時間序列預測模型與方法
注:本部分只關注相關模型與分析的方法,模型的選擇,調參與優化會放在后續文章中詳細講解
原始數據
本文所使用原始數據與代碼,可以在公眾號:Smilecoc的雜貨鋪 中回復“時間序列”獲取。可直接掃描文末二維碼關注!
樸素法
樸素法就是預測值等于實際觀察到的最后一個值。它假設數據是平穩且沒有趨勢性與季節性的。通俗來說就是以后的預測值都等于最后的值。
這種方法很明顯適用情況極少,所以我們重點通過這個方法來熟悉一下數據可視化與模型的評價及其相關代碼。
#樸素法 dd = np.asarray(train['Count'])#訓練組數據 y_hat = test.copy()#測試組數據 y_hat['naive'] = dd[len(dd) - 1]#預測組數據#數據可視化 plt.figure(figsize=(12, 8)) plt.plot(train.index, train['Count'], label='Train') plt.plot(test.index, test['Count'], label='Test') plt.plot(y_hat.index, y_hat['naive'], label='Naive Forecast') plt.legend(loc='best') plt.title("Naive Forecast") plt.show()得到結果:
我們通過計算均方根誤差,檢查模型在測試數據集上的準確率。
其中均方根誤差(RMSE)是各數據偏離真實值的距離平方和的平均數的開方
得到均方根誤差為1053
簡單平均法
簡單平均法就是預測的值為之前過去所有值的平均.當然這不會很準確,但這種預測方法在某些情況下效果是最好的。
#簡單平均法 y_hat_avg = test.copy() y_hat_avg['avg_forecast'] = train['Count'].mean()其后續可視化與模型效果評估方法與上述一致,這里不再贅述,需要詳細代碼可以查看相關源碼。得到RMSE值為2637
移動平均法
我們經常會遇到這種數據集,比如價格或銷售額某段時間大幅上升或下降。如果我們這時用之前的簡單平均法,就得使用所有先前數據的平均值,但在這里使用之前的所有數據是說不通的,因為用開始階段的價格值會大幅影響接下來日期的預測值。因此,我們只取最近幾個時期的價格平均值。很明顯這里的邏輯是只有最近的值最要緊。這種用某些窗口期計算平均值的預測方法就叫移動平均法。
#移動平均法 y_hat_avg = test.copy() #利用時間窗函數rolling求平均值u y_hat_avg['moving_avg_forecast'] = train['Count'].rolling(60).mean().iloc[-1]其后續可視化與模型效果評估方法與上述一致,這里不再贅述,需要詳細代碼可以查看相關源碼。得到RMSE值為1121
指數平滑法
在做時序預測時,一個顯然的思路是:認為離著預測點越近的點,作用越大。比如我這個月體重100斤,去年某個月120斤,顯然對于預測下個月體重而言,這個月的數據影響力更大些。假設隨著時間變化權重以指數方式下降——最近為0.8,然后0.8**2,0.8**3…,最終年代久遠的數據權重將接近于0。將權重按照指數級進行衰減,這就是指數平滑法的基本思想。
指數平滑法有幾種不同形式:一次指數平滑法針對沒有趨勢和季節性的序列,二次指數平滑法針對有趨勢但沒有季節性的序列,三次指數平滑法針對有趨勢也有季節性的序列。“
所有的指數平滑法都要更新上一時間步長的計算結果,并使用當前時間步長的數據中包含的新信息。它們通過”混合“新信息和舊信息來實現,而相關的新舊信息的權重由一個可調整的參數來控制。
一次指數平滑
一次指數平滑法的遞推關系如下:
si=αxi+(1?α)si?1,其中0≤α≤1s_{i}=\alpha x_{i}+(1-\alpha)s_{i-1},其中 0 \leq \alpha \leq 1si?=αxi?+(1?α)si?1?,其中0≤α≤1
其中,sis_{i}si?是時間步長i(理解為第i個時間點)上經過平滑后的值,xix_{i}xi? 是這個時間步長上的實際數據。 α\alphaα可以是0和1之間的任意值,它控制著新舊信息之間的平衡:當 α\alphaα 接近1,就只保留當前數據點;當α\alphaα 接近0時,就只保留前面的平滑值(整個曲線都是平的)。我們展開它的遞推關系式:
我們展開它的遞推關系式:
si=αxi+(1?α)si?1=αxi+(1?α)[αxi?1+(1?α)si?2]=αxi+(1?α)[αxi?1+(1?α)[αxi?2+(1?α)si?3]]=α[xi+(1?α)xi?1+(1?α)2xi?2+(1?α)3si?3]=...=α∑j=0i(1?α)jxi?j\begin{aligned} s_{i}&=\alpha x_{i}+(1-\alpha)s_{i-1} \\ &=\alpha x_{i}+(1-\alpha)[\alpha x_{i-1}+(1-\alpha)s_{i-2}]\\ &=\alpha x_{i}+(1-\alpha)[\alpha x_{i-1}+(1-\alpha)[\alpha x_{i-2}+(1-\alpha)s_{i-3}]]\\ &=\alpha[x_{i}+(1-\alpha)x_{i-1}+(1-\alpha)^{2}x_{i-2}+(1-\alpha)^{3}s_{i-3}]\\ &=... \\ &=\alpha\sum_{j=0}^{i}(1-\alpha)^{j}x_{i-j} \end{aligned}si??=αxi?+(1?α)si?1?=αxi?+(1?α)[αxi?1?+(1?α)si?2?]=αxi?+(1?α)[αxi?1?+(1?α)[αxi?2?+(1?α)si?3?]]=α[xi?+(1?α)xi?1?+(1?α)2xi?2?+(1?α)3si?3?]=...=αj=0∑i?(1?α)jxi?j??
可以看出,在指數平滑法中,所有先前的觀測值都對當前的平滑值產生了影響,但它們所起的作用隨著參數 α\alphaα 的冪的增大而逐漸減小。那些相對較早的觀測值所起的作用相對較小。同時,稱α為記憶衰減因子可能更合適——因為α的值越大,模型對歷史數據“遺忘”的就越快。從某種程度來說,指數平滑法就像是擁有無限記憶(平滑窗口足夠大)且權值呈指數級遞減的移動平均法。一次指數平滑所得的計算結果可以在數據集及范圍之外進行擴展,因此也就可以用來進行預測。預測方式為:
xi+h=six_{i+h}=s_{i}xi+h?=si?
sis_{i}si?是最后一個已經算出來的值。h等于1代表預測的下一個值。
我們可以通過statsmodels中的時間序列模型進行指數平滑建模。官方文檔地址為:
https://www.statsmodels.org/stable/generated/statsmodels.tsa.holtwinters.SimpleExpSmoothing.html
具體代碼如下:
之后同樣進行數據可視化并查看模型效果
plt.figure(figsize=(16, 8)) plt.plot(train['Count'], label='Train') plt.plot(test['Count'], label='Test') plt.plot(y_hat_avg['SES'], label='SES') plt.legend(loc='best') plt.show()可視化結果為:
RMSE結果為1040
二次指數平滑
在介紹二次指數平滑前介紹一下趨勢的概念。
趨勢,或者說斜率的定義很簡單:b=Δy/Δxb=Δy/Δxb=Δy/Δx,其中ΔxΔxΔx為兩點在x坐標軸的變化值,所以對于一個序列而言,相鄰兩個點的Δx=1Δx=1Δx=1,因此b=Δy=y(x)?y(x?1)b=Δy=y(x)-y(x-1)b=Δy=y(x)?y(x?1)。 除了用點的增長量表示,也可以用二者的比值表示趨勢。比如可以說一個物品比另一個貴20塊錢,等價地也可以說貴了5%,前者稱為可加的(addtive),后者稱為可乘的(multiplicative)。在實際應用中,可乘的模型預測穩定性更佳,但是為了便于理解,我們在這以可加的模型為例進行推導。
指數平滑考慮的是數據的baseline,二次指數平滑在此基礎上將趨勢作為一個額外考量,保留了趨勢的詳細信息。即我們保留并更新兩個量的狀態:平滑后的信號和平滑后的趨勢。公式如下:
基準等式
si=αxi+(1?α)(si?1+ti?1)s_{i}=\alpha x_{i}+(1-\alpha)(s_{i-1}+t_{i-1})si?=αxi?+(1?α)(si?1?+ti?1?)
趨勢等式
ti=β(si?si?1)+(1?β)ti?1t_{i}=\beta (s_{i}-s_{i-1})+(1-\beta)t_{i-1}ti?=β(si??si?1?)+(1?β)ti?1?
第二個等式描述了平滑后的趨勢。當前趨勢的未平滑“值”( tit_{i}ti? )是當前平滑值( sis_{i}si? )和上一個平滑值(si?1s_{i-1}si?1?)的差;也就是說,當前趨勢告訴我們在上一個時間步長里平滑信號改變了多少。要想使趨勢平滑,我們用一次指數平滑法對趨勢進行處理,并使用參數 β\betaβ (理解:對 tit_{i}ti? 的處理類似于一次平滑指數法中的 sis_{i}si? ,即對趨勢也需要做一個平滑,臨近的趨勢權重大)。
為獲得平滑信號,我們像上次那樣進行一次混合,但要同時考慮到上一個平滑信號及趨勢。假設單個步長時間內保持著上一個趨勢,那么第一個等式的最后那項就可以對當前平滑信號進行估計。
若要利用該計算結果進行預測,就取最后那個平滑值,然后每增加一個時間步長就在該平滑值上增加一次最后那個平滑趨勢:
xi+h=si+htix_{i+h}=s_{i}+ht_{i}xi+h?=si?+hti?
之后使用二次指數平滑進行預測:
結果如圖:
得到對應的RMSE為1033
三次指數平滑
在應用這種算法前,我們先介紹一個新術語。假如有家酒店坐落在半山腰上,夏季的時候生意很好,顧客很多,但每年其余時間顧客很少。因此,每年夏季的收入會遠高于其它季節,而且每年都是這樣,那么這種重復現象叫做“季節性”(Seasonality)。如果數據集在一定時間段內的固定區間內呈現相似的模式,那么該數據集就具有季節性。
二次指數平滑考慮了序列的基數和趨勢,三次就是在此基礎上增加了一個季節分量。類似于趨勢分量,對季節分量也要做指數平滑。比如預測下一個季節第3個點的季節分量時,需要指數平滑地考慮當前季節第3個點的季節分量、上個季節第3個點的季節分量…等等。詳細的有下述公式(累加法):
si=α(xi?pi?k)+(1?α)(si?1+ti?1)ti=β(si?si?1)+(1?β)ti?1pi=γ(xi?si)+(1?γ)pi?k\begin{aligned} s_{i}&=\alpha (x_{i}-p_{i-k})+(1-\alpha)(s_{i-1}+t_{i-1}) \\ t_{i} &=\beta (s_{i}-s_{i-1})+(1-\beta)t_{i-1}\\ p_{i}&=\gamma (x_{i}-s_{i})+(1-\gamma)p_{i-k} \end{aligned} si?ti?pi??=α(xi??pi?k?)+(1?α)(si?1?+ti?1?)=β(si??si?1?)+(1?β)ti?1?=γ(xi??si?)+(1?γ)pi?k??
其中, pip_{i}pi? 是指“周期性”部分。預測公式如下:
xi+h=si+hti+pi?k+hx_{i+h}=s_{i}+ht_{i}+p_{i-k+h}xi+h?=si?+hti?+pi?k+h?
k 是這個周期的長度。
在使用二次平滑模型與三次平滑模型前,我們可以使用sm.tsa.seasonal_decompose分解時間序列,可以得到以下分解圖形——從上到下依次是原始數據、趨勢數據、周期性數據、隨機變量(殘差值)
根據分析圖形和數據可以確定對應的季節參數
具體代碼為:
#三次指數平滑 from statsmodels.tsa.api import ExponentialSmoothingy_hat_avg = test.copy() fit1 = ExponentialSmoothing(np.asarray(train['Count']), seasonal_periods=7, trend='add', seasonal='add', ).fit() y_hat_avg['Holt_Winter'] = fit1.forecast(len(test))
得到的RMSE為575。我們可以看到趨勢和季節性的預測準確度都很高。你可以試著調整參數來優化這個模型。
AR模型
AR(Auto Regressive Model)自回歸模型是線性時間序列分析模型中最簡單的模型。通過自身前面部分的數據與后面部分的數據之間的相關關系(自相關)來建立回歸方程,從而可以進行預測或者分析。服從p階的自回歸方程表達式如下:
xt=?1xt?1+?2xt?2+?+?pxt?p+μtx_{t}=\phi_{1}x_{t-1}+\phi_{2}x_{t-2}+\cdots+\phi_{p}x_{t-p}+\mu_{t}xt?=?1?xt?1?+?2?xt?2?+?+?p?xt?p?+μt?
表示為AR(p)AR(p)AR(p),。其中,μt\mu_{t}μt?表示白噪聲,是時間序列中的數值的隨機波動,但是這些波動會相互抵消,最終是0。?\phi?表示自回歸系數。
所以當只有一個時間記錄點時,稱為一階自回歸過程,即AR(1)。其表達式為:
xt=?1xt?1+μtx_{t}=\phi_{1}x_{t-1}+\mu_{t}xt?=?1?xt?1?+μt?
利用Python建立AR模型一般會用到我們之后會說到的ARIMA模型(AR模型中的p是ARIMA模型中的參數之一,只要將其他的參數設置為0即為AR模型)。您可以先閱讀后續ARIMA模型的內容并參考文件中的代碼查看具體的內容
MA模型
MA(Moving Average Model)移動平均模型通過將一段時間序列中白噪聲(誤差)進行加權和,可以得到移動平均方程。如下模型為q階移動平均過程,表示為MA(q)。
xt=μ+μt+θ1μt?1+θ2μt?2+?+θqμt?qx_{t}=\mu+\mu_{t}+\theta_{1}\mu_{t-1}+\theta_{2}\mu_{t-2}+\cdots+\theta_{q}\mu_{t-q}xt?=μ+μt?+θ1?μt?1?+θ2?μt?2?+?+θq?μt?q?
其中xtx_{t}xt?表示t期的值,當期的值由前q期的誤差值來決定,μμμ值是常數項,相當于普通回歸中的截距項,μt\mu_{t}μt?是當期的隨機誤差。MA模型的核心思想是每一期的隨機誤差都會影響當期值,把前q期的所有誤差加起來就是對t期值的影響。
同樣,利用Python建立MA模型一般會用到我們之后會說到的ARIMA模型,您可以先閱讀后續ARIMA模型的內容并參考文件中的代碼查看具體的內容
ARMA模型
ARMA(Auto Regressive and Moving Average Model)自回歸移動平均模型是與自回歸和移動平均模型兩部分組成。所以可以表示為ARMA(p, q)。p是自回歸階數,q是移動平均階數。
xt=?1xt?1+?2xt?2+?+?pxt?p+μt+θ1μt?1+θ2μt?2+?+θqμt?qx_{t}=\phi_{1}x_{t-1}+\phi_{2}x_{t-2}+\cdots+\phi_{p}x_{t-p}+\mu_{t}+\theta_{1}\mu_{t-1}+\theta_{2}\mu_{t-2}+\cdots+\theta_{q}\mu_{t-q}xt?=?1?xt?1?+?2?xt?2?+?+?p?xt?p?+μt?+θ1?μt?1?+θ2?μt?2?+?+θq?μt?q?
從式子中就可以看出,自回歸模型結合了兩個模型的特點,其中,AR可以解決當前數據與后期數據之間的關系,MA則可以解決隨機變動也就是噪聲的問題。
ARIMA模型
ARIMA(Auto Regressive Integrate Moving Average Model)差分自回歸移動平均模型是在ARMA模型的基礎上進行改造的,ARMA模型是針對t期值進行建模的,而ARIMA是針對t期與t-d期之間差值進行建模,我們把這種不同期之間做差稱為差分,這里的d是幾就是幾階差分。ARIMA模型也是基于平穩的時間序列的或者差分化后是穩定的,另外前面的幾種模型都可以看作ARIMA的某種特殊形式。表示為ARIMA(p, d, q)。p為自回歸階數,q為移動平均階數,d為時間成為平穩時所做的差分次數,也就是Integrate單詞的在這里的意思。
具體步驟如下:
xt=?1wt?1+?2wt?2+?+?pwt?p+μt+θ1μt?1+θ2μt?2+?+θqμt?qx_{t}=\phi_{1}w_{t-1}+\phi_{2}w_{t-2}+\cdots+\phi_{p}w_{t-p}+\mu_{t}+\theta_{1}\mu_{t-1}+\theta_{2}\mu_{t-2}+\cdots+\theta_{q}\mu_{t-q}xt?=?1?wt?1?+?2?wt?2?+?+?p?wt?p?+μt?+θ1?μt?1?+θ2?μt?2?+?+θq?μt?q?
上面公式中的wtw_{t}wt?表示t期經過d階差分以后的結果。我們可以看到ARIMA模型的形式基本與ARMA的形式是一致的,只不過把XXX換成了www
使用ARIMA進行預測代碼如下:
from statsmodels.tsa.arima_model import ARIMAts_ARIMA= train['Count'].astype(float) fit1 = ARIMA(ts_ARIMA, order=(7, 1, 4)).fit() y_hat_ARIMA = fit1.predict(start="2013-11-1", end="2013-12-31", dynamic=True)并畫出預測值與實際值圖形:
plt.figure(figsize=(16, 8)) plt.plot(train['Count'], label='Train') plt.plot(test['Count'], label='Test') plt.plot(y_hat_ARIMA, label='ARIMA') plt.legend(loc='best') plt.show()
并計算RMSE:
得到對應的RMSE為3723
SARIMA模型
SARIMA季節性自回歸移動平均模型模型在ARIMA模型的基礎上添加了季節性的影響,結構參數有七個:SARIMA(p,d,q)(P,D,Q,s)
其中p,d,q分別為之前ARIMA模型中我們所說的p:趨勢的自回歸階數。d:趨勢差分階數。q:趨勢的移動平均階數。
P:季節性自回歸階數。
D:季節性差分階數。
Q:季節性移動平均階數。
s:單個季節性周期的時間步長數。
得到實際值與預測值如下:
plt.figure(figsize=(16, 8)) plt.plot(train['Count'], label='Train') plt.plot(test['Count'], label='Test') plt.plot(y_hat_avg['SARIMA'], label='SARIMA') plt.legend(loc='best') plt.show()
并計算RMSE:
結果為933
其他時間序列預測的模型還有SARIMAX模型(在ARIMA模型上加了季節性的因素),Prophet模型,ARCH模型,LSTM神經網絡模型等。限于篇幅,感興趣的同學可以自行查看相關模型資料
在后續的文章中我們將講解如何確定數據的平穩性與數據預處理,為后續時間序列的建模做準備
參考文章:
https://www.analyticsvidhya.com/blog/2018/02/time-series-forecasting-methods/
https://blog.csdn.net/anshuai_aw1/article/details/82499095
相關代碼與數據可關注公眾號并回復:時間序列獲取
總結
以上是生活随笔為你收集整理的时间序列(一):时间序列数据与时间序列预测模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: spring学习(25):通过构造函数依
- 下一篇: 第三十三期:使用wireshark抓包分