【时间序列】基于一维卷积自动特征提取的短期用水需求量预测
今天帶大家精讀的論文是 《Short-term water demand forecast based on automatic feature extraction by one-dimensional convolution(基于一維卷積自動特征提取的短期用水需求量預(yù)測)》。該論文是一篇以短期用水量需求預(yù)測為背景的Rearch paper,由同濟(jì)大學(xué)環(huán)境科學(xué)與工程學(xué)院、同濟(jì)大學(xué)智能水聯(lián)合創(chuàng)新研發(fā)中心與阿里云計算有限公司聯(lián)合發(fā)表。
所屬期刊《Journal of Hydrology(水文學(xué)雜志)》是地球科學(xué)大類下中科院1區(qū)top,影響因子5.722。
*中科院分區(qū)以2021年12月最新升級版為準(zhǔn)。
框架結(jié)構(gòu)
離群值處理+一維卷積提取信號特征GRU預(yù)測亮點:
離群值處理方法S-H-ESD(通過分析STL新生成的殘余項,從統(tǒng)計學(xué)角度甄別離群值)
一維卷積+GRU(較為常見,學(xué)習(xí)思想)
隨機(jī)選取不同位置、不同長度的數(shù)據(jù)集進(jìn)行訓(xùn)練
新穎的驗證集調(diào)整超參數(shù)的訓(xùn)練策略early-stop strategy
1 S-H-ESD
S-H-ESD?(Seasonal Hybrid Extreme Student Deviate)離群值處理方法是由Rosner在1983年提出的方法[1],能夠解決殘余項上的異常值問題。為了獲取殘余項,該方法首先通過STL分解方法將原始序列分解為季節(jié)項、趨勢項和殘余項,但考慮到此方法分解出來的殘余項可能包含虛假異常,或多或少會影響去除異常值的效果,因此將求殘余項的公式由
改為其中median(O)代表原始時序的中值。這樣求出來的殘余項中帶有部分趨勢項,降低去除虛假異常的風(fēng)險。之后,采用Grubbs[2]方法將最大(小)的前k個值標(biāo)記為離群值進(jìn)行處理。
2 Conv1D-GRU
卷積神經(jīng)網(wǎng)絡(luò)對于對于初次接觸卷積神經(jīng)網(wǎng)絡(luò)的人來說,需要知道卷積神經(jīng)網(wǎng)絡(luò)多應(yīng)用于提取數(shù)據(jù)的特征,其中最常見的是二維卷積(提取圖像特征)和一維卷積(提取時間序列的信號特征)。當(dāng)然,除此之外還有用于視頻處理領(lǐng)域的三維卷積,在此不做描述。
卷積神經(jīng)網(wǎng)絡(luò)包括三個環(huán)節(jié):卷積層、池化層、全連接層。
卷積層:提取信息中的特征
池化層:將提取出來的信息進(jìn)行壓縮,抓住主要特征的提高特征提取效率
全連接層:將捕獲出來的特征進(jìn)行整合,生成一個非線性特征組合
為了更好地理解卷積,我們先從二維卷積開始理解,見圖:
對于上述圖片中的內(nèi)容有幾點我做下解釋:
卷積如何計算
以圖片上5*5的卷積核(即過濾器)為例,在14*14的輸入數(shù)據(jù)里面所有5*5的網(wǎng)格中依次游走遍歷,每一次都將卷積核與輸入數(shù)據(jù)中對應(yīng)方格中的數(shù)字相乘并加和,卷積的結(jié)果是得到一個10*10數(shù)據(jù)維度的輸出結(jié)果。
channel
由于任意顏色均是由紅黃藍(lán)三原色組成,每一個圖片均可看作由紅、黃、藍(lán)三個圖層的疊加,所以在提取圖像特征時,為提取更多局部特征,channel通常取3。
卷積核數(shù)量
卷積核的數(shù)量是自己設(shè)定的,但必須為channel的倍數(shù)。舉個栗子,如果一個圖像計劃使用3個卷積核去自動提取特征,僅考慮一個channel時有3個卷積核,若該圖像此時分了3個channel則會出現(xiàn)3*3=9個卷積核(每個channel分別訓(xùn)練3個卷積核)。
卷積核如何確定
卷積核不是自己憑空設(shè)定的,是訓(xùn)練出來的。
對于池化層,我們通過這張圖能夠更直觀的理解:
池化層的主要目的是對輸入的數(shù)據(jù)進(jìn)行壓縮,例如上圖中出現(xiàn)了兩層池化層,都是對上一層的輸出在channel不變的情況下進(jìn)行主要的特征提取,從左到右第二個池化層中將上一層的24個48*48的信息壓縮成了24個16*16的網(wǎng)格。池化常見的Max-pool的壓縮方式是在某一區(qū)域內(nèi)選取一個最大值。
一維卷積與二維卷積原理相同,相信理解大致的二維卷積神經(jīng)網(wǎng)絡(luò)之后能夠很順暢的將思想遷移到一維卷積上來,只不過輸入數(shù)據(jù)是1*n,同樣卷積核是1*m的數(shù)據(jù)格式,如下圖。
3 數(shù)據(jù)劃分
本文選取的數(shù)據(jù)是湖州某一水廠從2017年1月1日到2019年5月31日的用水量,采樣時間間隔為15min。本文在訓(xùn)練模型的時候在數(shù)據(jù)集劃分上也做了討論。其采用隨機(jī)抽樣法在全部數(shù)據(jù)中隨機(jī)選取一個數(shù)據(jù)點,對于該點之后的六天,前三天作為驗證集,后三天作為測試集,該點之前的訓(xùn)練集長度又分了7種情況,分別是選取數(shù)據(jù)點的前7、30、60、90、120、180、365天數(shù)據(jù)。也就是說每一次隨機(jī)選取的時間點都能創(chuàng)建7組劃分?jǐn)?shù)據(jù)集的方式,總共隨機(jī)抽樣10次。
4 Early-stop strategy
如何避免神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)過擬合和欠擬合的現(xiàn)象是深度學(xué)習(xí)中的一個關(guān)鍵問題,找尋一個適配的超參數(shù)組合是至關(guān)重要的,常用的訓(xùn)練策略為退出策略、正則化策略等,這些方法需要在訓(xùn)練開始前進(jìn)行設(shè)置次數(shù),但由于數(shù)據(jù)和訓(xùn)練過程的不確定性,訓(xùn)練次數(shù)的設(shè)置很難拿捏。本文所采用的early-stop strategy是一種適應(yīng)性訓(xùn)練策略,將訓(xùn)練模型的總次數(shù)設(shè)置為一個較大的數(shù)值(例如10000),通過檢測模型對驗證集的影響來判斷模型訓(xùn)練是否結(jié)束,當(dāng)模型對于驗證數(shù)據(jù)集的效果不再改善時,終止訓(xùn)練,并保存訓(xùn)練結(jié)束前的最優(yōu)神經(jīng)網(wǎng)絡(luò)參數(shù)。
參考資料
[1]
S-H-ESD方法: 10.1080/00401706.1983.10487848
[2]Grubbs方法: 10.1080/00401706.1969.10490657
—END—
往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國大學(xué)慕課《機(jī)器學(xué)習(xí)》(黃海廣主講)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請掃碼:總結(jié)
以上是生活随笔為你收集整理的【时间序列】基于一维卷积自动特征提取的短期用水需求量预测的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开发中常见的@NotNull,@NotB
- 下一篇: 【机器学习】使用奇异值分解(SVD)构建