交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》
AAAI2019
0 摘要
交通流數據通常有很高的非線性和很復雜的特征。目前很多交通預測的方法缺乏對交通數據時空相關性的動態建模。
本文提出了一種基于注意力的時空圖卷積神經網絡(ASTGCN)來解決交通預測問題
ASTGCN包括三個獨立的部分,分別對交通流的三種時間屬性進行建模:
1)當前相關性(recent dependencies)
2)每天的周期性(daily-periodic dependencies)
3)每周的周期性(weekly-periodic dependencies)
每個獨立的部分都包含了以下兩塊:
1)時空注意力機制,可以捕捉交通數據中動態的時空相關性
2)時空卷積,可以同時將圖卷積應用于交通數據中,來捕獲時間和空間特征
單個獨立部分的結果將被加以權重地結合起來,來生成最終的預測結果
1 introduction
圖1體現了交通數據的時空相關性,不同的位置,不同的時間,各點交通流量之間的影響是不一樣的——》交通數據在空間和時間維度都展現出了強大的動態特征
早期模型的缺點
| 時間序列分析模型 | 難以解決數據的不穩定行和非線性 |
| 傳統機器學習 | 1)難以同時考慮高維交通數據集中時空相關性 2)十分依賴特征的選擇和建立 |
| 一些深度學習模型 | 仍然難以同時建模交通數據中時間和空間特征的相關性 |
ASTGCN:
1)使用空間注意力機制來建模空間層面復雜的相關性
2)使用時間注意力機制來捕獲不同時間之間的動態時間相關性
3)使用圖卷積來捕獲交通圖中的空間特征;以及不同時間篇之間的依賴關系?
?
2 相關工作
2.1 交通預測
| 統計模型 | HA、ARIMA、VAR | 這些模型需要數據滿足一些假設,但是交通數據過于復雜,無法滿足這些假設,所以這些模型在交通預測領域的表現不盡人意 |
| 機器學習模型 | KNN,SVM | 這些模型需要進行自己的特征工程 |
| 深度學習模型 | ST-ResNet、CNN+LSTM | 數據必須是標準的2D,3D表格數據 |
2.2 GNN
| spatial methods | 直接在圖上進行卷積計算 |
| spectral methods | 使用圖拉普拉斯矩陣(切比雪夫多項式進行優化) |
3 Preliminaries
3.1 交通網絡
?
| G=(V,E,A) | 無向交通圖 |
| V | 點集 |
| E | 邊集 |
| F | 每個點的觀測特征維度 |
3.2 交通流預測
問題描述
4 ASTGCN
4.1 整體框架
ASTGCN由三個部分組成(前面在abstract說的recent、daily-periodic和weekly-periodic),三個部分的結構幾乎是一樣的。
為了優化訓練的效率,我們在每個ST模塊上添加了一個殘差連接
4.2 recent、daily-periodic和weekly-periodic數據集劃分
?我們分別設置提取數據集的時間片段長度Th,Td和Tw,表示recent、daily-periodic和weekly-periodic的數據集劃分間隔,Th,Td,Tw都是原始數據集時間間隔的整數倍
4.2.1 recent 臨近時間片段
預測時間段之前的一小段時間片段
?4.2.2 daily?日周期片段
預測時間片段之前幾天相同的時間片段
4.2.3 weekly 周時間片段
預測時間片段之前幾周相同的時間片段
4.3 時空注意力機制
- 在空間維度,不同區域的交通狀況相互影響,這種相互影響有很強的動態性
- 在時間維度,不同的時間片段的交通流量存在相關性
4.3.1 空間注意力機制
通過注意力機制捕獲以上兩種關系,此處以recent 模塊為例:
這里??是第r層ST-塊的輸入
是第r層每個點每一時刻特征的維度(當r=1時,也就是原始輸入,等于F)
是第r層時間維度的長度(當r=1的時候,對于recent來說,就是;對于daily來說,就是;對于weekly來說,就是)
和都是N×N的矩陣,是對attention結果的加權/bias
對應的是attention里面Q,K,V的權重,其中
機器學習筆記:Transformer_UQI-LIUWJ的博客-CSDN博客_機器學習transformer
、?、都是可學習的參數
σ是激活函數
由此我們便動態地算出了本層ST模塊的空間注意力矩陣,這個矩陣根據當前層ST模塊的數據計算而得。
表明了點i和點j之間的相關聯程度,使用softmax使得相關聯程度之和為1
之后的圖卷積模塊中,我們會將這個空間注意力矩陣S和鄰接矩陣A一起考慮,來動態調整點與點之間的影響權重
4.3.2 時間注意力機制
和空間注意力機制類似,我們有:
?
其中,這五個矩陣都是可學習的
?表明了時間i和時間j之間的相關聯程度,使用softmax使得相關聯程度之和為1
之后的圖卷積中,我們直接將標準化的時間注意力矩陣應用到數據集上
?
來動態調整輸入數據
?4.4 時空卷積
之前時空注意力模組讓網絡更關注一些更有用的信息。調整后的輸入被喂入時空卷積中
時空卷積網絡由一個空間維度的圖卷積(來捕獲鄰居節點之間的依靠關系)和一個時間維度的卷積(來捕獲相鄰時間片之間的依靠關系)?
4.4.1 空間維度的圖卷積
?這里使用譜圖卷積(spectral graph convolution)。圖結構的屬性可以通過分析圖拉普拉斯矩陣及其特征值來獲得
拉普拉斯矩陣L=D-A,D是度矩陣(對角矩陣),A是鄰接矩陣
標準拉普拉斯矩陣
對拉普拉斯矩陣進行特征值分解,我們有:
(這里因為是無向圖,所以拉普拉斯矩陣一定對稱,所以后面一項可以是U的轉置)
其中:?是特征值組成的對角矩陣
U是傅里葉基
我們記圖上的一個點的信號為x,那么這個信號x經過圖傅里葉變化之后,變為:
因為拉普拉斯矩陣是對稱矩陣,所以U是一個正交矩陣,所以信號x的逆拉普拉斯矩陣為?
基于上面的部分,信號x和圖上的filter?圖卷積后的結果為:
*G表示了一個圖卷積計算
我們可以把上述方程看成:先把信號x和經過傅里葉變化變換到譜圖域中,然后將他們進行乘法操作,最后在通過你傅里葉變化得到最州的譜圖卷積結果
?然而,當圖很大的時候,計算拉普拉斯矩陣的特征值開銷是很大的,于是,我們可以使用切比雪夫多項式來進行近似:
這時候的參數θ就是切比雪夫多項式的系數了。
,是拉普拉斯矩陣最大的特征值。
切比雪夫多項式為?
?我們進行0~k-1的切比雪夫多項式的相加,相當于計算0階~k-1階鄰居節點對于中心節點的影響(影響的大小由卷積核決定)
圖卷積的覺果使用RELU進行激活,即
而我們在4.3.1引入了空間注意力機制,得到了一個空間注意力矩陣S‘,怎么使用那個矩陣呢?
對于切比雪夫多項式中的,我們讓他和S’做哈達瑪積(對應位置元素相乘),即:
?
那么“有價值”的點,獲得的權重更多;“沒有價值”的點,獲得的權重就少?
因此,在引入了空間注意力機制后,用切比雪夫多項式近似的譜圖卷積可以寫為:
?4.4.2 時間維度的卷積
在圖卷積之后,我們使用時間卷積來更新點的信號
4.4.3 ST卷積模塊總結
時空注意力模塊+時空卷積模塊,組合成了一個ST卷積模塊
我們可以疊加多個ST卷積模塊,以進一步提取更大“感受野”的關聯信息。
最后,添加一個全連接層,以保證輸出與目標有相同的維度和形狀,最后的全連接層使用 ReLU 作為激活函數。
4.5 Mult-component fusion:將recent、daily-periodic和weekly-periodic模塊結果結合
這一個部分很簡單
即三組可學習的參數分別與recent、daily-periodic和weekly-periodic模塊的結果及逆行哈達瑪積。
5 實驗部分
5.1 數據預處理:
1)去除了冗余的觀測點,使得相鄰觀測點之間的距離大于等于3.5英里(不知道為什么。。。)
2)缺失的點使用線性插值填充
3)數據用zero-mean來進行標準化
5.2 實驗結論
1)傳統的時間序列分析方法(HA、ARIMA)通常并不理想
——>這些方法在建模交通數據的非線性和復雜性上是欠佳的
2)相比于傳統的時間序列方法,有些深度學習的方法得到的結果會好很多
3)在深度學習方法中,同時考慮了時間和空間屬性的模型(STGCN、GLU-STGCN、GeoMAN、我們的模型)效果比LSTM和GRU(只考慮了空間屬性的模型)好
4)GeoMAN模型效果比STGCN和GLU-STGCN效果好
——>注意力機制是有效的
5)對我們的模型MSTGCN(沒有注意力機制的模型)已經比原有的模型要好了;加了注意力機制之后的模型ASTGCN效果更好
?
隨著我們的預測間距的增大,預測的難度也在增加,預測誤差也隨之增加
只考慮時間屬性的模型,在短期預測任務中通常有不粗的表現(HA、ARIMA、LSTM、GRU等),但是,隨著預測區間的增發,這些模型不適用于預測長期的內容
相比而言,同類型模型的VAR準確率下降得就慢了很多。(因為VAR同時考慮了時間和空間的相關性,這個在長期預測任務中是很關鍵的),但是隨著交通網絡規模的增大,我們需要考慮更多的交通時序信息,,VAR的預測誤差就上去了(如圖6所示,VAR在PeMSD4的準確度小于其在PeMSD8的準確度)
我們的模型在任何時候都比其他的模型效果好,尤其是在長期預測問題中。這說明了使用注意力機制+圖卷積操作可以更好地挖掘交通數據中動態的時空特征
?
圖7在說明注意力機制有什么用處,論文選取了PeMSD8中的10個點,對他們之間的attention矩陣進行了可視化。
以點9為例,權重大的是點3和點8,這是很合理的
6 展望
未來可以考慮一些外部影響因素,例如天氣因素和大型事件,進一步提高預測精度。
總結
以上是生活随笔為你收集整理的交通预测论文笔记《Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文巾解题 206. 反转链表
- 下一篇: 论文笔记目录