论文笔记 Traffic Data Reconstruction via Adaptive Spatial-Temporal Correlations
0 摘要
????????數(shù)據(jù)缺失仍然是交通信息系統(tǒng)中的一個難點和重要問題,嚴重制約了智能交通系統(tǒng)(ITS)在交通監(jiān)控方面的應用,如交通數(shù)據(jù)采集、交通狀態(tài)估計和交通控制。在過去十年中提出了許多交通數(shù)據(jù)插補方法。然而,缺乏足夠的時間變化特征分析和空間相關性測量導致完井精度有限,給智能交通系統(tǒng)帶來了重大挑戰(zhàn)。
????????利用交通網(wǎng)絡數(shù)據(jù)的低秩性質和時空相關性,本文提出了一種基于低秩矩陣分解重構缺失交通數(shù)據(jù)的新方法,通過分解因子矩陣闡述了交通矩陣的潛在含義。 .
????????為了進一步利用道路鏈接的時間演化特征和空間相似性,我們設計了時間序列約束和自適應拉普拉斯正則化空間約束來探索與道路鏈接的局部關系。在六個真實世界交通數(shù)據(jù)集上的實驗結果表明,我們的方法優(yōu)于其他方法,并且可以針對各種結構損失模式成功準確地重建道路交通數(shù)據(jù)。
1 introduction
????????目前有許多插補方法來解決缺失數(shù)據(jù)問題。 傳統(tǒng)方法涉及諸如歷史插補 [3] 和樣回歸插補 [4] 方法等技術。
? ? ? ? [3]:Nearest neighbor imputation for survey data,” 2000
? ? ? ? [4]:“PPCA-based missing data imputation? for traffific flflow volume: A systematical approach,” 2009
????????最近也有一些基于低秩的研究工作來提高缺失交通數(shù)據(jù)插補的性能。 然而,將這些方法應用于交通數(shù)據(jù)重建只能獲得有限的精度,因為不能考慮或充分利用交通網(wǎng)絡特征,如道路網(wǎng)絡拓撲、序列時間特征。 具體來說,當大量數(shù)據(jù)丟失時,它們的恢復精度仍然很低。
????????事實上,交通數(shù)據(jù)中有很多相關性。
????????交通數(shù)據(jù)時間相關性需要考慮小時與小時、間隔與間隔的關系,具有變化特征,即平滑或突變。
????????至于空間相關性,它不僅存在于相鄰鏈路中,而且存在于具有相同道路物理屬性特征、信號控制設置和位置功能屬性的非相鄰空間鏈路中。
????????然而,在以前的插補方法中并沒有完全探索這些相關性。
????????如圖 1(a)所示,速度數(shù)據(jù)和車流量數(shù)據(jù)的曲線都具有連續(xù)平滑的趨勢,并且在幾個時間間隔內急劇減少或增加。
????????????????我們認為這種現(xiàn)象的出現(xiàn)是由于數(shù)據(jù)采集的頻率、道路交通事故、城市交通網(wǎng)絡的特征(如紅綠燈和頻繁的狀態(tài)轉換)、數(shù)據(jù)采集的噪聲等多種因素造成的。
????????大多數(shù)數(shù)據(jù)重建方法都考慮了連續(xù)可變性,而沒有考慮突變的實際存在。
????????????????
????????此外,如圖1(b)所示,道路A的道路交通與直接相連的路段B1、B2、B3、B4、B5、B6以及非相鄰路段C1、C2,C3密切相關。
????????這種相似性不僅體現(xiàn)在路網(wǎng)拓撲結構上,還體現(xiàn)在真實數(shù)據(jù)的相關性上,僅僅利用固定的拓撲關系來挖掘交通數(shù)據(jù)的內在原理是不夠的。
?????????為了解決上述缺點,本文提出了一種創(chuàng)新的交通數(shù)據(jù)重建方法,稱為時間和自適應空間約束低秩(TAS-LR?Temporal and? Adaptive Spatial Constrained Low Rank?)。
???????? 所提出的方法通過使用低秩表示模型來利用交通數(shù)據(jù)的全局特征,以及自適應的時空約束來利用交通數(shù)據(jù)的局部特征。
????????與現(xiàn)有的矩陣補全(MC)方法相比,TAS-LR 的適應性更強,因為它獨立于特定的交通網(wǎng)絡,并且在實際交通數(shù)據(jù)上表現(xiàn)出令人滿意的補全精度。 此外,為了達到相同的精度水平,TAS-LR 在相同的精度水平下需要更少的交通數(shù)據(jù)。 本文的主要貢獻包括:
- TAS-LR 將交通數(shù)據(jù)分解為兩個潛在特征矩陣:
- 一個矩陣代表潛在空間特征 描述道路鏈接的靜態(tài)特性
- 另一個矩陣表示描述時間變化特征的全局環(huán)境特征。
- TAS-LR 通過對潛在時間特征矩陣施加稀疏約束,根據(jù)交通數(shù)據(jù)的平滑變化精確而穩(wěn)健地表征突然變化。
- ?TAS-LR 利用空間鄰居選擇機制作為輔助約束來提高交通數(shù)據(jù)重建的適應性。
2 related work
????????常用的交通數(shù)據(jù)補全方法有歷史插值法和鄰域插值法[3]。
“Nearest neighbor imputation for survey data,” 2000????????歷史插值法通過已知數(shù)據(jù)點 不同時間的多個觀測值的平均值來預測缺失值。
????????對于鄰域插值方法,缺失點是通過同一時間相鄰點的值來推斷的。使用 k 最近鄰 (KNN) [8] 進行加權、插值是合理的。但是對于交通數(shù)據(jù)矩陣,很難直接應用 KNN,因為行(或列)是任意排序的(例如基于道路名稱)。所以矩陣中最近的元素可能幾乎沒有對應關系。此外,這種方法也不適用于鄰域內數(shù)據(jù)點缺失的情況。
“Nearest neighbor pattern classifification,” 1967
????????回歸插補方法根據(jù)同一時間收集的周圍已知數(shù)據(jù)/同一位置收集的過去時刻觀測值,應用數(shù)學插值算法來重構缺失值[4]。
PPCA-based missing data imputation?for traffific flflow volume: A systematical approach 2009????????一般采用線性回歸方法[9]構建缺失數(shù)據(jù),計算實時速度數(shù)據(jù)與其對應的時間/空間數(shù)據(jù)之間的線性相關系數(shù)。
“Real-time traffific data screening and reconstruction, 2003???????? 這些方法的插補性能很大程度上取決于缺失點的周圍數(shù)據(jù)。 也就是說,這些方法只利用了交通量數(shù)據(jù)的一部分相關性,無法考慮全局特征。 因此,它們的性能并不令人滿意,尤其是當缺失數(shù)據(jù)的比例很高時。 ?
????????壓縮感知 (CS) 是一種技術,它可以在向量稀疏的情況下從樣本子集中準確地恢復向量 [7]。它考慮了某些域中信號的稀疏性或可壓縮性,這允許從相對較少的測量中確定整個信號。? ? ? ??
“Compressed sensing, 2003????????因此,CS 可以應用于補全缺失值的基于矩陣的問題。基于矩陣的方法利用二維全局信息來估計丟失的數(shù)據(jù)。
????????例如,在存在缺失條目的情況下,非負矩陣分解 (NMF) [10]、[11] 可以用于恢復缺失值,通過交替非負最小二乘。這種方法雖然與SVD非常相似,但這種方法堅持非負因子矩陣,缺乏可擴展性,無法面對大量缺失數(shù)據(jù)。
Algorithms for non-negative matrix factorization, 2001 Near-optimal signal recovery from random?projections: Universal encoding strategies? 2006????????稀疏正則化 SVD (SRSVD) [5] 創(chuàng)建了一個類似于 SVD 的矩陣分解,并應用正則化方法來優(yōu)化對缺失數(shù)據(jù)的估計。
????????稀疏正則化矩陣分解 (SRMF) [5] 是一種用于交通矩陣插值、交通預測和異常檢測的新型時空壓縮感知框架,它利用交通數(shù)據(jù)的低秩性質及其時空特性來估計丟失的交通數(shù)據(jù)。
Spatio-temporal? compressive sensing and Internet traffific matrices 2012????????此外,提出了一種基于冪律的壓縮感知方法 [12] 來重建端到端的網(wǎng)絡流量。 ?
“A power laws-based reconstruction? approach to end-to-end network traffific, 2013????????由于交通數(shù)據(jù)具有鏈路間周期性變化和空間相似性的特點,交通數(shù)據(jù)通常具有低秩性質。 因此,低秩矩陣補全方法非常適合其重構。 ?
????????低秩矩陣完成 (MC) [13] 利用矩陣的低秩結構來恢復丟失的條目。它已被用于各種研究領域,例如協(xié)同過濾、計算機視覺和無線傳感器網(wǎng)絡等。
“Exact matrix completion via convex? optimization,” 2009????????最近,研究人員提出了解決低秩矩陣補全問題的有效算法,這些算法分為三類:
1)基于范數(shù)的方法,例如奇異值閾值算法(SVT)[14],它是一種迭代算法用于求解近似矩陣補全問題的凸松弛;
“A singular value thresholding algorithm for matrix completion,” 20102) 基于子空間投影的方法,例如 Grassman Manifold 上的梯度下降算法 (OPTSPACE) [15],它基于奇異值分解和局部流形優(yōu)化;
“Matrix completion from a? few entries,” 20103)基于矩陣分解的方法,例如Low-rank Matrix Fitting algorithm (LMaFit) [16],它是一種低秩分解模型
“Solving a low-rank factorization? model for matrix completion by a nonlinear successive over-relaxation algorithm,” 2012????????然而,上述方法沒有完全或同時利用交通數(shù)據(jù)中的時間和空間關系。 數(shù)據(jù)丟失率高時,補全精度有提升空間 ?
????????還有其他研究將數(shù)據(jù)制定為張量形式來估計缺失值。
???????? 張量是一個多維數(shù)組,它可以保留數(shù)據(jù)的多維性質,并在張量的每一維中提取潛在的因素。
????????首先提出了一種高精度低秩張量完成算法(HaLRTC)[17],以估計張量形式的視覺數(shù)據(jù)的缺失值。
????????然后提出了一種基于張量分解的插補方法(TDI)[18]來估計交通運輸中的缺失值。
???????? 然而,當數(shù)據(jù)丟失率高時,其重建性能顯著下降。 此外,它的求解問題是一個 NP-hard 問題 [19]。
????????因此,基于低秩張量分解的補全方法一般不能達到滿意的精度。
????????實際上,由于不確定噪聲的因素,實際交通矩陣通常不是嚴格的低秩矩陣。
????????因此,現(xiàn)有的基于 CS 和 MC 的方法不能直接應用于交通數(shù)據(jù)完成。
????????在本文中,受NMF理論的啟發(fā),我們提出了一種以時間序列變化特征為特征的方法,并采用自適應空間鄰域選擇機制來優(yōu)化完成問題。 ?
3 preliminary?
3.1 問題定義
我們記為交通數(shù)據(jù)矩陣,其中行和列分別表示空間和時間
?
????????由于一般來說收集到的交通數(shù)據(jù)矩陣不可能是一個完整的矩陣,所以我們使用一個掩蓋操作符P來表示這個不完整矩陣的過程?
????????
? ? ? ? 此時矩陣M就是一個不完整矩陣,只有一部分位置有數(shù)值
? ? ? ??P操作符也可以表述成逐元素矩陣乘積(哈達瑪積)的形式
?????????
? ? ? ? ?這時矩陣P可以被定義為:
?????????
? ? ? ? ?我們的目標是重構出一個完整的交通矩陣。一個直觀方法是解決秩最小化問題:
????????
? ? ? ? ?由于最小化秩是一個NP-難的問題,我們用rank(X)的凸包,核范數(shù)來代替,得到一個凸的和更易于計算的近似值。核范數(shù)被定義為其奇異值的總和。
? ? ? ? 于是(4)中的目標函數(shù)可以被替換為:
?????????
????????但是,由于基本的低秩模型沒有考慮內部數(shù)據(jù)元素的空間和時間關系,因此在交通數(shù)據(jù)丟失率較高時表現(xiàn)不佳。
3.2 矩陣分解和時空限制
????????這里引入了交通矩陣的時空分解,并在因子矩陣上添加了約束,以改進矩陣重構。
????????令 ,我們有兩個因子矩陣 U 和 V,其中 U ∈ R^{r×m} ,V ∈ R^{r×n}。
????????我們將U視為對象的潛在空間特征矩陣,其每一列對應某一空間位置的靜態(tài)描述屬性。
? ? ? ? 我們將V視為潛在的全局環(huán)境特征矩陣,其每一列對應某一空間位置在不同時間間隔的狀態(tài)描述。
????????因此,交通矩陣X 可以看作是對象的靜態(tài)特性和動態(tài)特性相互作用的結果。
????????具體來說,這里的路段特征可以是土地利用屬性、道路程度、車道數(shù)和路面粗糙度等因素,這些路段的特征描述構成了空間特征矩陣U。
????????同理,同一個城市的所有路段 共享同一個動態(tài)的外部環(huán)境,如天氣條件、城市人口生活和工作的規(guī)律等。
????????矩陣分解方法不僅可以避免核范數(shù)的多次高開銷計算(矩陣奇異值分解是O(n^3)的復雜度),而且有助于直接對因子矩陣施加時空約束。 ?
? ? ? ? 于是,我們的目標函數(shù)從可以變成
????????
? ? ? ? 使用拉格朗日算子,(5)式的約束條件也寫入目標函數(shù)中,于是有:
????????
????????????????這是數(shù)據(jù)完成的基本低秩模型,它僅利用全局低秩屬性
????????結合X的行和列的局部關系,(這個局部關系可以反映交通數(shù)據(jù)的內在屬性)。 通常,時空約束模型被公式化為
????????
? ? ? ? 其中S1和S2分別代表先驗空間約束矩陣和時間約束矩陣,α和β是平衡參數(shù)。
???????? 在本文中,我們將直接對潛在特征矩陣施加約束以增強時空數(shù)據(jù)結構。
4?時間和自適應空間約束低秩模型 TAS-LR
????????在這里正式定制了我們的模型 TAS-LR。 ?
????????給定一個動態(tài)路網(wǎng)交通矩陣 X ∈ Rm×n,行數(shù)和列數(shù)分別對應于路段和時間間隔,。 我們希望實現(xiàn)以下目標函數(shù):
????????
????????其中 f (·) 和 g(·) 分別是作用于因子矩陣的空間和時間約束函數(shù)。
????????該模型通過考慮時間突變特征引入時間魯棒約束,并結合自適應空間相似性尋找算子解決交通矩陣完成問題。
? ? ? ? 為了后文方便起見,列出了所有的符號:
????????
4.1?Temporal Variation Characteristics?時間變化特征
????????交通狀態(tài)的變化是一個漸進、連續(xù)的過程,但實際中交通數(shù)據(jù)的時間序列通常既有連續(xù)變化又有突變。
???????? 原因之一可能是數(shù)據(jù)采集的時間頻率,即數(shù)據(jù)采集的頻率越高,相鄰時間間隔變化的連續(xù)性越強,序列的變異越弱。
???????? 在真實的交通網(wǎng)絡中,一些交通事故或交通管制措施也會引起交通狀態(tài)的突然變化。此外,傳感器引起的噪音也會導致這種情況
????????交通數(shù)據(jù)在時間維度上具有連續(xù)性的特點。
????????因此,對于足夠封閉的V的成對相鄰列和(2≤j≤n),假設j?1和j時間點的原始數(shù)據(jù) 相似。 即,成立,那么或者趨近于0
? ? ? ? 推導過程如下:
????????圖 2 顯示了速度數(shù)據(jù)的時間差分矩陣的分布。 結果表明,大部分數(shù)據(jù)點在0附近浮動,只有少數(shù)數(shù)據(jù)點的幅度較大,這表明時差矩陣具有稀疏性。
????????
????????由于 l1 范數(shù)比 l2 范數(shù) [20] 對噪聲更穩(wěn)健,我們通過 l1 范數(shù)計算 V 中每個條目的差異,即,重新表述目標問題 (8) 如下: ?
????????
????????正則化項表示數(shù)據(jù)時間變化約束(也就是每一項的絕對值之和)
????????T 是時間約束矩陣?T = Toeplitz(0, 1, ?1)
????????
????????這種時間約束直觀地表達了這樣一個事實,即相鄰時間點的流量數(shù)據(jù)在存在突變時通常也是相似的。
?
? ? ? ? 比如此時V是一個m×n的矩陣
? ? ? ? 那么,也就是相鄰時間點各觀測值之間的差距
????????就相當于式相鄰時間點各觀測值之間的差距的絕對值之和
? ? ? ? 4.2?自適應空間鄰域相似度
????????如前所述,因子矩陣U反映了路段的局部靜態(tài)特征, 不同的空間點通過路網(wǎng)拓撲連接在一起。 大規(guī)模路網(wǎng)拓撲的高度復雜性以及原始矩陣的數(shù)據(jù)丟失使我們無法直觀地找到空間約束關系,即類似于上述形式的簡單矩陣是不合適的。
????????盡管低秩方法通過利用局部空間相似性為數(shù)據(jù)補全提供了一種有效的方法,但由于它沒有利用原始數(shù)據(jù)中存在的各種不確定噪聲干擾,因此對于現(xiàn)實世界的交通通常無法獲得令人滿意的補全結果。 因此,我們尋求一種通過自適應地定位具有相似模式的局部鄰域來重建丟失對象的方法。 然后使用鄰域來表示目標道路鏈接數(shù)據(jù)。 這樣可以同時滿足全局低秩特征。
????????最近,在無監(jiān)督聚類領域,許多研究人員開發(fā)了基于拉普拉斯正則化的子空間聚類方法[21]、[22]。
????????Laplacian 正則化器的思想來源于圖論 [23],其中為數(shù)據(jù) 構建無向局部 k 連通圖,并由對稱親和矩陣編碼,其中 0 ≤ aij ≤ 1 反映了數(shù)據(jù)點 yi 和 yj 連通的概率,即如果 aij > 0,則 yi 和 yj 在局部鄰域中。
????????因此,這些數(shù)據(jù)點的局部幾何可以相應地反映在數(shù)據(jù)表示矩陣 X 中 以下:
????????
TAS-LR 論文輔助筆記 & 圖拉普拉斯正則項推導_UQI-LIUWJ的博客-CSDN博客
?是拉普拉斯矩陣
D是度矩陣
?????????Laplacian 正則化器旨在通過基于局部連通性為數(shù)據(jù)點自適應地分配鄰居來學習親和矩陣,其中即使存在噪聲和缺失數(shù)據(jù),親和矩陣也是基于原始數(shù)據(jù)構建的 [24]-[26] .
????????受其數(shù)據(jù)表示機制的啟發(fā),我們擴展了親和力矩陣以找到道路網(wǎng)絡子空間。
???????? 因此,我們可以這么假設:如果空間點數(shù)據(jù)與其最優(yōu)空間鄰域空間點數(shù)據(jù)有較小的距離,那么它們有較高的相似性。(越近的越像)我們基于這個假設,構建一個有意義的親和度矩陣A。
? ? ? ? 在我們的模型中,親和度矩陣 A 可以直接從數(shù)據(jù)樣本的幾何結構中計算出來。
????????例如,可以使用 KNN 方法為每個樣本選擇 k 個最近鄰,A 的元素 aij 可以通過 yi 與其近鄰 y j 之間的歐幾里德距離來設置。
???????? 然而,這種構建親和度矩陣的方法可能會被數(shù)據(jù)中的噪聲或異常值破壞。
???????? 如前所述,用固定拓撲測量數(shù)據(jù)相似性是片面的。
????????U 反映了空間鏈接的靜態(tài)特征,對于一組列,U = (u1, u2,..., um),為了揭示道路數(shù)據(jù)之間的局部幾何結構,我們采用了類似[ 26]的方法構建自適應親和度矩陣如下:
????????
????????表示全1的m維向量。
?????????是為了 約束概率
????????然而,簡單地解決問題(11)會導致只有最近的aij(或同樣最近的數(shù)據(jù))被分配為概率?1 ,而所有其他表示的概率為 0。
????????為了避免這種平凡解 ,我們選擇 l2 范數(shù) 來解決這個問題
????????將關注點與輕微的代數(shù)變換放在一起,f (·) 給出了以下約束:
????????
????????結合上述時間約束,最終優(yōu)化問題轉化為以下公式:
????????
????????我們將模型稱為時間和自適應空間約束低秩 (TAS-LR) 方法。 通過上述約束,我們可以自適應地選擇與目標鏈路最相似且具有相同道路等級、車道數(shù)或容量特征的 k 個鏈路。
????????這克服了傳統(tǒng)方法通過預先粗略解釋缺失數(shù)據(jù)來計算相似度的缺點。
4.2.1 A的更新方式
在論文的附錄里有這個親和力矩陣A的更新方式
首先我們在得到一組U之后,可以用此時得到的U來計算兩個點之間的兩兩距離
??
?表示第t+1 次迭代得到的U 的第i列
然后我們就可以用d來更新我們的A矩陣
這個是?,是把d矩陣逐列從小到大排序
?表示如果元素為負數(shù),那么我們就將其設置為0
?但此時算出來的矩陣不是對稱矩陣,所以我們:
?
4.3?模型匯總
?匯總一下
?然后使用拉格朗日算子:
其中
其中G1,G2,G3是拉格朗日乘子
于是算法有:?
?
?
5 實驗部分
5.1 數(shù)據(jù)集
????????六種不同類型的實際交通數(shù)據(jù)用于評估我們方法的完井性能,這些數(shù)據(jù)的特性總結在表 II 中。
????????1) Abilene :Abilene 數(shù)據(jù)以前用于各種研究 [28]、[29],并根據(jù) Abilene 網(wǎng)絡上的起點-終點流量的測量記錄匯總流量數(shù)據(jù),該網(wǎng)絡涵蓋 121 個起點-終點對。
?????????2)portal數(shù)據(jù):portal數(shù)據(jù)[30]記錄了波特蘭-溫哥華大都市區(qū)高速公路的5分鐘粒度速度數(shù)據(jù)和體積數(shù)據(jù),環(huán)路線圈檢測器覆蓋了743條道路連接。
????????3) traffic condtion數(shù)據(jù):路況數(shù)據(jù)記錄了北京三環(huán)高速路段內裝有GPS的浮動車采集的平均通行速度數(shù)據(jù)。
????????4) Loop Detector Data:環(huán)路線圈檢測器采集的一種交通狀況數(shù)據(jù),涵蓋北京五環(huán)高速公路內的道路平均車速和流量數(shù)據(jù)。
????????為了分析這些數(shù)據(jù)集在時間軸上的變化特征,給出了增量率(簡稱roi)的定義。?
????????
?????????
????????根據(jù)(16)計算相鄰時間片上每個交通數(shù)據(jù)集對的roi,然后擬合這些roi的累積密度分布(cdf)。
?
????????圖3為六個數(shù)據(jù)集的cdf曲線結果,roi的cdf隨著roi的增加而上升到1,超過90%的數(shù)據(jù),它們的rois在0到2之間波動。
????????當roi等于0.1時,Portal-speed數(shù)據(jù)roi的cdf比例大于0.8的比例最高,而traffic-condition數(shù)據(jù)的比例最低,小于0.3,這說明Portal速度數(shù)據(jù)的變化率低于交通狀況數(shù)據(jù)。顯然,高速公路速度數(shù)據(jù)的連續(xù)性由于其可訪問性低而相對較好,而城市網(wǎng)絡數(shù)據(jù)由于更復雜的干擾而發(fā)生變異的概率較高。
???????? 而且,注意到Portal速度數(shù)據(jù)rois的cdf高于Portal 流量的數(shù)據(jù),loop 速度數(shù)據(jù)rois的cdf高于loop 流量的數(shù)據(jù)。因此我們推測流量數(shù)據(jù)相對于速度數(shù)據(jù)的變化特征更不穩(wěn)定 . 上述分析符合我們模型的時間假設。
?5.2 實驗配置
5.2.1 準確度衡量? ? ??
? 準確度衡量:我們使用歸一化平均絕對誤差 (NMAE) 來衡量準確度,同時也是用RM
SE來衡量準確度?
5.2.2 U,V矩陣的秩
????????r ≤ min {m, n} 反映了矩陣的全局低秩結構和特征分量的維數(shù)。
????????低秩約束是強約束,對重構性能最敏感。 潛在矩陣的維數(shù)通常顯著低于實際數(shù)據(jù)的維度 。
???????? 通常,不同的數(shù)據(jù)具有不同的 r 最佳值。
????????圖 4 顯示了通過將 r 的損失率從 50% 變化到 90% 的情況下,在六個數(shù)據(jù)集上重建性能的變化。
????????可以發(fā)現(xiàn),所有數(shù)據(jù)的重構誤差,當潛在矩陣秩較小的時候,具有相對較低的值,而在潛在矩陣秩較高時,具有相對較大的值。
???????? 這意味著更高的潛在矩陣秩可能會產(chǎn)生很多冗余信息。(當然潛在矩陣秩太少了就不能很好地學習到所有的特征)
???????? 對于前四個數(shù)據(jù)集,當 r 等于 20 時,它們的誤差往往最低。
????????對于loop速度和容量數(shù)據(jù),最優(yōu)秩可能會稍大一些,因為其空間維數(shù)相對較大,網(wǎng)絡結構更復雜。
? ? ? ?
5.2.3 鄰居數(shù)量
????????k 表示空間關系中相似鄰居的數(shù)量。 我們研究了所有數(shù)據(jù)集的變化 k 的影響,如圖 5 所示。結果表明,隨著 k 的增加,所有數(shù)據(jù)集的數(shù)據(jù)重構誤差都減小了。
????????k=4后,誤差保持相對穩(wěn)定。 因此,在我們的實驗中,我們?yōu)樗袛?shù)據(jù)集選擇 k = 4。
????????
5.2.4 正則化參數(shù)
????????
????????λ1、λ2、λ3和λ4分別是對應于低秩項、時間約束項和空間約束項的非負權重。
????????我們根據(jù)經(jīng)驗和實驗選擇這些參數(shù)。
????????一般來說,秩約束項的值大于時間約束項的值,因此λ2通常大于λ1。
????????此外,時間約束項和空間約束項的權重通常很接近。
? ? ? ? 與此同時,鑒于是為了便于模型的求解,它對重構誤差的敏感性較低。 我們可以設置 λ4 和 λ3 相等。
5.2.5 時間特征矩陣分析
????????圖 7 描繪了速度數(shù)據(jù)的五個維度的時序情況(V 中的五行)。
????????P(t) 表示在時間 t 時每個維度的比例。 P(t)越低,速度貢獻越小,越容易造成堵塞。
????????第一個時間分量 v1,其速度貢獻在晚上 0-6 點最低,在白天幾乎最大。可以推斷出結果是夜間工作的車流造成的。
????????第二個時間分量 v2 反映了典型的早高峰模式,在上午 7-10 點之間貢獻最小。
???????? v4 主要分布在下午,反映了上午 12 點之后的交通流量。
????????最后一個分量 v5 代表典型的夜間高峰模式,因為路網(wǎng)在下午 6 點達到最大擁堵。
5.2.6 空間特征矩陣分析
????????圖 8 顯示了 U 中每個空間模式的分布,黑框標記的位置代表顯著區(qū)域。 每行中的值重新調整為0-1,值越高,道路連接的特征越顯著。 結合圖7,我們在圖8中解釋了以下細節(jié):
????????
- 夜間模式:在圖8(a)中,顯著區(qū)域集中在城市外圍地區(qū),例如 南四環(huán)高速公路及與之相連的主干道,東北三元橋附近區(qū)域等。我們從圖7中可知,該空間分布對應夜間交通流量,v1,因此可以推斷 這種空間格局分布是由夜間出入市中心的交通流量造成的
- 早高峰模式:在圖8(b)中,突出區(qū)域主要分布在高速公路區(qū)域,這與早高峰時段的通勤行為導致的交通擁堵區(qū)域一致(參見圖7中v2的說明)。
- 晚高峰模式:再看圖8(e),突出區(qū)域位于金融和商業(yè)區(qū),例如 東二環(huán)和三環(huán),西二環(huán)附近。 這些地方正是通勤者眾多的主要中央商務區(qū) (CBD) 或金融區(qū)。 交通流量會在晚高峰時段從這些地方擴散,導致區(qū)域擁堵(低速),這與圖 7 中 v5 的解釋一致。
- 晨間集中模式:圖8(c)中,雖然突出區(qū)域不那么明顯,但可以看出它們主要位于外圍居民區(qū)。 圖 7 表明該類交通是對應于 v3 的早晨集中活動,其高峰時間早于 v2,因此我們可以推斷它是一些長距離的早晨交通流。
- 下午集中模式:圖8(d)中標注的重點區(qū)域包括頤和園周邊區(qū)域、什剎湖、CBD、機場高速等。顯然,這些區(qū)域是休閑和郊游區(qū)域,因此出行時間主要集中在 下午,這與圖 7 中 v4 暗示的時間特征一致
????????我們還在圖 9 中展示了路網(wǎng)交通的實際狀態(tài)。它表明早高峰和晚高峰的擁堵路段與我們對特征矩陣的分析是一致的。
???????? 基于上述分析,分解后的潛在矩陣分別反映了交通數(shù)據(jù)的時間和空間隱藏的低維模式,可以看作是一個特征提取過程。
????????因此,我們可以通過分別對潛在空間矩陣和時間矩陣施加約束來實現(xiàn)有效的數(shù)據(jù)重建。
總結
以上是生活随笔為你收集整理的论文笔记 Traffic Data Reconstruction via Adaptive Spatial-Temporal Correlations的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TAS-LR 论文辅助笔记 图拉普拉斯
- 下一篇: numpy 笔记:finfo