论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts
ICDE 2019
0 摘要
????????在執行時間序列分析時,恢復時間序列中的缺失值至關重要。而本文研究的blackouts問題,即在一定時期內丟失所有數據,是最緊迫和最具挑戰性的問題之一。現有的時間序列缺失值恢復方法無法正確處理這個問題,但在這項工作中,我們提出了一種基于 Hankel 矩陣分解的標記時間序列方法,稱為 HKMF-T,遵循將數據序列分解為平穩趨勢和外部影響成分。通過將數據序列轉換為其 Hankel 矩陣形式,HKMF-T 將高階時間相關性隱含的平滑趨勢建模為兩個低秩矩陣的乘積,并學習相應標簽序列指示的外部影響。通過對三個真實世界數據集進行的廣泛實驗,HKMF-T 在持續時間超過九個采樣間隔的blackouts 數據中優于所有基線方法,從而顯示了其有效性。
1 introduction
????????恢復時間序列中缺失值的問題最近在數據挖掘和工程界受到越來越多的研究關注[1],[2]。由于各種時間序列分析 (TSA) 算法所需要的數據完整性假設與現實世界系統中不可避免的數據丟失的現實之間的不匹配,這個問題至關重要[1]。
????????簡而言之,缺失值恢復的任務可以描述為:給定一個長度為 T 的數據序列,?,其中是在時間 t 收集的 d 維數據向量,X中有一定缺失值,根據觀察到的部分和關于 X 的額外知識來估計 X 中的缺失部分。
????????雖然許多現有工作研究了隨機缺失模式下的問題 [2],但本文關注的是當所有一個時期的d維數據,例如t1到t2的數據(xt∈[t1,t2]),全部丟失的情況。
?????????在blackout期間恢復缺失值具有挑戰性,因為在blackout期間沒有任何其他可用序列供參考。 因此,依賴于多個協同進化序列 [1]-[3] 之間的空間和時間相關性的現有工作在這種情況下受到限制。
????????為了解決這個問題,這項工作提出了 HKMF-T 方法(HanKel Matrix Factorization for Tagged time series)。其基本思想是將一個序列分解為平滑趨勢和外部影響分量,后者由與數據序列關聯的標簽序列表示。給定標記的數據序列,HKMF-T 學習上述兩個組件并在新的 Hankel 矩陣分解框架下估計缺失值。作為一項試點研究,我們主要集中討論一維序列,因為它們形式簡單,每個缺失值都代表一個blackouts的情況。
????????總之,本文做出以下貢獻:
? 我們提出了blackouts期間時間序列的缺失值恢復問題,并提出了一種新穎的基于矩陣分解(MF)的解決方案;
? 我們設計了Hankelization 過程,使基于MF 的方法能夠通過學習序列數據之間的高階時間相關性來處理blackouts;
? 我們通過使用三個真實世界數據集將其性能與現有方法進行比較來展示 HKMF-T 的有效性。
?2 問題定義
長為T的時間序列,其中s是時刻t的d維列向量
一個指示矩陣?表示xt的第i維有數值(0表示數值丟失)
相應的標簽序列表示對xt的標簽?
我們的目標是估計X中的缺失值
本文研究的blackouts問題對應于 X 的整列整列缺失的情況
3 HKMF-T
3.1 漢克爾矩陣化?Hankelization
????????線性代數筆記:漢克爾矩陣(Hankel matrix)_UQI-LIUWJ的博客-CSDN博客
????????HKMF-T 的第一步是漢克爾矩陣化過程。 在這項工作中,我們專注于探索值之間的時間相關性,這是時間序列的內在本質。
????????我們建議通過 Hankelization 技術促進基于 MF 框架的時間相關性的學習。
????????更具體地說,對于一維序列,漢克爾化過程將原始序列轉化為漢克爾矩陣,如圖1(a)所示。通過指定p≥lb+1,lb是X中blackouts的持續時間,我們在外觀上消除了所產生的p階漢克爾矩陣中的blackouts,并使其有可能在Hp(X)而不是X上應用基于MF的方法。
????????
?3.2 漢克爾矩陣分解
????????HKMF-T 的下一步是執行 Hankel 矩陣分解。 基于將序列分解為平滑趨勢和外部影響分量的思想,我們的方法通過讓 來逼近 Hp(X),其中 和是兩個低秩矩陣 (r ≤ p),分別代表潛在和時間嵌入。 它們的乘積 UV 對應于平滑趨勢分量,包含與標簽相關的外部影響。
????????HKMF-T 的本質在于,Hp(X) 的每一列包含 X 中的 p 個連續元素,這些元素通過線性變換 U 與時間嵌入 V 的同一狀態(列)相關聯【下圖中不同顏色的U中框乘以相同的V中黑色框】。而這種共享的時間狀態反映了 X 中元素之間的高階時間相關性。 ?
?????????
? ? ? ? ?為了解U,V和E,我們提出了如下的目標函數
?
?我們的求解任務可以寫成:
?當 我們求得 最優的U,V,E之后,我們可以通過平均相應的UV+E中的元素來進行補全
?
?
?3.3 使用SGD計算結果
? ? ? ? 論文中使用SGD來求解U,V,E
?
?其中
?論文中設置學習率η=0.01
?4 實驗
4.1 數據集
實驗使用了三個真實世界的數據集:
1)自行車共享數據集(BSD)[4]:包含731 天出租自行車的數量和相應的天氣信息,分別用作觀察和標簽序列;
2)機動車碰撞數據集(MVCD):我們計算每天的碰撞次數得到一個包含1096個值的觀測序列,以每天的天氣狀況作為標簽序列;
3)電力消耗數據集(EPCD):通過匯總每天每分鐘的電力消耗,我們得到一個由1094條記錄組成的觀察序列,因為除了電力消耗和日期之外沒有額外的信息,我們簡單地使用從日期獲得的星期幾作為標簽。
此外,為了解決我們基于 Matlab 的算法實現中浮點數精度引起的問題,我們使用 min-max 歸一化將上述數據集中的所有值歸一化為 [0, 10] 范圍內。
4.2 實驗方法
?4.2.1 評估方法
?????????給定blackouts 的持續時間lb和原始序列 X,我們迭代地留下一段 作為缺失,以模擬從時間 t 開始且長度為 lb 的blackouts。對于每個段, 估計值 的均方根誤差 (RMSE) 計算如下。
????????
? ? ? ? 其中和分別是和中的第i個元素
????????然后通過 RMSE 的總和來量化整體性能,該總和是通過聚合具有 t = 1,...,T - lb + 1 的所有段的 RMSE(t, lb) 來計算的。
4.2.2 baseline
為了證明 HKMF-T 的有效性,我們將其性能與以下基線方法進行比較:
1)DynaMMo [1];
2)線性插值;
3) HKMF w/o.?T,代表沒有標簽信息的基于漢克爾矩陣的分解。
雖然這些方法沒有考慮標簽序列提供的外部影響信息,但我們設計了以下兩種簡單的算法進行比較研究:
4)MA 標簽,使用 10 天移動平均線 MA(10) 計算平滑趨勢分量,并學習 通過平均觀察值和 MA(10) 之間的差距來評估標簽的影響。blackouts期間的缺失值是使用 MA(10) 的線性插值加上給定標簽的平均影響值來估計的;
5)TagMean,簡單地通過從序列的觀察部分計算出的其標簽的平均值來估計缺失值。
4.3 實驗結果
????????在本節中,我們使用 RMSE 之和評估 HKMF-T 的整體有效性,并與基線方法進行比較研究。?
???????? blackouts的持續時間 lb 設置為 1 到 20,以詳細了解不同方法在不同? blackouts規模下的性能。
????????我們根據經驗將 λS、λO 和 λE 分別設置為 0.1、0.001 和 0.1,對于 lb ≥ 2,p = lb + 1,對于 lb = 1,p = 3。
????????矩陣 U 和 V 的秩 r 設置為 r = p。
??
圖 2 繪制了不同 lb 下不同方法的 RMSE 之和。
從圖中可以看出,當 lb 很短,即 lb ≤ 2 時,包括 DynaMMo、MA Tag 和 Linear Interpolation 在內的方法強烈反映了時間時間序列的連續性 [1],實現了比提出的 HKMF-T 方法更好的性能。
當blockouts持續時間增加時,HKMF-T 開始顯示其優勢。更具體地說,對于 BSD、MVCD 和 EPCD 數據集,當 lb ≥ 7、lb ≥ 9 和 lb ≥ 4 時,它分別優于所有其他方法。
?????????總之,當所有三個數據集的 lb ≥ 9 時,提出的 HKMF-T 方法優于所有基線方法,表明它在處理blockouts方面的有效性。
5 總結
本文提出了一種新的基于 MF 的方法,稱為 HKMF-T,通過將數據序列分解為平滑趨勢和外部影響分量來解決在blockouts期間估計缺失值的挑戰性問題。 遵循這個想法,所提出的方法首先將一維數據序列轉換為漢克爾矩陣,然后通過兩個低秩矩陣加上外部影響的乘積來近似。 通過對三個真實世界數據集進行的廣泛實驗,我們通過將其性能與最先進的基線方法進行比較來證明 HKMF-T 的有效性。
對于我們未來的工作,我們計劃:1)擴展 HKMF-T 以處理高維數據和標簽序列,以及 2)擴展標簽序列的影響模型,以包括每個事件對數據有長期影響的情況 順序。
總結
以上是生活随笔為你收集整理的论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 线性代数笔记:汉克尔矩阵(Hankel
- 下一篇: 论文笔记:HKMF-T: Recover