论文笔记:Temporal Regularized Matrix Factorization forHigh-dimensional Time Series Prediction
0 摘要
????????時間序列預測問題在現代應用中變得越來越高維,如氣候學和需求預測。例如,在需求預測中,項目數量可能高達50 000個。此外,數據通常是嘈雜的,充滿缺失值。因此,現代應用程序需要高度可伸縮的方法,并且能夠處理損壞或丟失值的噪聲數據。然而,傳統的時間序列方法往往無法解決這些問題。
????????在本文中,我們提出了一個時間正則化矩陣分解(TRMF)框架,支持數據驅動的時間學習和預測。我們開發了新的正則化方案,并使用了可擴展的矩陣分解方法,這非常適合具有許多缺失值的高維時間序列數據。
????????我們提出的TRMF是高度通用的,并包含了許多現有的時間序列分析方法。在學習自回歸框架中的依賴性的背景下,我們對圖正則化方法進行了有趣的連接。實驗結果表明,TRMF在可擴展性和預測質量方面具有優越性。特別是,TRMF在處理50,000維度的問題時比其他方法快兩個數量級,并且在真實世界的數據集(如沃爾瑪電子商務數據集)上生成更好的預測。
1 introduction
? ? ? ? 傳統的時間序列方法,比如自回歸模型(autoregressive)和動態線性模型(DLM),主要關注于低維時序數據,無法解決我們之前說的高維數據和有缺失值的問題。
????????建模高維時間序列數據的一種自然方法是采用矩陣的形式,行對應于每個一維時間序列,列對應于時間點。鑒于n個時間序列之間通常是高度相關的,已經有人嘗試應用低秩矩陣分解(MF)或矩陣補全(MC)技術來分析高維時間序列。與上面的AR和DLM模型不同,最先進的MF方法在n范圍內線性擴展,因此可以處理大型數據集。
? ? ? ?低秩矩陣分解的目標函數如下:
? ? ? ? 這里Ω是有數據的條目的集合。
????????,是低秩特征矩陣F和X的正則項。這通常在避免過擬合和/或鼓勵embedding中出現某些特定的時間結構特征方面發揮作用。
? ? ? ? 最普通的正則項是?(F是Forbenius范數) ,很顯然它不太適用于時間序列問題,因為它沒有考慮時間嵌入{xt}的順序。
????????線性代數筆記:Frobenius 范數_UQI-LIUWJ的博客-CSDN博客
????????大多數現有的MF方法采用基于圖的方法來處理時間依賴性。具體來說,依賴關系由加權相似圖描述,并通過拉普拉斯正則項進行約束。
【這里的圖是同一個特征的時序關系拼接成圖,也就是X矩陣的一行】
????????然而,這種基于圖的正則化在兩個時間點之間存在負相關(負邊圖)的情況下失效。
有負權重邊的圖可以有拉普拉斯矩陣嗎?_UQI-LIUWJ的博客-CSDN博客
????????與其他數據中有顯式圖信息的場景(如社交網絡圖)不同,在我們的問題下,顯式時間依賴結構通常是沒有的,必須推斷或近似。
????????此外,現有的MF方法雖然對過去點的缺失值產生了良好的估計,但在預測未來值方面卻很差,這是時間序列分析中感興趣的問題。
????????在本文中,我們提出了一個新的時間正則化矩陣分解框架(TRMF)用于高維時間序列分析。
????????在TRMF中,我們考慮了一種原則性的方法來描述潛在時間嵌入之間的時間依賴性結構{xt},并設計了一個時間正則化器來將這種時間依賴性結構納入標準MF公式。
????????與大多數現有的MF方法不同,我們的TRMF方法支持數據驅動的時間依賴性學習,并為矩陣分解方法帶來預測未來值的能力。此外,TRMF方法繼承了MF方法的屬性,即使在存在許多缺失值的情況下,TRMF也可以輕松處理高維時間序列數據。
? ? ? ? ? ?作為一個具體的例子,我們展示了一種新的自回歸時間正則化器,它鼓勵時間嵌入{xt}之間的AR(autoregressive)結構。
????????我們還將提出的正則化框架與基于圖的方法[18]聯系起來,其中甚至可以解釋負相關。
????????這種連接不僅有助于更好地理解我們的框架所包含的依賴結構,而且還有助于使用現成的高效求解器(如GRALS[15])直接求解TRMF。
2?具有時間依賴性的數據的現有矩陣分解方法
????????標準MF公式對列的排列保持不變(個人理解是列不管怎么變,權重矩陣保持不變),這不適用于具有時間依賴性的數據。
????????因此,對于時間依賴性{xt},大多數現有的時間MF方法都轉向基于圖的正則化框架[18],并用圖編碼時間依賴性。
2.1 時間依賴性的圖正則化
?
? ? ? ? 令G是一個時間依賴性{xt}的圖,Gts是第t個點和第s個點之間的邊權重。一種常見的正則化方式如下公式:
????????
? ? ? ? 其中t~s代表了第t個點和第s個點之間的邊;第二個正則化項是用來保證強凸性?
? ? ? ? 一個很大的Gts可以保證xt和xs在歐幾里得距離上很接近
? ? ? ? 為了保證的凸性,我們讓Gts≥0?
?????????為了將基于圖的正則化應用于時間依賴關系上,我們需要通過滯后集L和權值向量w重復地指定各個點之間的依賴模式,以便距離L的所有邊t ~ s共享相同的權值
????????于是上面的公式2可以改寫成:
?????????這種直接使用基于圖的方法雖然很直觀,但有兩個問題:
a)兩個時間點之間可能存在負相關依賴關系;
b)顯式的時態依賴結構通常不可用,必須使用者進行推斷。
? ? ? ? 于是,很多現有的這種正則化的模型只能考慮很簡單的時間依賴關系(比如滯后集L很小,L={1}),和/或 統一的權重(比如不管兩個點之間距離是多少,權重統一設置為1)
????????這導致現有MF方法對大規模時間序列的預測能力較差。
2.2 學習時間依賴性的挑戰
? ? ? ? 也許有人會想:那我權重參數w讓機器自己學不就好了嗎?
·? ? ? ? 在這種假設下,我們有了以下的優化方程:
?
? ? ? ? ?我們不難發現,最終的優化結果,是所有的w都是0,意為沒有空間依賴關系的時候,目標函數達到最小值。
? ? ? ? 為了避免讓所有的w都是0,有人想到可以給w的和加上一個限制,比如?
? ? ? ? 同樣地,我們不難發現,最終的優化結果是對應的wl*是1,其他的w是0
????????因此,通過簡單地在MF公式中插入正則化器來自動學習權重并不是一個可行的選擇。
?3 TRMF temporal regularized matrix factorization
????????為了解決2.1和2.2節中提到的限制,我們提出了時間正則化矩陣分解(TRMF)框架,這是一種將時間依賴性納入矩陣分解模型的新方法。
????????與前面提到的基于圖的方法不同,我們建議使用經過充分研究的時間序列模型來明確地描述{xt}之間的時間依賴性。
?
?????????是一個高斯噪聲向量
????????是一個時間序列模型,參數是Θ和滯后集L
???????????????L是一個包含滯后指標L的集合,表示t和t-l時間點之間的相關性
???????????????Θ捕捉時間相關性的權重信息(如AR模型中的轉移矩陣)。
? ? ? ? 基于此,我們提出了一個新的正則化項,這可以鼓勵模型依照時間序列
? ? ? ? ?我們令
? ? ? ? ?當θ給定的時候,我們令為矩陣分解的一個正則化項;當θ未知的時候,我們令θ為另外一部分參數,并且設計Rθ以作為另一個正則化項。
? ? ? ? ?通過交替地優化更新F,X,Θ,可以解決上面的優化方程。
3.1?TRMF中數據驅動的時間依賴性學習
????????在2.2中,我們展示了直接使用基于圖的正則化項來合并時間依賴性會導致權重的平凡解(全0解)。
? ? ? ? 在TRMF中,當F和X是固定的時候,式(7)可以簡化為:
?
? ? ? ? ?其中第一項可以看成:min? -logP(x1,....xT|θ),即max?P(x1,....xT|θ)
? ? ? ? 也就是說,后一項可以看成最大后驗概率
?3.2?TRMF時間序列分析
????????我們可以看到,TRMF可以無縫地處理在分析具有時間依賴性的數據時經常遇到的各種任務:
3.2.1 時間序列預測
? ? ? ? 一旦我們有了潛在的嵌入的,我們可以預測未來的嵌入,然后使用來預測結果
3.2.2 缺失值補全
????????
4?一種新的自回歸時間正則化算法
?????????在小節3中,我們大致介紹了TRMF的框架:正則項(有時間序列模型確定)
?????????在這一小節中,我們將介紹一種TRMF框架:自回歸模型,參數為滯后集L和權重
? ? ? ? ?我們令xt是以下形式
?
???是一個高斯噪聲向量
于是,時間正則化項?可以寫成:
其中?
?????????由于每個所以我們有?個參數要學習,這可能導致過擬合
????????為了避免過擬合,同時為了生成更可解釋的結果,我們人為定義為對角矩陣,這可以使得參數量減少至
? ? ? ? 出于簡化的考慮,我們使用W來表示這個k×L的矩陣,其中第l列表示?的對角線元素
.? ? ? ? 簡化后,我們有:
xt表示時刻t的向量?
?將式(10)代入式(7),有式(12):
?我們將式(12)命名為TRMF-AR
?4.1 不同時間序列之間的關聯性
?????????盡管是對角陣,但是TRMF還是可以建模不同時間序列(X矩陣不同行之間)的關聯性。這個關聯性在特征矩陣F中體現
4.2 滯后集L的選擇
????????TRMF中L的選擇更加靈活。因此,TRMF可以提供重要的優勢:
首先,因為不需要指定權重參數W,可以選擇更大的L來考慮長期依賴性,這也可以產生更準確和穩健的預測。
其次,L中的時延不需要是連續的,這樣就可以很容易地嵌入關于周期性或季節性的領域知識。例如,對于具有一年季節性的每周數據,可以考慮L ={1, 2, 3, 51, 52, 53}。
?4.3 參數的優化
?
?
5 實驗
5.1 數據集
????????對于synthetic數據集,我們先隨機生成一個,,生成{xt},它滿足AR過程,且滯后集L={1,8}。然后Y通過?生成
?????????電力和交通數據集從UCI存儲庫獲得,而Walmart -1和Walmart -2是來自Walmart電子商務的兩個專有數據集,其中包含每周的銷售信息。由于缺貨等原因,missing rate分別為55.3%和49.3%。為了評價預測性能,我們考慮了歸一化偏差(ND)和歸一化均方根(NRMSE)。
5 .2 實驗結果?
?
總結
以上是生活随笔為你收集整理的论文笔记:Temporal Regularized Matrix Factorization forHigh-dimensional Time Series Prediction的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 概率统计概念复习:MAPMLE
- 下一篇: 强化学习笔记:Q-learning :t