OnLineML:时序数据挖掘
關于時序分析:
????? 我們跟隨時間的腳步,試圖解釋現(xiàn)在、理解過去、甚至預測未來........
原文鏈接:http://blog.sciencenet.cn/home.php?mod=space&uid=34250&do=blog&id=287173
?簡介:
??? ??? 時間序列是一種重要的高維數(shù)據(jù)類型,它是由客觀對象的某個物理量在不同時間點的采樣值按照時間先后次序排列而組成的序列,在經(jīng)濟管理以及工程領域具有廣?泛?應用。例如證券市場中股票的交易價格與交易量、外匯市場上的匯率、期貨和黃金的交易價格以及各種類型的指數(shù)等,這些數(shù)據(jù)都形成一個持續(xù)不斷的時間序?列。利?用時間序列數(shù)據(jù)挖掘,可以獲得數(shù)據(jù)中蘊含的與時間相關的有用信息,實現(xiàn)知識的提取[1]。時間序列數(shù)據(jù)本身所具備的高維性、復雜性、動態(tài)性、高噪?聲特性以?及容易達到大規(guī)模的特性,因此時間序列挖掘是數(shù)據(jù)挖掘研究中最具有挑戰(zhàn)性的十大研究方向之一[2]。
??????? 目前重點的研究內容包括時間序列的模式表?示、時間序列?的相似性度量和查詢、時間序列的聚類、時間序列的異常檢測、時間序列的分類、時間序列的預測等。?
特點:
???? ?? 由于時間序列數(shù)?據(jù)本身所具備的高維性、復雜性、動態(tài)性、高噪聲特性以及容易達到大規(guī)模的特性,直接在時間序列上進行數(shù)據(jù)挖掘不但在儲存和計算上要花費高昂?代價而且可能?會影響算法的準確性和可靠性。
??????? 時間序列的模式表示是一種對時間序列進行抽象和概括的特征表示方法,是在更高層次上對時間序列的重新描述[3,?4]。? 時間序列的模式表示具有壓縮數(shù)據(jù)、保持時間序列基本形態(tài)的功能,并且具有一定的除噪能力。
??????? 常用的時間序列模式表示方法主要包含:頻域表示法、分段線?性表示?法、符號表示法以及主成分分析表示法等。
??????? 頻域表示的基本思想是將時間序列從時域通過傅里葉變換或小波變換映射到頻域,用很少的低頻系數(shù)來代表原來的?時間?序列數(shù)據(jù),這種方法雖然數(shù)據(jù)濃縮的效率很高,但是對噪聲敏感,而且不直觀。
??????? 分段線性表示法的基本思想是用K個直線段來近似代替原來的時間序列,這種方?法?能夠實現(xiàn)數(shù)據(jù)壓縮的目的,而且允許在時間軸上進行縮放,但實現(xiàn)過程較復雜,且要求事先給出直線段數(shù)K。K值的選擇是一個關鍵因素,太小則丟失有用信?息,?太大又會產(chǎn)生過多的冗余信息。
??????? 時間序列的符號化表示就是通過一些離散化方法將時間序列的連續(xù)實數(shù)值或者一段時間內的時間序列波形映射到有限的符號表?上,將?時間序列轉換為有限符號的有序集合。符號化表示的優(yōu)點在于可以利用許多字符串研究領域的成果,缺點在于如何選擇合適的離散化算法,解釋符號的意?義,以及定?義符號之間的相似性度量。
??????? 主成分分析是一種常見的降維方法。在時間序列的模式表示中,通過對整個時間序列數(shù)據(jù)庫的整體表示實現(xiàn)對整個時間序列?數(shù)據(jù)庫的特征?提取和壓縮。其優(yōu)點在于計算精度高且對噪聲數(shù)據(jù)的魯棒性強,但由于在奇異值分解過程中涉及到特征值計算,計算開銷較大。
??????? 時間序列的相似性度量是時間序列數(shù)據(jù)挖掘的基礎[5,?6]。時間序列由于其特定的形狀特征,?使得目前常用的一些相似性度量和聚類方法失去了原有的優(yōu)越?性,?而幾乎所有的時間序列挖掘算法都涉及到計算序列之間的相似性問題。目前,時間序列的相似性度量主要采用Lp范數(shù)(例如歐幾里德距離)、動態(tài)時間彎曲?距離、?最長公共子序列、編輯距離、串匹配等。前兩種相似性度量方法應用較為廣泛。但是歐幾里德距離不支持時間序列的線性漂移和時間彎曲,動態(tài)時間彎曲距?離的計算?量很大,不適合直接應用于海量時間序列的挖掘,從而限制了其在時間序列數(shù)據(jù)挖掘上的廣泛應用。
特征聚類方法:
???? ? 雖然各種聚類方法已經(jīng)在數(shù)?據(jù)挖掘領域中得到了較為深入的研究,但這些方法大多是針對關系數(shù)據(jù)庫中的靜態(tài)數(shù)據(jù)對象而提出的。然而在現(xiàn)實世界中越來越多的應用?涉及到流數(shù)據(jù)和時間序列?數(shù)據(jù)等隨時間變化的復雜動態(tài)數(shù)據(jù)對象的聚類分析。由于時間序列數(shù)據(jù)與靜態(tài)數(shù)據(jù)有著極大的不同,故對其進行聚類分析有著很大的復雜?性。
????? ? 近年來,涌現(xiàn)出許多?時間序列聚類方法[7],這些時間序列數(shù)據(jù)聚類方法大體上可以分為三種,即基于原始數(shù)據(jù)的聚類、基于特征的聚類和基于模型的聚類。?其中后兩種方法的核心?思想是利用時間序列的模式表示方法把時間序列數(shù)據(jù)轉化為靜態(tài)的特征數(shù)據(jù)或者是模型參數(shù),然后再直接應用靜態(tài)數(shù)據(jù)的聚類方法來完成聚類?任務。
?????? 在對時間序列進行分析時,?經(jīng)常希望能夠發(fā)現(xiàn)這些時間序列在不同時間段的形態(tài)有何關聯(lián)關系。這種關聯(lián)關系一般表現(xiàn)為時間序列中頻繁出現(xiàn)的變化模式和極少出現(xiàn)?的變化模式。這種極少出現(xiàn)?的變化模式稱之為異常模式。在某些領域,?異常模式的發(fā)現(xiàn)對人們來說往往更有價值。例如,?醫(yī)院可以從病人的心電圖序列中發(fā)現(xiàn)?異常模式從而進行診斷和治療。按照異常的表現(xiàn)形式不同,?線性時間和空間上時間序列的異常主要可以分為點異常和模式異常兩種,?它們都是用于發(fā)現(xiàn)一條時間?序列上的異常情況的。
????? ? 模式異常是指在一條時間序列上與其他模式之間具有顯著差異的模式。事實上,?點異常也可以認為是長度為1?的模式異常。目前已經(jīng)提出?多種時間序列異常檢測方法,例如基于人工免疫系統(tǒng)的時間序列異常檢測[9]、基于支持向量聚類的時間序列異常檢測[9]以及后綴?樹和馬爾可夫模型的時間?序列異常檢測[10]。
時間序列分類:
?????? 時間序列分類是時間序列數(shù)據(jù)分析中的重要任務之一.?不同于時間序列分析中常用的算法與問題,時間序列分類?是要把整個時間序列當作輸入,其目的是要賦予這個序列某個離散標記。它比一般分類問題困難,主要在于?要分類的時間序列數(shù)據(jù)不等長,這使得一般的分類算法?不能直接應用。即使是等長的時間序列,由于不同序列在相同位置的數(shù)值一般不可直接比較,一般的分類算法?依然還是不適合直接應用。
??????? 為了解決這些難點,通常?有兩種方法:第一,定義合適的距離度量(最常用的距離度量是DTW距離),使得在此度量意義下相近的序列?有相同的分類標簽,這類方法屬于領域無關的方?法;第二,首先對時間序列建模(利用序列中前后數(shù)據(jù)的依賴關系建立模型),再用模型參數(shù)組成等長向量來表示每?條序列,最后用一般的分類算法進行訓練和分?類,這類方法屬于領域相關的方法。文[11]分析了兩類方法,并且分別在不同的合成數(shù)據(jù)集和實際數(shù)據(jù)集上比較了?領域無關和領域相關的兩類方法。結果發(fā)現(xiàn)?在訓練數(shù)據(jù)較少時,使用領域相關的算法比較合適;另一方面,領域無關的算法受噪聲的影響相對較少。
預測:
?? ???? 預測是對尚未發(fā)生或目前還不明確?的事物進行預先的估計和推測,是在現(xiàn)時對事物將要發(fā)生的結果進行探討和研究,簡單地說就是指從已知事件測定未知事件。進行?預測的總原則是:認識事物的發(fā)?展變化規(guī)律,利用規(guī)律的必然性進行科學預測。時間序列預測主要包括三種基本方法:內生時間序列預測技術;外生時間序列預測技?術;主觀時間序列預測技術。?時間序列分析與預測在經(jīng)濟[12]、金融[13]、工程[14]等領域有著廣泛的應用,研究成果也最為豐富,將另文討論。
???????????????????????????????????????????????????????
參考文獻:
1.?????? Keogh E, Kasetty S.On the need for time series data mining benchmarks: a survey and empirical demonstration.Data Mining and Knowledge Discovery, 2003, 7(4): 349-371.
2.??????? Yang Qiang, Wu Xindong. 10 challenging problems in data mining research. International Journal of Information Technology & Decision Making, 2006, 5(4): 597-604.
3.??????Lin J, Keogh E, Lonardi S, Chiu B.A symbolic representation of time series, with implications for streaming algorithms. Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, 2003, Pages: 2 – 11.??
4.???????Gullo F, Ponti G, Tagarelli A, Greco S. A time series representation model for accurate and fast similarity detection, Pattern Recognition, 2009, 42(11): 2998-3014.
5.??????Gunopulos D, Das G. Time series similarity measures.KDD’00: Tutorial notes of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, 2000.
6.??????Literatures on Similarity-based Time Series Retrieval.http://www.cs.ust.hk/~leichen/readings/literaturesovertimeseries.htm
7.?????? Liao T W. Clustering of time series data: a survey. Pattern Recognition, 2005, 38: 1857-1874
8.??????Dasgupta D, Forrest S. Novelty detection in time series data using ideas from immunology. In: Proceeding of the 5th International Conference on Intelligent Systems. 1996, Pages: 82- 87.
9.??????Ma J, Perkins S. Time-series Novelty Detection Using One-class Support Vector Machines. Procedding of International Joint Conference on Neural Networks, 2003.
10.????Keogh E, Lonardi S. Finding surprising patterns in a time series database in linear time and space. Proceedings of the eighth ACM SIGKDD, 2002.
11.????楊一鳴,潘嶸,潘嘉林,楊強,李磊.?時間序列分類問題的算法比較. 計算機學報,2007,30(8):1259-1265.
12.????Clements M P(柯萊蒙茲),Hendry D F(韓德瑞),陸懋祖.預測經(jīng)濟時間序列.北京大學出版社,2008
13.????Tsay R S(蔡瑞胸),潘家柱譯.金融時間序列分析.機械工業(yè)出版社,2006
14.?? ?楊叔子.時間序列分析的工程應用(上下冊).第二版.華中科技大學出版社,2007?
總結
以上是生活随笔為你收集整理的OnLineML:时序数据挖掘的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (zxing.net)一维码Code 1
- 下一篇: 内积(又名点积)