Data Mining 论文翻译:Deep Learning for Spatio-Temporal Data Mining: A Survey
原文鏈接:[1906.04928] Deep Learning for Spatio-Temporal Data Mining: A Survey (arxiv.org)
IEEE Transactions on Knowledge and?Data?Engineering
0 摘要
????????隨著全球定位系統(tǒng)(GPS)、移動(dòng)設(shè)備、遙感等各種定位技術(shù)的快速發(fā)展,時(shí)空數(shù)據(jù)越來(lái)越多。從時(shí)空數(shù)據(jù)中挖掘有價(jià)值的知識(shí)對(duì)于許多現(xiàn)實(shí)世界的應(yīng)用至關(guān)重要,包括理解人類移動(dòng)、智能交通、城市規(guī)劃、公共安全、醫(yī)療保健和環(huán)境管理。
????????隨著時(shí)空數(shù)據(jù)集的數(shù)量、容量和分辨率的快速增長(zhǎng),傳統(tǒng)的數(shù)據(jù)挖掘方法,尤其是基于統(tǒng)計(jì)的數(shù)據(jù)挖掘方法,正變得不堪重負(fù)。
????????近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等深度學(xué)習(xí)模型由于其強(qiáng)大的時(shí)空層次特征學(xué)習(xí)能力,在各種機(jī)器學(xué)習(xí)任務(wù)中獲得了巨大的成功。在預(yù)測(cè)學(xué)習(xí)、表示學(xué)習(xí)、異常檢測(cè)和分類等各種時(shí)空數(shù)據(jù)挖掘任務(wù)中得到了廣泛的應(yīng)用。
?????????在本文中,我們對(duì)深度學(xué)習(xí)技術(shù)應(yīng)用于STDM(spatial-temporal data mining)的最新進(jìn)展進(jìn)行了綜述:
? ? ? ? ·首先對(duì)時(shí)空數(shù)據(jù)的類型進(jìn)行了分類,并簡(jiǎn)要介紹了STDM中常用的深度學(xué)習(xí)模型。
? ? ? ? ·然后介紹了一個(gè)框架,以顯示針對(duì)STDM的深度學(xué)習(xí)模型利用的一般流程。
? ? ? ? ·接下來(lái),我們根據(jù)ST數(shù)據(jù)的類型、數(shù)據(jù)挖掘任務(wù)和深度學(xué)習(xí)模型對(duì)現(xiàn)有文獻(xiàn)進(jìn)行分類,以及根據(jù)深度學(xué)習(xí)在不同領(lǐng)域的STDM應(yīng)用進(jìn)行分類,包括交通、氣候科學(xué)、人口流動(dòng)性、基于位置的社會(huì)網(wǎng)絡(luò)、犯罪分析和神經(jīng)科學(xué)。
? ? ? ? ·最后,總結(jié)了目前研究的局限性,并指出了未來(lái)的研究方向。
1 introduction
????????隨著地圖、虛擬地球儀、遙感圖像、十年一次的人口普查和GPS軌跡等大型時(shí)空數(shù)據(jù)集的可用性和重要性不斷提高,時(shí)空數(shù)據(jù)挖掘(STDM)在大數(shù)據(jù)時(shí)代變得越來(lái)越重要。STDM在環(huán)境與氣候(如風(fēng)預(yù)測(cè)、降水預(yù)測(cè))、公共安全(如犯罪預(yù)測(cè))、智能交通(如交通流預(yù)測(cè))、人口流動(dòng)性(如人口軌跡模式)等多個(gè)領(lǐng)域都有廣泛的應(yīng)用。
????????由于多種原因,用于處理交易數(shù)據(jù)或圖形數(shù)據(jù)的經(jīng)典數(shù)據(jù)挖掘技術(shù)在應(yīng)用于時(shí)空數(shù)據(jù)集時(shí)通常效果不佳:
????????首先,ST數(shù)據(jù)通常嵌入在連續(xù)的空間中,而傳統(tǒng)的數(shù)據(jù)集(例如交易和圖表)通常是離散的。
????????其次,ST數(shù)據(jù)的模式通常同時(shí)具有空間和時(shí)間特性,這更復(fù)雜,并且傳統(tǒng)方法難以捕獲數(shù)據(jù)相關(guān)性。
????????最后,傳統(tǒng)的基于統(tǒng)計(jì)的數(shù)據(jù)挖掘方法中的常見假設(shè)之一是數(shù)據(jù)樣本是獨(dú)立生成的。但是,當(dāng)進(jìn)行時(shí)空數(shù)據(jù)分析時(shí),關(guān)于樣本獨(dú)立性的假設(shè)通常不成立,因?yàn)?span style="color:#4da8ee;">ST數(shù)據(jù)傾向于高度自相關(guān)。
????????盡管在過(guò)去的幾十年中對(duì)STDM進(jìn)行了廣泛的研究,但一個(gè)共同的問(wèn)題是傳統(tǒng)方法在很大程度上依賴于特征工程。換句話說(shuō),用于STDM的常規(guī)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)在處理原始格式的時(shí)空數(shù)據(jù)的能力方面受到限制。
????????例如,要從fMRI數(shù)據(jù)分析人的大腦活動(dòng),通常需要通過(guò)仔細(xì)的特征工程和相當(dāng)多的領(lǐng)域?qū)I(yè)知識(shí)來(lái)設(shè)計(jì)特征提取器,以將原始數(shù)據(jù)(例如,掃描的fMRI圖像的像素值)轉(zhuǎn)換為合適的內(nèi)部表示形式或特征向量。
????????近年來(lái),隨著深度學(xué)習(xí)的盛行,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等各種深度學(xué)習(xí)模型因其強(qiáng)大的層次特征學(xué)習(xí)能力而在各種機(jī)器學(xué)習(xí)任務(wù)中取得了相當(dāng)大的成功,并且已經(jīng)廣泛使用應(yīng)用于許多領(lǐng)域,包括計(jì)算機(jī)視覺,自然語(yǔ)言處理,推薦,時(shí)間序列數(shù)據(jù)預(yù)測(cè)和STDM。
????????與傳統(tǒng)方法相比,STDM深度學(xué)習(xí)模型的優(yōu)勢(shì)如下:
1.1,自動(dòng)特征表示學(xué)習(xí)
????????深度學(xué)習(xí)模型可以從原始時(shí)空數(shù)據(jù)中自動(dòng)學(xué)習(xí)分層特征表示,這與需要手工制作特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法有顯著不同。
????????在STDM中,數(shù)據(jù)的空間鄰近性和長(zhǎng)期時(shí)間相關(guān)性通常很復(fù)雜且難以捕獲。 通過(guò)CNN中的多層卷積操作和RNN的遞歸結(jié)構(gòu),可以直接從原始數(shù)據(jù)中自動(dòng)有效地學(xué)習(xí)時(shí)空數(shù)據(jù)中的空間鄰近性和時(shí)間相關(guān)性。
1.2 強(qiáng)大的函數(shù)逼近能力
????????從理論上講,深度學(xué)習(xí)可以逼近任何復(fù)雜的非線性函數(shù),并且只要其具有足夠的層和神經(jīng)元,就可以擬合任何曲線。
???????? 深度學(xué)習(xí)模型通常由多層組成,每一層都可以被認(rèn)為是具有池化,dropout和激活函數(shù)的簡(jiǎn)單非線性的模塊。因此它可以將特征表示從一個(gè)級(jí)別轉(zhuǎn)換為更高級(jí)別和更抽象的表示 水平。 通過(guò)足夠多的此類轉(zhuǎn)換,可以學(xué)習(xí)非常復(fù)雜的功能,以使用更復(fù)雜的時(shí)空數(shù)據(jù)執(zhí)行更困難的STDM任務(wù)。
?
????????
????????圖1顯示了每年探索各種STDM任務(wù)的深度學(xué)習(xí)技術(shù)的論文數(shù)量。
????????可以看到,過(guò)去三年中,論文數(shù)量呈顯著增長(zhǎng)趨勢(shì)。從2012年到2015年,每年僅發(fā)表不到10篇相關(guān)論文。從2016年開始,這一數(shù)量迅速增加,許多研究人員針對(duì)不同應(yīng)用領(lǐng)域中不同類型的ST數(shù)據(jù)嘗試了不同的深度學(xué)習(xí)模型。 2018年,大約發(fā)表了90篇相關(guān)論文。目前尚無(wú)法獲得2019年的完整數(shù)字,但我們認(rèn)為增長(zhǎng)趨勢(shì)將在今年以及未來(lái)幾年保持下去。
????????鑒于問(wèn)題的豐富性和實(shí)際應(yīng)用的多樣性,由于以下原因,迫切需要一篇可以概述STDM的文章:
? ? ? ? 1)它可以突出顯示使用不同的深度學(xué)習(xí)模型來(lái)解決不同應(yīng)用程序領(lǐng)域的STDM問(wèn)題的異同。????????
? ? ? ? 2)這可以使不同研究領(lǐng)域和應(yīng)用領(lǐng)域的思想相互交流(通過(guò)觀察在某一個(gè)領(lǐng)域(比如交通領(lǐng)域的交通流量預(yù)測(cè))的深度學(xué)習(xí)模型【比如CNN和RNN】是如何在另一個(gè)領(lǐng)域的問(wèn)題中起作用的(比如犯罪分析領(lǐng)域的犯罪預(yù)測(cè)))
????????有關(guān)STDM的相關(guān)調(diào)查
????????最近有一些調(diào)查從不同的角度回顧了某些情況下STDM的文獻(xiàn)。
????????[9]和[143]討論了在“大數(shù)據(jù)”時(shí)代用于遙感,氣候科學(xué)和社交媒體分析等應(yīng)用領(lǐng)域的STDM算法的計(jì)算問(wèn)題。
????????[87]專注于時(shí)空數(shù)據(jù)的頻繁模式挖掘。它指出了從數(shù)控?cái)?shù)據(jù)中發(fā)現(xiàn)模式的挑戰(zhàn),并將模式分為三類:單個(gè)周期性模式、多軌跡上的成對(duì)運(yùn)動(dòng)模式和聚集模式。
????????[18]回顧了STDM研究和應(yīng)用中的最新技術(shù),重點(diǎn)放在時(shí)空數(shù)據(jù)的預(yù)測(cè)、聚類和可視化的數(shù)據(jù)挖掘任務(wù)上。
???????? [130]從計(jì)算的角度回顧了STDM,并強(qiáng)調(diào)了STDM的統(tǒng)計(jì)基礎(chǔ)。
????????[112]回顧了軌跡數(shù)據(jù)挖掘的方法和應(yīng)用,軌跡數(shù)據(jù)挖掘是時(shí)空數(shù)據(jù)的一種重要類型。
???????? [75]提供了對(duì)時(shí)空數(shù)據(jù)聚類的全面調(diào)查。
???????? [4]討論了不同類型的時(shí)空數(shù)據(jù)以及在分析每種類型的數(shù)據(jù)的背景下出現(xiàn)的相關(guān)數(shù)據(jù)挖掘問(wèn)題。他們將有關(guān)STDM的文獻(xiàn)分類為六個(gè)主要類別:聚類,預(yù)測(cè)學(xué)習(xí),變更檢測(cè),頻繁模式挖掘,異常檢測(cè)和關(guān)系挖掘。
????????但是,所有這些工作都是從傳統(tǒng)方法而非深度學(xué)習(xí)方法的角度對(duì)STDM進(jìn)行審查的。 [114]和[157]提供了一項(xiàng)調(diào)查,該調(diào)查特別側(cè)重于利用深度學(xué)習(xí)模型來(lái)分析交通數(shù)據(jù)以提高交通系統(tǒng)的智能水平。總體上,對(duì)于探索STDM的深度學(xué)習(xí)技術(shù)仍然缺乏廣泛而系統(tǒng)的調(diào)研。
?
本文的貢獻(xiàn)?
1)首份調(diào)研
????????據(jù)我們所知,這是第一份對(duì)近期探索STDM深度學(xué)習(xí)技術(shù)的著作進(jìn)行回顧的調(diào)研。
????????鑒于近年來(lái)對(duì)時(shí)空數(shù)據(jù)分析進(jìn)行深度學(xué)習(xí)的研究越來(lái)越多,我們首先對(duì)時(shí)空數(shù)據(jù)類型進(jìn)行分類,然后介紹在STDM中廣泛使用的流行的深度學(xué)習(xí)模型。
????????我們還總結(jié)了不同數(shù)據(jù)類型的數(shù)據(jù)表示形式,并總結(jié)了哪種深度學(xué)習(xí)模型適合處理時(shí)空數(shù)據(jù)的哪些類型的數(shù)據(jù)表示形式
2)通用框架?
????????我們?yōu)榛谏疃葘W(xué)習(xí)的STDM提供了一個(gè)通用框架,該框架包括以下主要步驟:數(shù)據(jù)實(shí)例構(gòu)建,數(shù)據(jù)表示,深度學(xué)習(xí)模型選擇和解決STDM問(wèn)題。
???????? 在框架的指導(dǎo)下,給定特定的STDM任務(wù),人們可以更好地使用適當(dāng)?shù)臄?shù)據(jù)表示形式,并為正在研究的任務(wù)選擇或設(shè)計(jì)合適的深度學(xué)習(xí)模型。
3)全面調(diào)查
????????該調(diào)查提供了針對(duì)不同STDM問(wèn)題使用深度學(xué)習(xí)技術(shù)的最新進(jìn)展的全面概述,這些問(wèn)題包括預(yù)測(cè)學(xué)習(xí),表示學(xué)習(xí),分類,估計(jì)和推論,異常檢測(cè)等。
????????對(duì)于每項(xiàng)任務(wù),我們將針對(duì)不同類型的時(shí)空數(shù)據(jù)提供具有代表性的作品和模型的詳細(xì)說(shuō)明,并進(jìn)行必要的比較和討論。
????????我們還將根據(jù)應(yīng)用領(lǐng)域?qū)Ξ?dāng)前的工作進(jìn)行分類和總結(jié),包括運(yùn)輸,氣候科學(xué),人口流動(dòng)性,基于位置的社交網(wǎng)絡(luò),犯罪分析和神經(jīng)科學(xué)
4)未來(lái)的研究方向?
????????該調(diào)查還突出了一些尚待深入研究的未解決問(wèn)題,并指出了未來(lái)可能的研究方向。
?行文結(jié)構(gòu)
本文的行文結(jié)構(gòu)如下。
第二節(jié)介紹時(shí)空數(shù)據(jù)的分類,并簡(jiǎn)要介紹STDM中廣泛使用的深度學(xué)習(xí)模型。
第三節(jié)為STDM提供了一個(gè)使用深度學(xué)習(xí)的總體框架。
第四節(jié)概述了深度學(xué)習(xí)模型處理的各種STDM任務(wù)。
第五節(jié)展示了跨不同領(lǐng)域的應(yīng)用程序。
第六節(jié)討論了現(xiàn)有模型的局限性,并提出了未來(lái)的方向。
最后,我們?cè)诘谄吖?jié)對(duì)本文進(jìn)行總結(jié)。
2 時(shí)空數(shù)據(jù)的類型?
2.1 數(shù)據(jù)類型
????????時(shí)空數(shù)據(jù)有多種類型,它們?cè)诓煌膶?shí)際應(yīng)用程序中的數(shù)據(jù)收集和表示方式不同。 不同的應(yīng)用場(chǎng)景和時(shí)空數(shù)據(jù)類型導(dǎo)致不同類型的數(shù)據(jù)挖掘任務(wù)和問(wèn)題表述。
????????不同的深度學(xué)習(xí)模型通常對(duì)時(shí)空數(shù)據(jù)的類型有不同的偏好,并且對(duì)輸入數(shù)據(jù)格式有不同的要求。 例如,CNN模型設(shè)計(jì)為處理類似圖像的數(shù)據(jù),而RNN通常用于處理順序數(shù)據(jù)。、
???????? 因此,重要的是首先總結(jié)時(shí)空數(shù)據(jù)的一般類型并正確表示它們。 我們遵循并擴(kuò)展了[4]中的分類,并將時(shí)空數(shù)據(jù)分為以下類型:事件數(shù)據(jù),軌跡數(shù)據(jù),點(diǎn)參考數(shù)據(jù),柵格數(shù)據(jù)和視頻
2.1.1 事件數(shù)據(jù)
????????事件數(shù)據(jù)包括在地點(diǎn)和時(shí)間發(fā)生的離散事件(例如城市中的犯罪事件和交通網(wǎng)絡(luò)中的交通事故事件)。通常,事件的特征可以是點(diǎn)的位置和時(shí)間,分別表示事件發(fā)生的位置和時(shí)間。
????????例如,犯罪事件的特征可以是這樣的元組(ei,li,ti),其中ei是犯罪類型,li是犯罪發(fā)生的地點(diǎn),ti是犯罪發(fā)生的時(shí)間。
????????圖1(a)展示了事件數(shù)據(jù)。它顯示了三種類型的事件,這些事件由不同形狀的符號(hào)表示。
? ? ? ? 時(shí)空事件數(shù)據(jù)在犯罪學(xué)(犯罪和相關(guān)事件的發(fā)生率),流行病學(xué)(疾病暴發(fā)事件),交通(車禍)和社交網(wǎng)絡(luò)(社交事件和趨勢(shì)主題)等現(xiàn)實(shí)應(yīng)用中很常見。
2.1.2 軌跡數(shù)據(jù)?
????????軌跡表示隨時(shí)間推移在空間中移動(dòng)的物體所形成的路徑。 (例如,自行車或出租車的行駛路線)。
???????? 軌跡數(shù)據(jù)通常由部署在移動(dòng)物體上的傳感器收集,這些傳感器可以隨著時(shí)間的推移周期性地傳輸物體的位置,例如出租車上的GPS。
????????圖1(b)顯示了兩個(gè)軌跡的圖示。 每個(gè)軌跡通常可以表征為這樣的序列{(l1,t1),(l2,t2)…(ln,tn)},其中l(wèi)i是位置(例如緯度和經(jīng)度),ti是時(shí)間 移動(dòng)物體通過(guò)此位置。
???????? 隨著移動(dòng)應(yīng)用程序和物聯(lián)網(wǎng)技術(shù)的發(fā)展,諸如用戶軌跡,城市交通軌跡和基于位置的社交網(wǎng)絡(luò)等軌跡數(shù)據(jù)變得無(wú)處不在。
2.1.3 點(diǎn)參考數(shù)據(jù)。
????????點(diǎn)參考數(shù)據(jù)包括連續(xù)時(shí)空?qǐng)龅臏y(cè)量值,例如在空間和時(shí)間上一組移動(dòng)參考點(diǎn)上的溫度,植被或種群。
???????? 例如,通常使用漂浮在太空中的氣象氣球來(lái)測(cè)量諸如溫度和濕度之類的氣象數(shù)據(jù),這些氣象氣球會(huì)連續(xù)記錄天氣觀測(cè)結(jié)果。
????????點(diǎn)參考數(shù)據(jù)通常可以表示為一組元組:{{r1,l1,t1),(r2,l2,t2)…(rn,ln,tn)}。 每個(gè)元組(ri,li,ti)表示在時(shí)間ti處時(shí)空?qǐng)錾衔恢胠i處傳感器ri的測(cè)量值。
????????圖3示出了在兩個(gè)時(shí)間戳處的連續(xù)時(shí)空?qǐng)鲋械狞c(diǎn)參考數(shù)據(jù)(例如海面溫度)的示例。 它們是由傳感器在兩個(gè)時(shí)間戳記的參考位置(顯示為圓圈)測(cè)量的。 請(qǐng)注意,溫度傳感器的位置會(huì)隨時(shí)間變化
2.1.4?柵格數(shù)據(jù)?
????????柵格數(shù)據(jù)是用來(lái)記錄在空間中的固定位置和固定的時(shí)間點(diǎn),連續(xù)或離散時(shí)空?qǐng)龅臏y(cè)量值。
????????點(diǎn)參考數(shù)據(jù)和柵格數(shù)據(jù)之間的主要區(qū)別在于,點(diǎn)參考數(shù)據(jù)的位置不斷變化,而柵格數(shù)據(jù)的位置固定。柵格數(shù)據(jù)中測(cè)量時(shí)空?qǐng)龅奈恢煤蜁r(shí)間可以規(guī)則或不規(guī)則地分布。
????????給定m個(gè)固定位置S = {s1,s2,… sm}和n個(gè)時(shí)間戳T = {t1,t2,… tn},柵格數(shù)據(jù)可以表示為矩陣,其中每個(gè)條目rij是tj時(shí)刻si處的測(cè)量值。
????????柵格數(shù)據(jù)在交通,氣候科學(xué)和神經(jīng)科學(xué)等實(shí)際應(yīng)用中也很常見。
????????例如,空氣質(zhì)量數(shù)據(jù)(例如PM2.5)可以由部署在城市固定位置的傳感器收集,并且在連續(xù)時(shí)間段內(nèi)收集的數(shù)據(jù)形成空氣質(zhì)量柵格數(shù)據(jù)。
????????在神經(jīng)科學(xué)中,功能磁共振成像或功能MRI(fMRI)通過(guò)檢測(cè)與血流相關(guān)的變化來(lái)測(cè)量大腦活動(dòng)。掃描的fMRI信號(hào)還形成用于分析大腦活動(dòng)和識(shí)別某些疾病的柵格數(shù)據(jù)。
????????圖4示出了交通路網(wǎng)中的交通流柵格數(shù)據(jù)。每條道路都部署了交通傳感器,以收集實(shí)時(shí)交通流量數(shù)據(jù)。一整天(24小時(shí))內(nèi)所有道路傳感器的交通流量數(shù)據(jù)形成一個(gè)柵格數(shù)據(jù)。
2.1.5?視頻。
????????包含一系列圖像的視頻也可以視為一種時(shí)空數(shù)據(jù)。
????????在空間域中,相鄰像素通常具有相似的RGB值,因此呈現(xiàn)出較高的空間相關(guān)性。
????????在時(shí)間域中,連續(xù)幀的圖像通常會(huì)平滑變化并呈現(xiàn)出較高的時(shí)間依賴性。
????????視頻通常可以表示為三維張量,一維表示時(shí)間t,另兩個(gè)維表示圖像。
????????實(shí)際上,如果我們假設(shè)在每個(gè)像素處都部署了一個(gè)“傳感器”,并且在每個(gè)幀處,“傳感器”將收集RGB值,則視頻數(shù)據(jù)也可以視為特殊的柵格數(shù)據(jù)。
????????基于深度學(xué)習(xí)的視頻數(shù)據(jù)分析非常熱門,近年來(lái)發(fā)表了大量論文。
????????盡管我們將視頻歸類為時(shí)空數(shù)據(jù)類型,但本文還是從數(shù)據(jù)挖掘的角度看相關(guān)論文,而視頻數(shù)據(jù)分析則屬于計(jì)算機(jī)視覺和模式識(shí)別的研究領(lǐng)域。因此,在本次綜述中,我們不涵蓋視頻的時(shí)空數(shù)據(jù)類型。
2.2?數(shù)據(jù)實(shí)例
????????數(shù)據(jù)挖掘算法所操作的基本數(shù)據(jù)單元稱為數(shù)據(jù)實(shí)例。
????????對(duì)于經(jīng)典的數(shù)據(jù)挖掘設(shè)置,通常可以將數(shù)據(jù)實(shí)例表示為有l(wèi)abel的feature(用于有監(jiān)督學(xué)習(xí))、無(wú)label的feature(用于無(wú)監(jiān)督學(xué)習(xí))。
????????在時(shí)空數(shù)據(jù)挖掘方案中,不同的時(shí)空數(shù)據(jù)類型有不同類型的數(shù)據(jù)實(shí)例。 對(duì)于不同的數(shù)據(jù)實(shí)例,存在幾種類型的數(shù)據(jù)表示形式,用于表示數(shù)據(jù)以供深度學(xué)習(xí)模型進(jìn)一步挖掘。
?2.2.1?數(shù)據(jù)實(shí)例
????????通常,時(shí)空數(shù)據(jù)可以概括為以下數(shù)據(jù)實(shí)例:點(diǎn),軌跡,時(shí)間序列,空間圖和ST柵格,如圖5的左側(cè)所示。
? ? ? ? 時(shí)空點(diǎn)可以表示為包含以下內(nèi)容的元組:時(shí)空信息以及觀察的一些其他特征,例如犯罪或交通事故的類型。
????????除時(shí)空事件外,軌跡和時(shí)空點(diǎn)參考數(shù)據(jù)也可以被表示為點(diǎn)。例如,可以將一條軌跡分解為幾個(gè)離散的點(diǎn),以計(jì)算在特定時(shí)隙中有多少條軌跡經(jīng)過(guò)了特定區(qū)域。
????????在某些應(yīng)用中,除了表示為點(diǎn)和軌跡外,還可以將軌跡形成為時(shí)間序列。如果我們確定位置并計(jì)算穿過(guò)該位置的軌跡數(shù),則它將形成一個(gè)時(shí)間序列數(shù)據(jù)。
????????空間圖的數(shù)據(jù)實(shí)例包含在每個(gè)時(shí)間戳處,整個(gè)時(shí)空域中所有傳感器的數(shù)據(jù)觀測(cè)。例如,在時(shí)間t處部署在高速公路上的所有環(huán)形傳感器的交通速度讀數(shù)形成空間地圖數(shù)據(jù)。
????????時(shí)空柵格數(shù)據(jù)的數(shù)據(jù)實(shí)例包含跨整個(gè)位置和時(shí)間戳集的測(cè)量。也就是說(shuō),時(shí)空柵格包含一整組空間地圖。
2.2.2 數(shù)據(jù)表示。
????????對(duì)于上述五種類型的時(shí)空數(shù)據(jù)實(shí)例(點(diǎn),軌跡,時(shí)間序列,空間圖和ST柵格),通常使用四種類型的數(shù)據(jù)表示形式將其表示為各種深度學(xué)習(xí)模型的輸入:序列,圖,二維矩陣和3維張量,如右側(cè)部分所示 圖5。
????????不同的深度學(xué)習(xí)模型需要不同類型的數(shù)據(jù)表示作為輸入。
???????? 因此,如何表示時(shí)空數(shù)據(jù)實(shí)例取決于正在研究的數(shù)據(jù)挖掘任務(wù)和所選的深度學(xué)習(xí)模型。
?????????軌跡和時(shí)間序列都可以表示為序列。注意,軌跡有時(shí)也表示為一個(gè)矩陣,其二維是網(wǎng)格時(shí)空域的行和列id。矩陣的每一項(xiàng)值表示軌跡是否穿過(guò)相應(yīng)的網(wǎng)格區(qū)域。這樣的數(shù)據(jù)表示通常用于促進(jìn)CNN模型的利用[67],[118],[142]
????????雖然圖也可以表示為矩陣,這里我們將圖和圖像矩陣分類為兩種不同類型的數(shù)據(jù)表示。這是因?yàn)閳D節(jié)點(diǎn)不像圖像矩陣那樣遵循歐氏距離,因此處理圖和圖像矩陣的方法完全不同。我們將在后面討論處理這兩種類型數(shù)據(jù)表示的方法的更多細(xì)節(jié)。
????????根據(jù)不同的應(yīng)用,空間地圖可以用圖形和矩陣表示。例如,在城市交通流預(yù)測(cè)中,城市交通網(wǎng)絡(luò)的交通數(shù)據(jù)可以表示為交通流圖[85]、[155]或小區(qū)區(qū)域級(jí)交通流矩陣[121]、[137]。
????????光柵數(shù)據(jù)通常表示為二維矩陣或三維張量。對(duì)于矩陣,兩個(gè)維度是位置和時(shí)間步長(zhǎng),對(duì)于張量,三個(gè)維度是是單元格的行和列id,以及時(shí)間戳。
????????矩陣是一種比張量更簡(jiǎn)單的數(shù)據(jù)表示格式,但它丟失了位置之間的空間相關(guān)信息。兩者都被廣泛用于表示柵格數(shù)據(jù)。
????????例如,在風(fēng)預(yù)測(cè)中,通常將部署在不同位置的多個(gè)風(fēng)速表的風(fēng)速時(shí)間序列數(shù)據(jù)合并為一個(gè)矩陣,然后送入CNN或RNN模型進(jìn)行未來(lái)風(fēng)速預(yù)測(cè)[96]、[200]。
????????在神經(jīng)科學(xué)中,一個(gè)人的fMRI數(shù)據(jù)是一系列fMRI掃描的大腦圖像,因此可以像視頻一樣用張量表示。許多研究使用fMRI圖像張量作為CNN模型的輸入進(jìn)行特征學(xué)習(xí),檢測(cè)大腦活動(dòng)[66]、[76],診斷疾病[116]、[158]。
2.3??深度學(xué)習(xí)模型的預(yù)備知識(shí)
2.3.1 受限玻爾茲曼機(jī)(RBM)
????????受限玻爾茲曼機(jī)是一種兩層隨機(jī)神經(jīng)網(wǎng)絡(luò)[53],可用于降維,分類,特征學(xué)習(xí)和協(xié)同過(guò)濾。
????????如圖6所示,RBM的第一層稱為帶有神經(jīng)元節(jié)點(diǎn){v1,v2,… vn}的可見層或輸入層,第二層稱為帶有神經(jīng)元節(jié)點(diǎn)的隱藏層{h1, h2,… hm}。
???????? 作為完全連接的二部無(wú)向圖,RBM中的所有節(jié)點(diǎn)通過(guò)無(wú)向權(quán)重邊{w11,… wnm}跨層相互連接,但是同一層中沒有兩個(gè)節(jié)點(diǎn)被鏈接。
2.3.2 CNN
????????卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類深層的前饋人工神經(jīng)網(wǎng)絡(luò),用于分析視覺圖像。
????????典型的CNN模型通常包含以下幾層,如圖7所示:輸入層,卷積層,池化層,完全連接層和輸出層。
????????卷積層將通過(guò)計(jì)算神經(jīng)元的權(quán)重與連接到輸入體積的區(qū)域之間的標(biāo)量積來(lái)確定其神經(jīng)元連接到輸入局部區(qū)域的輸出。然后,池化層將簡(jiǎn)單地沿著給定輸入的空間維度執(zhí)行下采樣,以減少參數(shù)的數(shù)量。全連接層將一層中的每個(gè)神經(jīng)元連接到下一層中的每個(gè)神經(jīng)元,以學(xué)習(xí)用于分類的最終特征向量。它在原則上與傳統(tǒng)的多層感知器神經(jīng)網(wǎng)絡(luò)(MLP)相同。
????????與傳統(tǒng)的MLP相比,CNN具有以下與眾不同的特征,這些特征使它們?cè)谝曈X問(wèn)題上實(shí)現(xiàn)了很多通用化:3D神經(jīng)元體積,局部連接性和共享權(quán)重。
????????CNN用于處理圖像數(shù)據(jù)。由于其在空間域中捕獲相關(guān)性的強(qiáng)大功能,現(xiàn)在已廣泛用于挖掘時(shí)空數(shù)據(jù),尤其是空間地圖和時(shí)空柵格。
2.3.3??GraphCNN(即GCN)
????????CNN設(shè)計(jì)為處理可在歐幾里得空間中表示為規(guī)則網(wǎng)格的圖像。但是,在很多應(yīng)用程序中,都是從非歐幾里德域生成數(shù)據(jù)的,例如圖形。
????????最近,對(duì)GraphCNN進(jìn)行了廣泛研究,以將CNN泛化為結(jié)構(gòu)化數(shù)據(jù)[160]。
????????圖8給出了GraphCNN模型的結(jié)構(gòu)示意圖。
????????圖卷積操作將卷積變換應(yīng)用于每個(gè)節(jié)點(diǎn)的鄰居,然后進(jìn)行池化操作。
????????通過(guò)堆疊多個(gè)圖卷積層,每個(gè)節(jié)點(diǎn)的潛在嵌入可以包含來(lái)自距離多跳的鄰居的更多信息。
????????在生成圖中節(jié)點(diǎn)的潛在嵌入之后,可以輕松地將潛在嵌入饋送到前饋網(wǎng)絡(luò)以實(shí)現(xiàn)回歸目標(biāo)的節(jié)點(diǎn)分類,也可以匯總所有節(jié)點(diǎn)嵌入以表示整個(gè)圖,然后執(zhí)行圖分類和回歸。
????????由于它具有捕獲節(jié)點(diǎn)相關(guān)性和節(jié)點(diǎn)特征的強(qiáng)大功能,因此現(xiàn)在廣泛用于挖掘圖結(jié)構(gòu)化時(shí)空數(shù)據(jù),例如網(wǎng)絡(luò)規(guī)模的流量數(shù)據(jù)和大腦網(wǎng)絡(luò)數(shù)據(jù)
2.3.4?RNN and LSTM
????????遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是一類人工神經(jīng)網(wǎng)絡(luò),其中節(jié)點(diǎn)之間的連接沿序列形成有向圖。
???????? RNN旨在識(shí)別順序特征并使用模式來(lái)預(yù)測(cè)下一個(gè)可能的情況。它們被廣泛用于語(yǔ)音識(shí)別和自然語(yǔ)言處理的應(yīng)用中。
????????圖9(a)顯示了RNN模型的一般結(jié)構(gòu),其中Xt是輸入數(shù)據(jù),A是網(wǎng)絡(luò)的參數(shù),ht是學(xué)習(xí)的隱藏狀態(tài)。可以看到前一個(gè)時(shí)間步t1的輸出(隱藏狀態(tài))被輸入到下一個(gè)時(shí)間步t的神經(jīng)。因此,歷史信息可以存儲(chǔ)并傳遞給將來(lái)。
????????標(biāo)準(zhǔn)RNN的一個(gè)主要問(wèn)題是,由于梯度消失的問(wèn)題,它僅具有短期記憶。長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)是遞歸神經(jīng)網(wǎng)絡(luò)的擴(kuò)展,它能夠?qū)W習(xí)輸入數(shù)據(jù)的長(zhǎng)期依賴性。
????????由于使用了特殊的存儲(chǔ)單元,如圖9(b)的中間部分所示,LSTM使RNN能夠長(zhǎng)時(shí)間記住其輸入。
?????????LSTM單元由三個(gè)門組成:輸入,忘記和輸出門。這些門決定是否讓新輸入進(jìn)入(輸入門),刪除信息(因?yàn)樗恢匾?#xff09;(忘記門)或使其在當(dāng)前時(shí)間步影響輸出(輸出門)。
????????RNN和LSTM都廣泛用于處理時(shí)間序列數(shù)據(jù),以學(xué)習(xí)時(shí)空數(shù)據(jù)的時(shí)間依賴性。
2.3.5? Seq2Seq
????????Seq2Seq模型的目的是將固定長(zhǎng)度的輸入與固定長(zhǎng)度的輸出映射,其中輸入和輸出的長(zhǎng)度可能不同[138]。
???????? 它廣泛用于各種NLP任務(wù),例如機(jī)器翻譯,語(yǔ)音識(shí)別和在線聊天機(jī)器人。
????????盡管最初提出解決NLP任務(wù)的建議,但Seq2Seq是通用框架,可用于任何基于序列的問(wèn)題。
????????如圖10所示,Seq2Seq模型通常由3個(gè)部分組成:編碼器,中間(編碼器)矢量和解碼器。
????????由于捕獲序列數(shù)據(jù)之間的依存關(guān)系的強(qiáng)大能力,Seq2Seq模型被廣泛用于時(shí)空預(yù)測(cè)任務(wù)中,其中時(shí)空數(shù)據(jù)具有較高的時(shí)間相關(guān)性,例如城市人群流量數(shù)據(jù)和交通數(shù)據(jù)。、
2.3.6?Autoencoder (AE) and Stacked AE
????????自動(dòng)編碼器是一種人工神經(jīng)網(wǎng)絡(luò),旨在以無(wú)監(jiān)督的方式學(xué)習(xí)有效的數(shù)據(jù)編碼[53]。
????????如圖11所示,它具有編碼器功能,可創(chuàng)建一個(gè)包含描述輸入的代碼的隱藏層(或多層)。 然后有一個(gè)解碼器,它創(chuàng)建來(lái)自隱藏層的輸入的重構(gòu)。
????????自動(dòng)編碼器通過(guò)學(xué)習(xí)數(shù)據(jù)中的相關(guān)性,在隱藏層中創(chuàng)建數(shù)據(jù)的壓縮表示形式,這可以視為減少維度的一種方式。
????????作為一種有效的無(wú)監(jiān)督特征表示學(xué)習(xí)技術(shù),AE有助于進(jìn)行各種下游數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)任務(wù),例如分類和聚類。
????????堆疊式自動(dòng)編碼器(SAE)是由多層稀疏自動(dòng)編碼器組成的神經(jīng)網(wǎng)絡(luò),其中每層的輸出都連接到連續(xù)層的輸入[7]。
?3 框架
????????在本節(jié)中,我們將介紹如何使用深度學(xué)習(xí)模型來(lái)解決STDM問(wèn)題。首先,我們將給出一個(gè)框架,其中包括ST數(shù)據(jù)實(shí)例的構(gòu)建、ST數(shù)據(jù)表示、深度學(xué)習(xí)模型的部分和設(shè)計(jì),并最終解決問(wèn)題。下面我們將詳細(xì)介紹這些主要步驟。
????????使用深度學(xué)習(xí)模型進(jìn)行時(shí)空數(shù)據(jù)挖掘的通用流程如圖13所示。
????????針對(duì)從各種位置傳感器收集的原始時(shí)空數(shù)據(jù),包括事件數(shù)據(jù)、軌跡數(shù)據(jù)、點(diǎn)參考數(shù)據(jù)和柵格數(shù)據(jù),首先構(gòu)建數(shù)據(jù)實(shí)例進(jìn)行數(shù)據(jù)存儲(chǔ)。正如我們之前討論的,時(shí)空數(shù)據(jù)實(shí)例可以是點(diǎn)、時(shí)間序列、空間地圖、軌跡和時(shí)空光柵。
????????為了將深度學(xué)習(xí)模型應(yīng)用于各種挖掘任務(wù),需要將時(shí)空數(shù)據(jù)實(shí)例進(jìn)一步表示為特定的數(shù)據(jù)格式,以適應(yīng)深度學(xué)習(xí)模型。
????????時(shí)空數(shù)據(jù)實(shí)例可以表示為序列數(shù)據(jù)、二維矩陣、三維張量和圖。
????????針對(duì)不同的數(shù)據(jù)表示形式,采用不同的深度學(xué)習(xí)模型進(jìn)行處理。RNN和LSTM模型善于處理具有短期或長(zhǎng)期時(shí)間相關(guān)性的序列數(shù)據(jù),而CNN模型則善于像矩陣一樣捕捉圖像中的空間相關(guān)性。結(jié)合RNN和CNN的混合模型可以捕獲時(shí)空光柵數(shù)據(jù)張量表示的空間和時(shí)間相關(guān)性。
????????最后,選擇的深度學(xué)習(xí)模型用于解決各種STDM任務(wù),如預(yù)測(cè)、分類、表示學(xué)習(xí)等。
3.1 時(shí)空數(shù)據(jù)預(yù)處理
????????時(shí)空數(shù)據(jù)預(yù)處理的目的是將時(shí)空數(shù)據(jù)實(shí)例表示為深度學(xué)習(xí)模型能夠處理的合適的數(shù)據(jù)表示格式。
????????通常深度學(xué)習(xí)模型的輸入數(shù)據(jù)格式可以是向量、矩陣或張量,這取決于不同的模型。
????????圖12顯示了ST數(shù)據(jù)實(shí)例及其對(duì)應(yīng)的數(shù)據(jù)表示。可以看到,通常一種類型的時(shí)空數(shù)據(jù)實(shí)例對(duì)應(yīng)于一種典型的數(shù)據(jù)表示。軌跡和時(shí)間序列數(shù)據(jù)可以自然地表示為序列數(shù)據(jù)。空間地圖數(shù)據(jù)可以用二維矩陣表示。ST光柵可以用二維矩陣或三維張量表示。
????????然而,情況并非總是如此。例如,軌跡數(shù)據(jù)有時(shí)用矩陣表示,然后利用CNN模型更好地捕捉空間特征[24],[67],[103],[117],[150]。
????????測(cè)量軌跡的時(shí)空?qǐng)?#xff08;如城市),首先被劃分為網(wǎng)格單元區(qū)域。然后,可以將時(shí)空?qǐng)鼋橐粋€(gè)矩陣,每個(gè)單元區(qū)域代表一個(gè)條目。如果軌跡經(jīng)過(guò)單元格區(qū)域,則對(duì)應(yīng)的入口值設(shè)為1;否則設(shè)置為0。這樣就可以將軌跡數(shù)據(jù)表示為一個(gè)矩陣,從而可以應(yīng)用CNN。
????????有些時(shí)候空間地圖被表示為一個(gè)圖形。例如,部署在高速公路上的傳感器通常被建模為一個(gè)圖,其中節(jié)點(diǎn)是傳感器,邊緣表示兩個(gè)相鄰傳感器之間的路段。在這種情況下,GraphCNN模型通常用于處理傳感器圖數(shù)據(jù),預(yù)測(cè)所有節(jié)點(diǎn)[22]未來(lái)的交通流量(流量、速度等)[85]。
? ? ? ? 時(shí)空光柵數(shù)據(jù)可以表示為2D矩陣或3D張量,這取決于數(shù)據(jù)類型和應(yīng)用程序。例如,一系列fMRI腦圖像數(shù)據(jù)可以表示為一個(gè)張量,輸入到3D-CNN模型中進(jìn)行疾病分類[78],[116],也可以表示為一個(gè)矩陣,提取大腦成對(duì)區(qū)域之間的時(shí)間序列相關(guān)性,進(jìn)行腦活動(dòng)分析[48],[113]
3.2 深度學(xué)習(xí)模型的選擇和設(shè)計(jì)?
????????有了時(shí)空數(shù)據(jù)實(shí)例的數(shù)據(jù)表示,下一步是將它們輸入到 為不同STDM任務(wù)所選擇或設(shè)計(jì)的深度學(xué)習(xí)模型中。
????????如圖12右半部分所示,每種類型的數(shù)據(jù)表示都有不同的深度學(xué)習(xí)模型選項(xiàng)。
????????序列數(shù)據(jù)可以作為,包括RNN、LSTM、GRU、Seq2Seq、AE、hybrid模型等模型的輸入。RNN、LSTM和GRU都是適合預(yù)測(cè)序列數(shù)據(jù)的遞歸神經(jīng)網(wǎng)絡(luò)。
????????序列數(shù)據(jù)也可以通過(guò)Seq2Seq模型進(jìn)行處理。例如,在多步流量預(yù)測(cè)中,通常采用由編碼器層一組LSTM單元和解碼器層一組LSTM單元組成的Seq2Seq模型,同時(shí)預(yù)測(cè)接下來(lái)幾個(gè)時(shí)段的流量速度或流量[89]、[90]。
????????作為特征學(xué)習(xí)模型,AE或SAE可用于各種數(shù)據(jù)表示,以學(xué)習(xí)低維特征編碼。序列數(shù)據(jù)也可以用AE或SAE編碼為低維度特征。
????????GraphCNN是專門設(shè)計(jì)來(lái)處理圖形數(shù)據(jù),以捕獲相鄰節(jié)點(diǎn)之間的空間相關(guān)性。
????????如果輸入是單個(gè)矩陣,通常采用CNN模型,如果輸入是矩陣序列,根據(jù)所研究的問(wèn)題,可以采用RNN模型、ConvLSTM和hybrid模型。如果目標(biāo)只是特征學(xué)習(xí),則可以應(yīng)用AE和SAE模型。對(duì)于張量數(shù)據(jù),通常采用3D-CNN或3D-CNN與RNN模型的結(jié)合來(lái)處理
????????表一總結(jié)了使用深度學(xué)習(xí)模型處理不同類型時(shí)空數(shù)據(jù)的工作。
????????如表所示,CNN、RNN及其變體(如GraphCNN和ConvLSTM)是STDM中應(yīng)用最廣泛的兩種深度學(xué)習(xí)模型。
????????CNN模型主要用于處理空間地圖和時(shí)空光柵。也有一些文獻(xiàn)使用CNN處理軌跡數(shù)據(jù),但目前還沒有使用CNN進(jìn)行時(shí)間序列數(shù)據(jù)學(xué)習(xí)的作品。
????????GraphCNN模型是專門為處理圖形數(shù)據(jù)而設(shè)計(jì)的,可以將圖形數(shù)據(jù)分類為空間地圖。
????????包括LSTM和GRU在內(nèi)的RNN模型可以廣泛應(yīng)用于軌跡、時(shí)間序列和空間地圖序列的處理。
????????ConvLSTM可以看作是RNN和CNN的混合模型,通常用于處理空間地圖。
????????AE和SDAE主要用于從時(shí)間序列、軌跡和空間地圖中學(xué)習(xí)特征。
????????Seq2Seq模型一般是為序列數(shù)據(jù)設(shè)計(jì)的,因此只用于處理時(shí)間序列和軌跡。
????????混合模型在STDM中也很常見。例如,可以將CNN和RNN進(jìn)行疊加,首先學(xué)習(xí)空間特征,然后捕獲歷史時(shí)空數(shù)據(jù)之間的時(shí)間相關(guān)性。
????????混合模型可以設(shè)計(jì)成適合所有四種類型的數(shù)據(jù)表示。
????????其他模型如網(wǎng)絡(luò)嵌入[164],多層感知器(MLP)[57],[186],生成對(duì)抗網(wǎng)(GAN)[49],[93],殘差網(wǎng)(Residual nets)[78],[89],深度強(qiáng)化學(xué)習(xí)[50]等也在最近的工作中被使用。
?3.3 解決STDM問(wèn)題
????????最后,利用所選擇或設(shè)計(jì)的深度學(xué)習(xí)模型來(lái)解決各種STDM任務(wù),如分類、預(yù)測(cè)學(xué)習(xí)、表示學(xué)習(xí)和異常檢測(cè)。
????????請(qǐng)注意,通常如何選擇或設(shè)計(jì)深度學(xué)習(xí)模型取決于特定的數(shù)據(jù)挖掘任務(wù)和輸入數(shù)據(jù)。然而,為了展示STDM的整體流程,我們首先展示了深度學(xué)習(xí)模型,然后是數(shù)據(jù)挖掘任務(wù)。
????????在下一節(jié)中,我們將對(duì)不同的STDM問(wèn)題進(jìn)行分類,并根據(jù)問(wèn)題和時(shí)空數(shù)據(jù)類型詳細(xì)回顧工作。
4?用于解決不同STDM問(wèn)題的深度學(xué)習(xí)模型
????????在本節(jié)中,我們將對(duì)STDM問(wèn)題進(jìn)行分類,并介紹相應(yīng)的深度學(xué)習(xí)模型來(lái)解決它們。
????????圖14顯示了深度學(xué)習(xí)模型解決的各種STDM問(wèn)題的分布,包括預(yù)測(cè)、表示學(xué)習(xí)、檢測(cè)、分類、推理/估計(jì)、推薦等。
????????我們可以看到,研究的STDM問(wèn)題中最大的一類是預(yù)測(cè)。70%以上的相關(guān)論文集中研究時(shí)空數(shù)據(jù)預(yù)測(cè)問(wèn)題。這主要是因?yàn)闇?zhǔn)確的預(yù)測(cè)在很大程度上依賴于高質(zhì)量的特征,而深度學(xué)習(xí)模型在特征學(xué)習(xí)方面尤其強(qiáng)大。
????????第二大問(wèn)題是表示學(xué)習(xí),它的目標(biāo)是用非監(jiān)督或半監(jiān)督的方式學(xué)習(xí)各種時(shí)空數(shù)據(jù)的特征表示。
????????深度學(xué)習(xí)模型也用于其他STDM任務(wù),包括分類、檢測(cè)、推斷/估計(jì)、推薦等。接下來(lái)我們將詳細(xì)介紹STDM存在的主要問(wèn)題,并總結(jié)相應(yīng)的基于深度學(xué)習(xí)的解決方案。
4.1?預(yù)測(cè)學(xué)習(xí)
????????預(yù)測(cè)學(xué)習(xí)的基本目標(biāo)是根據(jù)時(shí)空數(shù)據(jù)的歷史數(shù)據(jù)預(yù)測(cè)未來(lái)的觀測(cè)結(jié)果。
????????對(duì)于不同的應(yīng)用,輸入變量和輸出變量都可以屬于不同類型的時(shí)空數(shù)據(jù)實(shí)例,從而產(chǎn)生各種各樣的預(yù)測(cè)學(xué)習(xí)模型。下面,我們將介紹基于不同時(shí)空數(shù)據(jù)實(shí)例類型作為模型輸入的預(yù)測(cè)問(wèn)題。
4.1.1 points
? ? ? ? 點(diǎn)通常把時(shí)間或空間域上的信息合并,形成時(shí)間序列或空間地圖,如犯罪[31],[57],[145],[56],交通事故[201]和社會(huì)事件[43],從而應(yīng)用在深度學(xué)習(xí)模型上。
????????[145]采用ST-ResNet模型預(yù)測(cè)洛杉磯地區(qū)的犯罪分布。他們的模型包含兩個(gè)階段。
????????首先,他們將原始犯罪點(diǎn)數(shù)據(jù)轉(zhuǎn)化為類似于圖像的犯罪熱點(diǎn)圖,將發(fā)生在同一時(shí)段和同一地區(qū)的所有犯罪事件合并在一起。
????????然后,采用殘差卷積單元的層次結(jié)構(gòu),以犯罪熱點(diǎn)圖為輸入訓(xùn)練犯罪預(yù)測(cè)模型。
????????同樣,[57]提出使用GRU模型來(lái)預(yù)測(cè)城市犯罪。
????????[201]利用卷積長(zhǎng)短期記憶(ConvLSTM)神經(jīng)網(wǎng)絡(luò)模型研究了交通事故預(yù)測(cè)問(wèn)題。
????????他們也首先合并了交通事故的點(diǎn)數(shù)據(jù),并將時(shí)空?qǐng)鲋械慕煌ㄊ鹿视?jì)數(shù)建模為三維張量。張量的每一項(xiàng)(i, j, t)表示在時(shí)刻t,網(wǎng)格單元(i, j)上的交通事故計(jì)數(shù)。
????????歷史交通事故張量輸入到CovnLSTM中進(jìn)行預(yù)測(cè)。
????????[43]提出了一個(gè)空間不完全多任務(wù)深度學(xué)習(xí)框架,可以有效預(yù)測(cè)發(fā)生在不同位置的未來(lái)事件的子類型。
4.1.2 Time series
????????在道路級(jí)別的交通預(yù)測(cè)中,道路或高速公路上的交通流數(shù)據(jù)可以建模為時(shí)間序列。
????????近年來(lái),許多研究嘗試了多種深度學(xué)習(xí)模型用于道路級(jí)別的交通預(yù)測(cè)[104]、[136]、[191]。
????????[104]首次利用層疊自動(dòng)編碼器從交通流時(shí)間序列數(shù)據(jù)中學(xué)習(xí)特征,用于路段級(jí)交通流預(yù)測(cè)。
????????[136]將某高速公路的交通流數(shù)據(jù)視為時(shí)間序列,提出在以往交通流觀測(cè)的基礎(chǔ)上,利用深度信念網(wǎng)絡(luò)(Deep Belief Networks, DBNs)預(yù)測(cè)未來(lái)的交通流。
????????[126]研究了出租車需求預(yù)測(cè)問(wèn)題,將特定區(qū)域的出租車需求建模為一個(gè)時(shí)間序列。提出了一種全連接層深度學(xué)習(xí)模型,從出租車需求的歷史時(shí)間序列中學(xué)習(xí)特征,然后將特征與天氣、社交媒體文本等其他上下文特征相結(jié)合,預(yù)測(cè)未來(lái)需求。
????????RNN和LSTM被廣泛應(yīng)用于時(shí)間序列時(shí)空數(shù)據(jù)的預(yù)測(cè)。
????????[90]結(jié)合LSTM和sequence to sequence模型預(yù)測(cè)路段的交通速度。除了交通速度信息,他們的模型還考慮了其他外部特征,包括道路的地理結(jié)構(gòu)、國(guó)家慶祝活動(dòng)等公共社會(huì)事件,以及在線人群出行信息的查詢。
???????
?????????風(fēng)速等天氣變量也通常采用時(shí)間序列建模,然后應(yīng)用RNN/LSTM模型進(jìn)行未來(lái)天氣預(yù)報(bào)[14],[17],[55],[97],[124],[179]。
????????例如,[17]提出了一種用于概率風(fēng)速預(yù)測(cè)的集合模型。該模型將小波閾值去噪(WTD)、自適應(yīng)神經(jīng)模糊推理系統(tǒng)(ANFIS)等傳統(tǒng)風(fēng)速預(yù)測(cè)模型,和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)合起來(lái)。
????????在fMRI數(shù)據(jù)分析領(lǐng)域,通常使用fMRI時(shí)間序列數(shù)據(jù)來(lái)研究腦功能網(wǎng)絡(luò)和診斷疾病。
????????[34]提出使用LSTM模型直接從靜息態(tài)fMRI時(shí)間序列對(duì)自閉癥譜系障礙(ASD)患者和典型對(duì)照者進(jìn)行分類。
????????[59]開發(fā)了一種名為DCAE的深度卷積自動(dòng)編碼器模型,用于以無(wú)監(jiān)督的方式從復(fù)雜的、大規(guī)模的tfMRI時(shí)間序列中學(xué)習(xí)中級(jí)和高級(jí)特征。
? ? ? ?
????????時(shí)間序列數(shù)據(jù)通常不包含空間信息,因此基于深度學(xué)習(xí)的預(yù)測(cè)模型沒有明確考慮數(shù)據(jù)之間的空間相關(guān)性。
?4.1.3?Spatial maps
????????空間地圖通常可以表示為類圖像矩陣,適合使用CNN模型進(jìn)行預(yù)測(cè)學(xué)習(xí)[69],[80],[184],[200]。
????????[184]提出了一種基于CNN的預(yù)測(cè)模型來(lái)捕捉城市烏鴉流的空間特征。以城市烏鴉流空間圖為輸入,建立了實(shí)時(shí)烏鴉流預(yù)測(cè)系統(tǒng)UrbanFlow。
????????為了預(yù)測(cè)租車服務(wù)的供需,[69]提出了基于六邊形的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, H-CNN),其中輸入和輸出都是大量的局部六邊形地圖。與以往將城市區(qū)域劃分為多個(gè)方形格的研究不同,他們提出將城市區(qū)域劃分為各種規(guī)則的六邊形格,因?yàn)榱呅畏指罹哂忻鞔_的鄰域定義、較小的邊面積比和各向同性。
????????一個(gè)監(jiān)測(cè)點(diǎn)的風(fēng)速數(shù)據(jù)可以用時(shí)間序列來(lái)建模,而多個(gè)監(jiān)測(cè)點(diǎn)的風(fēng)速數(shù)據(jù)可以用空間圖來(lái)表示。CNN模型還可以用于同時(shí)預(yù)測(cè)多個(gè)站點(diǎn)的風(fēng)速[200]。
?????????給定一個(gè)空間地圖序列,為了捕捉時(shí)間和空間的相關(guān)性,許多工作試圖將CNN和RNN結(jié)合起來(lái)進(jìn)行預(yù)測(cè)。
????????[161]提出了卷積LSTM (ConvLSTM),并利用它構(gòu)建了一個(gè)端到端可訓(xùn)練的降水臨近預(yù)報(bào)模型。這篇文章將CNN中的卷積結(jié)構(gòu)與LSTM聯(lián)合起來(lái),在Seq2Seq的學(xué)習(xí)框架下預(yù)測(cè)時(shí)空序列。
????????ConvLSTM是一種序列到序列的預(yù)測(cè)模型,其每一層都是一個(gè)ConvLSTM單元,在輸入到狀態(tài)和狀態(tài)到狀態(tài)的轉(zhuǎn)換中都具有卷積結(jié)構(gòu)。模型的輸入和輸出都是空間地圖矩陣。
????????在此之后,許多工作嘗試將ConvLSTM應(yīng)用于其他不同領(lǐng)域[1],[6],[28],[70],[73],[98],[151],[198]的空間地圖預(yù)測(cè)任務(wù)。
????????[151]提出了一種新的跨城市遷移學(xué)習(xí)方法,用于深度時(shí)空預(yù)測(cè),稱為RegionTrans RegionTrans包含多個(gè)ConvLSTM層,用于捕獲隱藏在數(shù)據(jù)中的時(shí)空模式。
????????[73]根據(jù)多通道雷達(dá)資料應(yīng)用ConvLSTM網(wǎng)絡(luò)進(jìn)行降水預(yù)報(bào)。
????????[198]提出了一種端到端深度神經(jīng)網(wǎng)絡(luò),用于預(yù)測(cè)按需移動(dòng)(MOD)服務(wù)中的乘客上下車需求。基于卷積和ConvLSTM單元的編碼器-解碼器框架用于識(shí)別復(fù)雜特征,這些特征捕捉了城市乘客需求的時(shí)空影響和上下車交互。將城市單元區(qū)域內(nèi)的乘客需求建模為空間地圖,并用矩陣表示。
????????[1]同樣提出了一個(gè)融合ConvLSTM層、標(biāo)準(zhǔn)LSTM層和卷積層的FCL-Net模型,用于按需乘車服務(wù)下的乘客需求預(yù)測(cè)。
????????[98]提出了一個(gè)統(tǒng)一的神經(jīng)網(wǎng)絡(luò)模塊,即attention Crowd Flow Machine (ACFM)。ACFM能夠通過(guò)使用attention機(jī)制,學(xué)習(xí)時(shí)間變化數(shù)據(jù)的動(dòng)態(tài)表示來(lái)推斷人群流的演化。ACFM由兩個(gè)遞進(jìn)的ConvLSTM單元與一個(gè)卷積層相連接,用于空間權(quán)值預(yù)測(cè)。
????????其他一些模型也可以用于預(yù)測(cè)空間地圖,如GraphCNN [8], [22], [92], [144], ResNet[146],[183],[185],以及混合方法[49],[109],[177]。
????????注意,在本文中,我們認(rèn)為空間地圖既包含圖像數(shù)據(jù),也包含圖形數(shù)據(jù)。
????????雖然圖也被表示為矩陣,但它們需要完全不同的技術(shù),如GraphCNN或GraphRNN。
????????在道路網(wǎng)絡(luò)規(guī)模的交通預(yù)測(cè)中,交通網(wǎng)絡(luò)可以自然地建模為一個(gè)圖,然后應(yīng)用GraphCNN或GraphRNN。
????????[85]提出將交通網(wǎng)絡(luò)中的交通流建模為有向圖上的擴(kuò)散過(guò)程,并引入擴(kuò)散卷積遞歸神經(jīng)網(wǎng)絡(luò)(diffusion Convolutional Recurrent Neural network, DCRNN)進(jìn)行交通預(yù)測(cè)。它結(jié)合了整個(gè)路網(wǎng)交通流的空間和時(shí)間依賴性。具體來(lái)說(shuō),DCRNN利用圖上的雙向隨機(jī)游動(dòng)捕獲空間依賴關(guān)系,利用帶計(jì)劃采樣的編碼器-解碼器體系結(jié)構(gòu)捕獲時(shí)間依賴關(guān)系。
????????[155]提出了一種新的拓?fù)淇蚣躄inkage Network來(lái)建模道路網(wǎng)絡(luò),并給出了交通流的傳播模式。在Linkage Network模型的基礎(chǔ)上,設(shè)計(jì)了一種新的在線預(yù)測(cè)器——圖遞歸神經(jīng)網(wǎng)絡(luò)(GRNN),用于學(xué)習(xí)圖中的傳播模式。它根據(jù)從整個(gè)圖中收集的信息,同時(shí)預(yù)測(cè)各個(gè)路段的交通流量。
????????[144]引入時(shí)空加權(quán)圖(STWG)來(lái)表示稀疏的時(shí)空數(shù)據(jù)。然后在STWG上構(gòu)建了一個(gè)可擴(kuò)展的圖結(jié)構(gòu)RNN (GSRNN),對(duì)時(shí)空數(shù)據(jù)進(jìn)行微尺度預(yù)測(cè)。
?4.1.4? 軌跡
????????目前,兩種深度學(xué)習(xí)模型,RNN和CNN,都被用于根據(jù)軌跡的數(shù)據(jù)表示來(lái)進(jìn)行軌跡預(yù)測(cè)。
????????首先,軌跡可以表示為位置序列,如圖12所示。在這種情況下,RNN和LSTM模型可以應(yīng)用于[38],[64],[77],[88],[135],[163],[165]。
????????[163]提出了無(wú)碰撞LSTM,該LSTM擴(kuò)展了經(jīng)典LSTM,加入斥力池化層,共享相鄰行人的隱藏狀態(tài),用于人口軌跡預(yù)測(cè)。無(wú)碰撞LSTM可以根據(jù)行人過(guò)去的位置生成未來(lái)序列。
????????[64]研究了城市人口的流動(dòng)性預(yù)測(cè)問(wèn)題,給出了一個(gè)人的幾個(gè)觀察流動(dòng)性的步驟,試圖預(yù)測(cè)他/她在城市中的下一步走向。他們提出了一種基于RNN的深度序列學(xué)習(xí)模型來(lái)有效預(yù)測(cè)城市人口流動(dòng)性。
????????[135]提出了一個(gè)名為DeepTransport的模型,從一組個(gè)人GPS軌跡預(yù)測(cè)步行、乘坐火車、乘坐公共汽車等交通方式。利用四個(gè)LSTM層構(gòu)建DeepTransport,預(yù)測(cè)用戶未來(lái)的交通模式。
?????????軌跡也可以用矩陣表示。在這種情況下,CNN模型可以更好地捕捉空間相關(guān)性[67]、[103]、[142]。
????????[67]提出了一種基于cnn的表示語(yǔ)義軌跡和預(yù)測(cè)未來(lái)位置的方法。在語(yǔ)義軌跡中,每個(gè)訪問(wèn)的地點(diǎn)都與一個(gè)語(yǔ)義含義相關(guān)聯(lián),如家庭、工作、商店等。他們將語(yǔ)義軌跡建模為一個(gè)矩陣,矩陣的兩個(gè)維度是語(yǔ)義和軌跡ID。將矩陣輸入到具有多個(gè)卷積層的CNN中,學(xué)習(xí)潛在特征,用于下一次訪問(wèn)的語(yǔ)義位置預(yù)測(cè)。
????????[103]將軌跡建模為二維圖像,圖像的每個(gè)像素表示軌跡中是否訪問(wèn)了相應(yīng)的位置。然后采用多層卷積神經(jīng)網(wǎng)絡(luò)結(jié)合多尺度軌跡模式,預(yù)測(cè)出租車軌跡模式的目的地。
? ? ? ? 把軌跡建模為類圖像矩陣也用于異常檢測(cè)和推斷等任務(wù)[111]、[150],后面將詳細(xì)介紹。
?4.1.5?ST raster
????????如前所述,時(shí)空光柵數(shù)據(jù)可以表示為兩個(gè)維度為位置和時(shí)間的矩陣,或三個(gè)維度為為單元區(qū)域ID、單元區(qū)域ID和時(shí)間的張量。
????????時(shí)空光柵數(shù)據(jù)預(yù)測(cè)通常采用2D-CNN(矩陣)和3D-CNN(張量),有時(shí)還與RNN結(jié)合使用。
????????[188]提出了一種多通道3D-立方體逐次卷積網(wǎng)絡(luò)3D- scn,利用3D雷達(dá)資料預(yù)報(bào)風(fēng)暴的產(chǎn)生、增長(zhǎng)和對(duì)流。
????????[121]將連續(xù)時(shí)段內(nèi)道路多個(gè)位置的交通速度數(shù)據(jù)建模為時(shí)空光柵矩陣,然后將其輸入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行交通流預(yù)測(cè)。
????????[106]探索了與[121]相似的思想,用于大型交通網(wǎng)絡(luò)的交通預(yù)測(cè)。
????????[12]提出了一種用于城市車流預(yù)測(cè)的三維卷積神經(jīng)網(wǎng)絡(luò)。他們不是預(yù)測(cè)道路上的交通,而是試圖預(yù)測(cè)城市中每個(gè)單元區(qū)的車輛流量。因此,他們?cè)谶B續(xù)的時(shí)間段對(duì)全市車輛流量數(shù)據(jù)建模,將其建模為時(shí)空光柵,并將它們輸入到論文所提出的3D-CNN模型中。
????????類似地,[131]將城市不同時(shí)段乘客的出行事件建模為三維張量,然后利用3D- cnn模型預(yù)測(cè)出行乘客的供需情況。
????????需要注意的是,時(shí)空光柵和Spatial map的主要區(qū)別在于,時(shí)空光柵是多個(gè)時(shí)刻合并的時(shí)空字段測(cè)量值,而Spatial map是僅在一個(gè)時(shí)隙中的時(shí)空字段測(cè)量值。
????????因此,根據(jù)實(shí)際的應(yīng)用場(chǎng)景和數(shù)據(jù)分析的目的,同一類型的時(shí)空數(shù)據(jù)有時(shí)可以同時(shí)表示為空間地圖和時(shí)空光柵。
4.2 表示學(xué)習(xí)
????????表示學(xué)習(xí)的目的是學(xué)習(xí)輸入數(shù)據(jù)的抽象和有用的表示,以便于下游的數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)任務(wù)。
????????表示是由輸入數(shù)據(jù)的多個(gè)線性或非線性變換組成的。
????????現(xiàn)有的時(shí)空數(shù)據(jù)表示學(xué)習(xí)研究大多集中在軌跡和空間地圖數(shù)據(jù)類型的研究上。?
4.2.1 軌跡
????????軌跡在基于位置的社交網(wǎng)絡(luò)(LBSNs)和各種移動(dòng)服務(wù)中無(wú)處不在,RNN和CNN模型都被廣泛用于學(xué)習(xí)軌跡表示。
????????[82]針對(duì)軌跡相似度計(jì)算的問(wèn)題,提出了一種基于seq2seq的軌跡表示學(xué)習(xí)模型。基于學(xué)習(xí)表示的軌跡相似度對(duì)非均勻、低采樣率和噪聲樣本點(diǎn)具有較好的魯棒性。
????????類似地,[170],[171]提出將軌跡轉(zhuǎn)換為特征序列來(lái)描述目標(biāo)運(yùn)動(dòng),然后使用一個(gè)Seq2Seq自動(dòng)編碼器來(lái)學(xué)習(xí)固定長(zhǎng)度的深度表示來(lái)進(jìn)行聚類。
????????基于位置的社交網(wǎng)絡(luò)(LBSN)數(shù)據(jù)通常包含兩個(gè)重要方面,即移動(dòng)軌跡數(shù)據(jù)和用戶的社交網(wǎng)絡(luò)。
????????為了對(duì)這兩個(gè)方面建模并挖掘它們之間的關(guān)聯(lián),[164]提出了一種神經(jīng)網(wǎng)絡(luò)模型,用于聯(lián)合學(xué)習(xí)社交網(wǎng)絡(luò)表示和用戶移動(dòng)軌跡表示。RNN和GRU模型用于捕捉移動(dòng)軌跡在短期或長(zhǎng)期水平上的順序相關(guān)性。
????????[10]提出了一種基于內(nèi)容感知的POI嵌入模型CAPE,用于POI推薦。在CAPE中,將用戶簽到序列中POIs的嵌入向量訓(xùn)練為彼此接近。
????????[26]提出了一種地理卷積神經(jīng)張量網(wǎng)絡(luò)GeoCNTN,用于學(xué)習(xí)LBSNs中位置的嵌入。
????????[41]提出使用RNN和Autoencoder學(xué)習(xí)用戶簽到嵌入和軌跡嵌入,并將嵌入用于LBSNs中的用戶社交圈推理。
4.2.2 空間地圖
????????有一些研究如何學(xué)習(xí)空間地圖表示的論文。
????????[21]提出了一種卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),用于從傳感器數(shù)據(jù)的原始空間地圖中學(xué)習(xí)時(shí)空特征。
????????[153]提出將學(xué)習(xí)城市社區(qū)結(jié)構(gòu)問(wèn)題作為空間表征學(xué)習(xí)任務(wù)。提出了一種集合嵌入學(xué)習(xí)框架,將靜態(tài)的POIs數(shù)據(jù)和動(dòng)態(tài)的人類移動(dòng)圖空間地圖數(shù)據(jù)統(tǒng)一起來(lái),學(xué)習(xí)城市社區(qū)結(jié)構(gòu)。
????????[182]研究了如何從神經(jīng)圖像數(shù)據(jù)中學(xué)習(xí)腦連接模式的非線性表征,以了解神經(jīng)和神經(jīng)精神障礙。提出了一種名為multi -side-view guided AutoEncoder (MVAE)的深度學(xué)習(xí)體系結(jié)構(gòu),用于學(xué)習(xí)fMRI和DTI圖像中腦連接組數(shù)據(jù)的表示。
4.3 分類
????????分類任務(wù)主要是在分析fMRI數(shù)據(jù)中進(jìn)行研究。
????????近年來(lái),腦成像技術(shù)已成為神經(jīng)科學(xué)領(lǐng)域的熱點(diǎn),包括功能磁共振成像(functional Magnetic Resonance imaging, fMRI)、腦電圖(electroencephalography, EEG)和腦磁圖(Magnetoencephalography, MEG)[120]。
????????特別是結(jié)合深度學(xué)習(xí)方法的fMRI在神經(jīng)科學(xué)研究中已被廣泛應(yīng)用于各種分類任務(wù),如疾病分類、腦功能網(wǎng)絡(luò)分類、觀看文字或圖像時(shí)的腦激活分類等[158]。
????????根據(jù)不同的分類任務(wù),可以從原始fMRI數(shù)據(jù)中提取不同類型的時(shí)空數(shù)據(jù)。
????????[34]提出利用長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)(LSTMs),直接利用不同腦區(qū)產(chǎn)生的靜息態(tài)fMRI時(shí)間序列數(shù)據(jù),對(duì)自閉癥譜系障礙(ASD)患者和典型對(duì)照者進(jìn)行分類。
????????[48],[52],[54],[71],[113],[132]將fMRI數(shù)據(jù)建模為空間圖,并將其作為分類模型的輸入。
????????[48]和[52]沒有直接使用每一對(duì)靜息態(tài)fMRI時(shí)間序列數(shù)據(jù),而是根據(jù)每對(duì)靜息態(tài)fMRI時(shí)間序列數(shù)據(jù)之間的皮爾遜相關(guān)系數(shù)計(jì)算全腦功能連接矩陣。然后將相關(guān)矩陣作為空間映射,輸入DNN模型進(jìn)行ASD分類。
???????[113]提出了一種更通用的用于功能連接組分類的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),稱為連接組卷積神經(jīng)網(wǎng)絡(luò)(connectome convolutional neural network, CCNN)。CCNN能夠結(jié)合來(lái)自不同功能連接度量的信息,因此通過(guò)改變用于訓(xùn)練網(wǎng)絡(luò)的連接描述符組合,可以很容易地適應(yīng)廣泛的基于連接組的分類或回歸任務(wù)
?????????也有一些論文直接使用MRI腦部三維結(jié)構(gòu)掃描圖像作為時(shí)空光柵數(shù)據(jù),然后通常采用3D- cnn模型從時(shí)空光柵中學(xué)習(xí)特征進(jìn)行分類[63]、[66]、[78]、[116]、[128]、[194]。
????????[78]提出了兩種用于腦MRI分類的三維卷積網(wǎng)絡(luò)結(jié)構(gòu),這兩種結(jié)構(gòu)是對(duì)普通卷積神經(jīng)網(wǎng)絡(luò)和殘差卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)。他們的模型可以應(yīng)用于3D MRI圖像,無(wú)需手工提取中間特征。
????????[194]還設(shè)計(jì)了一個(gè)深度3D- cnn框架,用于對(duì)全腦fMRI信號(hào)稀疏3D表示重建的大量功能腦網(wǎng)絡(luò)進(jìn)行自動(dòng)、有效、準(zhǔn)確的分類和識(shí)別
?4.4?估計(jì)和推斷
目前關(guān)于時(shí)空數(shù)據(jù)估計(jì)和推理的研究主要集中在空間地圖和軌跡的數(shù)據(jù)類型上
4.4.1 空間地圖
????????雖然設(shè)立了監(jiān)測(cè)站來(lái)收集污染物統(tǒng)計(jì)數(shù)據(jù),但由于費(fèi)用高昂,監(jiān)測(cè)站的數(shù)量非常有限。
????????因此,對(duì)城市空氣質(zhì)量信息進(jìn)行細(xì)粒度推斷已成為政府和人民共同關(guān)心的問(wèn)題。
????????[19]研究了基于某些監(jiān)測(cè)站測(cè)量出的大氣污染物,任意位置的空氣質(zhì)量推斷問(wèn)題。他們提出了一種名為ADAIN的深度神經(jīng)網(wǎng)絡(luò)模型,用于異構(gòu)數(shù)據(jù)的建模和復(fù)雜特征交互的學(xué)習(xí)。一般來(lái)說(shuō),ADAIN結(jié)合了兩種神經(jīng)網(wǎng)絡(luò):前饋神經(jīng)網(wǎng)絡(luò)用于建模靜態(tài)數(shù)據(jù),電流神經(jīng)網(wǎng)絡(luò)用于建模順序數(shù)據(jù),然后隱藏層用于捕獲特征交互。
????????[139]研究了深度神經(jīng)網(wǎng)絡(luò)在遙感降水估計(jì)中的應(yīng)用。采用層疊式降噪自編碼器對(duì)紅外云圖進(jìn)行特征提取和降水估算。
????????在給定出發(fā)地位置、目的地位置和出發(fā)時(shí)間的情況下,估計(jì)潛在行程的持續(xù)時(shí)間是智能交通系統(tǒng)中的一項(xiàng)重要任務(wù)。為了解決這個(gè)問(wèn)題,[83]提出了一種深度多任務(wù)表示學(xué)習(xí)模型用于到達(dá)時(shí)間估計(jì)。該模型產(chǎn)生了有意義的表示,保留了各種出行特性,同時(shí)利用了基礎(chǔ)道路網(wǎng)絡(luò)和時(shí)空先驗(yàn)知識(shí)。
4.4.2 軌跡
????????[147], [181] 試圖從移動(dòng)軌跡數(shù)據(jù)估計(jì)路徑的旅行時(shí)間。
???????? [181] 提出了一種名為 DEEPTRAVEL 的基于 RNN 的深度模型,該模型可以從歷史軌跡中學(xué)習(xí)來(lái)估計(jì)旅行時(shí)間。
???????? [147] 提出了一個(gè)端到端的旅行時(shí)間估計(jì)深度學(xué)習(xí)框架,稱為 DeepTTE,它直接估計(jì)整個(gè)路徑的旅行時(shí)間,而不是先估計(jì)各個(gè)路段或子路徑的旅行時(shí)間,然后再將它們相加。
???????? [111]研究了從軌跡數(shù)據(jù)推斷用戶訪問(wèn)某個(gè)位置的目的。他們提出了一種圖卷積神經(jīng)網(wǎng)絡(luò) (GCN),用于從個(gè)人智能手機(jī)生成的 GPS 軌跡數(shù)據(jù)推斷活動(dòng)類型(即旅行目的)。用戶的移動(dòng)圖是基于他/她的所有活動(dòng)區(qū)域和基于軌跡數(shù)據(jù)的連接性構(gòu)建的,然后將時(shí)空活動(dòng)圖輸入 GCN 以進(jìn)行活動(dòng)類型推斷。
???????? [42] 研究了軌跡-用戶鏈接 (TUL) 的問(wèn)題,該問(wèn)題旨在識(shí)別軌跡,并將軌跡和社交網(wǎng)絡(luò)中生成這些軌跡的用戶相匹配。提出了一種稱為 TULER 的基于循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 的模型,通過(guò)結(jié)合用戶簽入軌跡嵌入模型和堆疊 LSTM 來(lái)解決 TUL 問(wèn)題。
????????識(shí)別用戶交通方式的分布,例如自行車、火車、步行等,是旅行需求分析和交通規(guī)劃的重要組成部分 [24],[148]。 [24] 提出了一個(gè) CNN 模型來(lái)僅基于原始 GPS 軌跡來(lái)推斷出行模式,其中模式被標(biāo)記為步行、自行車、公共汽車、駕駛和火車
4.5 異常檢測(cè)
????????異常檢測(cè)或異常值檢測(cè)旨在識(shí)別因與大多數(shù)數(shù)據(jù)顯著不同而引起懷疑的內(nèi)容、事件或觀察結(jié)果。
????????目前對(duì) 時(shí)空?數(shù)據(jù)異常檢測(cè)的工作主要集中在事件和空間圖的數(shù)據(jù)類型上。
4.5.1 事件
????????[137] 試圖檢測(cè)由事故、體育比賽、惡劣天氣等時(shí)間中斷引起的非重復(fù)性交通擁堵。提出了卷積神經(jīng)網(wǎng)絡(luò) (CNN) 來(lái)識(shí)別由事件引起的非重復(fù)性交通異常。
???????? [189] 研究了如何從社交媒體數(shù)據(jù)中檢測(cè)交通事故。他們首先徹底調(diào)查了北弗吉尼亞和紐約市 1 年來(lái)超過(guò) 300 萬(wàn)條推文內(nèi)容,然后實(shí)施了兩種深度學(xué)習(xí)方法:深度信念網(wǎng)絡(luò) (DBN) 和長(zhǎng)短期記憶 (LSTM) 來(lái)識(shí)別交通事故相關(guān)推文。
???????? [199] 提出利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過(guò)使用交通流量數(shù)據(jù)自動(dòng)檢測(cè)城市網(wǎng)絡(luò)中的交通事件。
????????[16]收集了包括人員流動(dòng)數(shù)據(jù)和交通事故數(shù)據(jù)在內(nèi)的大數(shù)據(jù)和異構(gòu)數(shù)據(jù),以了解人員流動(dòng)如何影響交通事故風(fēng)險(xiǎn)。提出了一種堆棧去噪自動(dòng)編碼器的深度模型來(lái)學(xué)習(xí)人口移動(dòng)的分層特征表示,并將這些特征用于有效預(yù)測(cè)交通事故風(fēng)險(xiǎn)級(jí)別。
4.5.2 spatial maps
????????[100] 首次應(yīng)用深度學(xué)習(xí)技術(shù)作為氣候極端事件檢測(cè)(如颶風(fēng)和熱浪)的替代方法。 該模型經(jīng)過(guò)訓(xùn)練,以氣候圖像數(shù)據(jù)為輸入,對(duì)熱帶氣旋、天氣鋒和大氣河流進(jìn)行分類。
???????? [72] 研究了如何在非常粗糙的氣候數(shù)據(jù)中檢測(cè)和定位極端氣候事件。 所提出的框架基于兩個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,(1)卷積神經(jīng)網(wǎng)絡(luò)(CNN)檢測(cè)和定位極端氣候事件,以及(2)像素遞歸超分辨率模型,從低分辨率氣候數(shù)據(jù)重建高分辨率氣候數(shù)據(jù) .
???????? 為了解決有限標(biāo)記極端氣候事件的問(wèn)題,[123] 提出了一種用于半監(jiān)督邊界框預(yù)測(cè)的多通道時(shí)空 CNN 架構(gòu)。 [123] 中提出的方法能夠利用時(shí)間信息和未標(biāo)記的數(shù)據(jù)來(lái)改善極端天氣的定位
4.6 其他任務(wù)
????????除了我們上面討論的問(wèn)題之外,深度學(xué)習(xí)模型還應(yīng)用于其他 STDM 任務(wù),包括推薦 [10]、[81]、[193]、模式挖掘 [118]、關(guān)系挖掘 [197] 等。
???????? [10]提出了一種用于 POI 推薦的內(nèi)容感知分層 POI 嵌入模型 CAPE。從文本內(nèi)容中,CAPE 不僅捕捉到 POI 的地理影響,還捕捉到 POI 的特征。
????????[193] 還提出利用嵌入學(xué)習(xí)技術(shù)來(lái)捕獲 POI 推薦的上下文簽到信息。
???????? [118] 提出了一種稱為 DeepSpace 的深層結(jié)構(gòu)模型,通過(guò)分析人類軌跡的移動(dòng)數(shù)據(jù)來(lái)挖掘人類的移動(dòng)模式。
????????[197] 研究了軌跡-用戶鏈接 (TUL) 的問(wèn)題,該問(wèn)題旨在將軌跡與從帶有地理標(biāo)記的社交媒體數(shù)據(jù)中生成軌跡的用戶聯(lián)系起來(lái)。提出了一種稱為 TULVAE(TUL via Variational AutoEncoder)的半監(jiān)督軌跡-用戶關(guān)系學(xué)習(xí)框架,來(lái)學(xué)習(xí)神經(jīng)生成架構(gòu)中的人類移動(dòng)性,該架構(gòu)具有跨越 RNN 中隱藏狀態(tài)的隨機(jī)潛在變量
4.7?融合多源數(shù)據(jù)
????????除了所研究的 時(shí)空?數(shù)據(jù)外,通常還有一些其他類型的數(shù)據(jù)與時(shí)空數(shù)據(jù)高度相關(guān)。?將此類數(shù)據(jù)與 時(shí)空 數(shù)據(jù)融合在一起通常可以提高各種 STDM 任務(wù)的性能。
???????? 例如,城市交通流量數(shù)據(jù)會(huì)受到天氣、社會(huì)事件和假期等一些外部因素的顯著影響。
???????? 最近的一些工作嘗試將 時(shí)空 數(shù)據(jù)和其他類型的數(shù)據(jù)融合到深度學(xué)習(xí)架構(gòu)中,以聯(lián)合學(xué)習(xí)特征并捕獲它們之間的相關(guān)性 [16]、[19]、[89]、[174]、[178]、[ 188],[201]。
????????通常,在將深度學(xué)習(xí)模型應(yīng)用于 STDM 時(shí),融合多源數(shù)據(jù)有兩種流行的方法,原始數(shù)據(jù)級(jí)融合和潛在特征級(jí)融合。
4.7.1?原始數(shù)據(jù)級(jí)融合
????????對(duì)于原始數(shù)據(jù)級(jí)融合,首先將多源數(shù)據(jù)融合,然后輸入深度學(xué)習(xí)模型進(jìn)行特征學(xué)習(xí)。
????????[201] 通過(guò)使用卷積長(zhǎng)短期記憶(ConvLSTM)神經(jīng)網(wǎng)絡(luò)模型研究了交通事故預(yù)測(cè)問(wèn)題。
????????首先,整個(gè)研究區(qū)域被劃分為網(wǎng)格單元。
????????然后收集許多細(xì)粒度的城市和環(huán)境特征,例如交通量、道路狀況、降雨量、溫度和衛(wèi)星圖像,并與每個(gè)網(wǎng)格單元進(jìn)行地圖匹配。
????????給定事故數(shù)量以及上述每個(gè)位置的外部特征作為模型輸入,提出了一個(gè) Hetero-ConvLSTM 模型來(lái)預(yù)測(cè)未來(lái)時(shí)隙每個(gè)網(wǎng)格單元中將發(fā)生的事故數(shù)量。
????????[19] 提出了 ADAIN 模型,該模型融合了來(lái)自監(jiān)測(cè)站的城市空氣質(zhì)量信息和與空氣質(zhì)量密切相關(guān)的城市數(shù)據(jù),包括 POI、道路網(wǎng)絡(luò)和氣象,用于推斷城市細(xì)粒度的城市空氣質(zhì)量。
???????? ADAIN 模型的框架如圖 15 所示。
????????首先從包括道路網(wǎng)絡(luò)、POI、氣象數(shù)據(jù)和城市空氣質(zhì)量指數(shù)數(shù)據(jù)在內(nèi)的多源數(shù)據(jù)中手動(dòng)提取特征。
????????然后將所有特征融合在一起,然后輸入 FNN 和 RNN 模型進(jìn)行特征學(xué)習(xí)。
4.7.2?潛在特征級(jí)融合
????????對(duì)于潛在特征級(jí)融合,首先將不同類型的原始特征輸入到不同的深度學(xué)習(xí)模型中,然后使用潛在特征融合組件融合不同類型的潛在特征。
???????? [89] 提出了一種基于深度學(xué)習(xí)的方法,稱為 ST-ResNet,它基于殘差神經(jīng)網(wǎng)絡(luò)框架來(lái)共同預(yù)測(cè)城市每個(gè)區(qū)域的人群流入和流出。
????????如圖 16 所示,ST-ResNet 處理兩種類型的數(shù)據(jù),城市中的 時(shí)空人群流數(shù)據(jù)序列和包括天氣和假期事件在內(nèi)的外部特征。
????????設(shè)計(jì)了兩個(gè)組件來(lái)分別學(xué)習(xí)外部特征和人群流數(shù)據(jù)特征的潛在特征,然后使用特征融合函數(shù) tanh 來(lái)整合兩種類型的學(xué)習(xí)潛在特征。
????????[174] 提出了一種深度多視圖時(shí)空網(wǎng)絡(luò)(DMVST-Net)框架來(lái)結(jié)合多視圖數(shù)據(jù)進(jìn)行出租車需求預(yù)測(cè)。
????????DMVST-Net 由三個(gè)視圖組成:時(shí)間視圖、空間視圖和語(yǔ)義視圖。
????????CNN 用于從空間視圖中學(xué)習(xí)特征,LSTM 用于從時(shí)間視圖中學(xué)習(xí)特征,并應(yīng)用網(wǎng)絡(luò)嵌入來(lái)學(xué)習(xí)區(qū)域之間的相關(guān)性。
????????最后,應(yīng)用全連接神經(jīng)網(wǎng)絡(luò)融合三個(gè)視圖的所有潛在特征以進(jìn)行出租車需求預(yù)測(cè)。
?4.8 注意力機(jī)制
????????注意力機(jī)制是為了提高 Encoder-Decoder RNN 在機(jī)器翻譯上的性能而開發(fā)的 [5]。
???????? Encoder-Decoder RNN 的一個(gè)主要限制是它將輸入序列編碼為固定長(zhǎng)度的內(nèi)部表示,這導(dǎo)致長(zhǎng)輸入序列的性能很差。
????????為了解決這個(gè)問(wèn)題,attention 允許模型學(xué)習(xí)在預(yù)測(cè)目標(biāo)序列中的每個(gè)詞的過(guò)程中,要注意源序列中的哪些編碼詞,以及需要注意的程度。
????????雖然最初在機(jī)器翻譯中提出了以詞序列數(shù)據(jù)作為輸入的注意力,但它實(shí)際上可以應(yīng)用于任何類型的輸入,例如圖像,稱為視覺注意力。
???????? 由于許多 時(shí)空數(shù)據(jù)可以表示為序列數(shù)據(jù)(時(shí)間序列和軌跡)和像空間圖這樣的圖像,因此也可以將注意力整合到深度學(xué)習(xí)模型中,以提高各種 STDM 任務(wù)的性能 [19]、[38]、[39] , [57], [81], [88], [98], [142], [198]。
????????STDM 中使用的神經(jīng)注意力機(jī)制通常可以分為空間域注意力 [19]、[39] 和時(shí)間域注意力 [38]、[57]、[81]、[198]。??一些論文同時(shí)使用空間和時(shí)間域注意力[88]、[98]、[142]。
???????? [39] 提出了空間域中的組合注意力模型。它利用“軟注意力”和“硬連線”注意力來(lái)將軌跡信息從本地鄰域映射到感興趣的行人的未來(lái)位置。
????????[57] 提出了一種名為 DeepCrime 的注意力分層循環(huán)網(wǎng)絡(luò)模型,用于犯罪預(yù)測(cè)。時(shí)域注意機(jī)制用于捕獲從先前時(shí)間段中學(xué)習(xí)到的犯罪模式的相關(guān)性,以幫助預(yù)測(cè)未來(lái)的犯罪事件,并在不同的時(shí)間范圍內(nèi)為學(xué)習(xí)到的隱藏狀態(tài)自動(dòng)分配重要性權(quán)重。在所提出的注意力機(jī)制中,通過(guò) softmax 函數(shù)推導(dǎo)出歸一化的重要性權(quán)重來(lái)估計(jì)過(guò)去時(shí)間段內(nèi)犯罪發(fā)生的重要性。
???????? [88] 提出了一個(gè)多級(jí)注意力網(wǎng)絡(luò),用于預(yù)測(cè)由部署在不同地理空間位置的傳感器生成的地理傳感時(shí)間序列,以連續(xù)和協(xié)同監(jiān)測(cè)周圍環(huán)境,例如空氣質(zhì)量。具體來(lái)說(shuō),在第一級(jí)注意力中,提出了由局部空間注意力和全局空間注意力組成的空間注意力機(jī)制來(lái)捕捉不同傳感器時(shí)間序列之間復(fù)雜的空間相關(guān)性。在第二級(jí)注意力中,時(shí)間注意力被應(yīng)用于對(duì)時(shí)間序列中不同時(shí)間間隔之間的動(dòng)態(tài)時(shí)間相關(guān)性進(jìn)行建模
5 應(yīng)用
????????大量時(shí)空數(shù)據(jù)來(lái)自各種應(yīng)用領(lǐng)域,例如交通、按需服務(wù)、氣候和天氣、人類移動(dòng)性、基于位置的社交網(wǎng)絡(luò) (LBSN)、犯罪分析和神經(jīng)科學(xué)。
????????表二展示了上述應(yīng)用領(lǐng)域的相關(guān)工作。 可以看到,由于城市交通數(shù)據(jù)和人員流動(dòng)數(shù)據(jù)的可用性越來(lái)越高,因此大部分作品屬于交通和人員流動(dòng)。
????????在本節(jié)中,我們將描述用于 STDM 的深度學(xué)習(xí)技術(shù)在不同應(yīng)用中的應(yīng)用
?5.1 交通
????????隨著從環(huán)路檢測(cè)器、道路攝像頭和 GPS 等各種傳感器收集的交通數(shù)據(jù)的可用性越來(lái)越高,迫切需要利用深度學(xué)習(xí)方法來(lái)學(xué)習(xí)交通數(shù)據(jù)之間復(fù)雜且高度非線性的時(shí)空相關(guān)性,以促進(jìn)各種任務(wù)例如交通流預(yù)測(cè) [30]、[60]、[90]、[121]、[136]、[167]、交通事件檢測(cè) [125]、[189]、[199] 和交通擁堵預(yù)測(cè) [108] , [137]。
????????這種與交通相關(guān)的時(shí)空數(shù)據(jù)通常包含交通速度、流量或交通事故、區(qū)域路段位置和時(shí)間等信息。
????????交通數(shù)據(jù)可以建模為不同應(yīng)用場(chǎng)景下的時(shí)間序列、空間地圖和時(shí)空柵格。
????????例如,在道路網(wǎng)絡(luò)規(guī)模的交通流預(yù)測(cè)中,從多個(gè)道路環(huán)路傳感器收集的交通流數(shù)據(jù)可以建模為柵格矩陣,其中一個(gè)維度是傳感器的位置,另一個(gè)維度是時(shí)間[106]。
????????基于部署傳感器的道路鏈接之間的連接,環(huán)路傳感器也可以連接為傳感器圖,并且可以將道路網(wǎng)絡(luò)的交通數(shù)據(jù)建模為圖形空間圖,以便可以應(yīng)用GraphCNN模型[ 85],[175]。
????????而在道路級(jí)交通預(yù)測(cè)中,將每條道路上的歷史交通流量數(shù)據(jù)建模為時(shí)間序列,然后使用RNN或其他深度學(xué)習(xí)模型對(duì)單條道路進(jìn)行交通預(yù)測(cè)[60],[90],[167]?
5.2 按需服務(wù)
????????近年來(lái),由于手機(jī)的廣泛使用,優(yōu)步、摩拜單車、滴滴、GoGoVan等各種按需服務(wù)越來(lái)越受歡迎。通過(guò)為人們提供他們想要的東西和地點(diǎn),按需服務(wù)已經(jīng)接管了傳統(tǒng)業(yè)務(wù)。
????????許多按需服務(wù)會(huì)產(chǎn)生大量的 時(shí)空數(shù)據(jù),這些數(shù)據(jù)涉及客戶的位置和所需的服務(wù)時(shí)間。
????????例如,優(yōu)步和滴滴分別是美國(guó)和中國(guó)兩大流行的拼車按需服務(wù)提供商。他們都通過(guò)智能手機(jī)應(yīng)用程序向用戶提供包括叫車、私家車和社交拼車在內(nèi)的服務(wù)。
????????為了更好地滿足客戶的需求,改善服務(wù),一個(gè)關(guān)鍵的問(wèn)題是如何準(zhǔn)確預(yù)測(cè)不同地點(diǎn)和時(shí)間的服務(wù)需求和供應(yīng)。
????????STDM在按需服務(wù)應(yīng)用中的深度學(xué)習(xí)方法主要側(cè)重于預(yù)測(cè)需求和供應(yīng)。
???????? [1] 提出應(yīng)用深度學(xué)習(xí)方法來(lái)預(yù)測(cè)無(wú)樁共享單車系統(tǒng)的供需分布。
????????[92] 提出了一個(gè)圖 CNN 模型來(lái)預(yù)測(cè)大規(guī)模共享單車網(wǎng)絡(luò)中車站級(jí)每小時(shí)的需求。
???????? [126]、[174] 提出使用 LSTM 模型來(lái)預(yù)測(cè)不同地區(qū)的出租車需求。
???????? [146] 應(yīng)用 ResNet 模型來(lái)預(yù)測(cè)在線叫車服務(wù)的供需。
????????被研究城市不同區(qū)域的歷史供需數(shù)據(jù)通常被建模為空間圖或柵格張量,以便應(yīng)用于 CNN、RNN 和組合模型來(lái)預(yù)測(cè)未來(lái)的需求。
5.3 氣象和天氣
????????氣候科學(xué)是對(duì)氣候的科學(xué)研究,科學(xué)定義為一段時(shí)間內(nèi)平均的天氣條件。
????????天氣數(shù)據(jù)通常包含由部署在固定或浮動(dòng)位置的各種氣候傳感器收集的大氣和海洋條件(例如,溫度、壓力、風(fēng)流和濕度)。
????????由于不同地點(diǎn)的氣候數(shù)據(jù)通常具有較高的時(shí)空相關(guān)性,STDM 技術(shù)被廣泛用于短期和長(zhǎng)期天氣預(yù)報(bào)。
????????特別是,隨著深度學(xué)習(xí)技術(shù)的最新進(jìn)展,許多工作試圖結(jié)合深度學(xué)習(xí)模型來(lái)分析各種天氣和環(huán)境數(shù)據(jù) [79]、[129],例如空氣質(zhì)量推斷 [19]、[94]、降水預(yù)測(cè) [ 100]、[161]、風(fēng)速預(yù)測(cè) [96]、[200] 和極端天氣檢測(cè) [100]。
????????與氣候和天氣相關(guān)的數(shù)據(jù)可以是空間圖(例如雷達(dá)反射率圖像)[188]、時(shí)間序列(例如風(fēng)速)[17] 和事件(例如極端天氣事件)[100]。
???????? [19]提出了一種神經(jīng)注意力模型來(lái)預(yù)測(cè)不同監(jiān)測(cè)站的城市空氣質(zhì)量數(shù)據(jù)。
???????? [100] 提出使用 CNN 模型來(lái)檢測(cè)氣候數(shù)據(jù)庫(kù)中的極端天氣。
????????CNN 模型也可用于從遙感圖像中估計(jì)降水量 [100]。
5.4 人口流動(dòng)
????????隨著移動(dòng)設(shè)備的廣泛使用,近年來(lái)見證了與人口移動(dòng)相關(guān)的廣泛地理定位數(shù)據(jù)集的爆炸式增長(zhǎng)。
????????大量的人口移動(dòng)數(shù)據(jù)使我們能夠定量研究個(gè)人和集體的人類移動(dòng)模式,并生成能夠捕捉和再現(xiàn)人類軌跡中的時(shí)空結(jié)構(gòu)和規(guī)律的模型。
????????人口移動(dòng)性的研究對(duì)于估計(jì)遷徙流量、交通預(yù)測(cè)、城市規(guī)劃、人類行為分析和個(gè)性化推薦等應(yīng)用尤為重要。
????????應(yīng)用于人口移動(dòng)數(shù)據(jù)的深度學(xué)習(xí)技術(shù)主要側(cè)重于人口軌跡數(shù)據(jù)挖掘,例如軌跡分類 [36]、軌跡預(yù)測(cè) [38]、[64]、[163]、軌跡表示學(xué)習(xí) [82]、[170]、移動(dòng)模式挖掘 [118],以及從軌跡 [24]、[42] 推斷人類交通模式。
????????根據(jù)不同的應(yīng)用場(chǎng)景和分析目的,可以將軌跡建模為不同類型的 S時(shí)空數(shù)據(jù)類型和數(shù)據(jù)表示,從而可以應(yīng)用不同的深度學(xué)習(xí)模型。
????????人口軌跡數(shù)據(jù)挖掘中使用最廣泛的模型是 RNN 和 CNN 模型,有時(shí)將這兩種模型結(jié)合起來(lái)捕獲人類移動(dòng)數(shù)據(jù)之間的空間和時(shí)間相關(guān)性。
5.5?基于位置的社交網(wǎng)絡(luò) (LBSN)
????????Foursquare 和 Flickr 等基于位置的社交網(wǎng)絡(luò)使用 GPS 功能定位用戶,并讓用戶從他們的移動(dòng)設(shè)備廣播他們的位置和其他內(nèi)容?[196]。
???????? LBSN 不僅意味著向現(xiàn)有社交網(wǎng)絡(luò)添加一個(gè)位置,以便人們可以共享位置嵌入的信息,而且還包括新的社會(huì)結(jié)構(gòu)組成,這些結(jié)構(gòu)由通過(guò)他們?cè)谖锢硎澜缰械奈恢靡约八麄兊奈恢脴?biāo)記的媒體內(nèi)容組成。
???????? LBSN 數(shù)據(jù)包含大量用戶簽到數(shù)據(jù),這些數(shù)據(jù)包括個(gè)人在給定時(shí)間戳的即時(shí)位置。
???????? 目前,深度學(xué)習(xí)方法已被用于分析LBSN中用戶生成的時(shí)空數(shù)據(jù),研究的任務(wù)包括下一次簽到位置預(yù)測(cè)[67]、LBSN中的用戶表征學(xué)習(xí)[164]、地理特征提取[26]和用戶 登記時(shí)間預(yù)測(cè) [165]。
5.6 犯罪分析
????????執(zhí)法機(jī)構(gòu)在許多城市存儲(chǔ)有關(guān)報(bào)告犯罪的信息,并將犯罪數(shù)據(jù)公開用于研究目的。
????????犯罪事件數(shù)據(jù)通常具有犯罪類型(例如,縱火、襲擊、入室盜竊、搶劫、盜竊和故意破壞)以及犯罪的時(shí)間和地點(diǎn)。
????????可以使用這些數(shù)據(jù)研究犯罪模式以及執(zhí)法政策對(duì)一個(gè)地區(qū)犯罪數(shù)量的影響,以減少犯罪[4]。
????????由于發(fā)生在城市不同區(qū)域的犯罪通常具有很高的空間和時(shí)間相關(guān)性,因此可以使用深度學(xué)習(xí)模型,以城市的犯罪記錄的熱力圖作為輸入,來(lái)捕捉這種復(fù)雜的相關(guān)性 [31]、[57]、[ 145]。
????????例如,[31]提出了一個(gè)基于CNN的時(shí)空犯罪網(wǎng)絡(luò)來(lái)預(yù)測(cè)第二天市區(qū)各區(qū)域的犯罪風(fēng)險(xiǎn)。
???????? [145] 提議利用 ST-ResNet 模型來(lái)共同預(yù)測(cè)洛杉磯地區(qū)的犯罪分布。
???????? [57] 開發(fā)了一個(gè)新的犯罪預(yù)測(cè)框架——DeepCrime,這是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu),可以揭示動(dòng)態(tài)犯罪模式并探索犯罪與城市空間中其他無(wú)處不在的數(shù)據(jù)之間不斷變化的相互依賴關(guān)系。
????????正如我們之前討論的,犯罪數(shù)據(jù)是典型的 S時(shí)空事件數(shù)據(jù),通常通過(guò)合并空間和時(shí)間域中的數(shù)據(jù)來(lái)表示為空間地圖,以便可以將深度學(xué)習(xí)模型應(yīng)用于分析。
5.7 神經(jīng)學(xué)
????????近年來(lái),腦成像技術(shù)已成為神經(jīng)科學(xué)領(lǐng)域的熱門話題。
????????此類技術(shù)包括功能性磁共振成像 (fMRI)、腦電圖 (EEG)、腦磁圖 (MEG) 和功能性近紅外光譜 (fNIRS)。
????????這些技術(shù)測(cè)量的神經(jīng)活動(dòng)的空間和時(shí)間分辨率與其他技術(shù)大不相同。
???????? fMRI 從數(shù)百萬(wàn)個(gè)位置測(cè)量神經(jīng)活動(dòng),而 EEG 數(shù)據(jù)僅從數(shù)十個(gè)位置測(cè)量。
????????fMRI 通常每?jī)擅霚y(cè)量一次活動(dòng),而 EEG 數(shù)據(jù)的時(shí)間分辨率通常為 1 毫秒。
????????由于其空間分辨能力,fMRI和EEG結(jié)合深度學(xué)習(xí)方法,已廣泛應(yīng)用于神經(jīng)科學(xué)的研究[34]、[63]、[113]、[128]。
????????正如我們之前討論的,深度學(xué)習(xí)模型主要用于神經(jīng)科學(xué)中的分類任務(wù),通過(guò)使用 fMRI 數(shù)據(jù)或 EEG 數(shù)據(jù),進(jìn)行例如疾病分類 [34]、腦功能網(wǎng)絡(luò)分類 [113] 和腦激活分類 [63]。
????????例如,長(zhǎng)短期記憶網(wǎng)絡(luò) (LSTM) 用于識(shí)別自閉癥譜系障礙 (ASD) [34],卷積神經(jīng)網(wǎng)絡(luò) (CNN) 用于診斷遺忘性輕度認(rèn)知障礙 (aMCI) [113] 和前饋神經(jīng)網(wǎng)絡(luò)(FNN) 被用來(lái)對(duì)精神分裂癥進(jìn)行分類 [119]
6 開放性問(wèn)題
????????盡管已經(jīng)提出了許多深度學(xué)習(xí)方法并在上面討論的不同應(yīng)用領(lǐng)域中廣泛應(yīng)用,但由于時(shí)空數(shù)據(jù)高度復(fù)雜、數(shù)量龐大且快速增長(zhǎng),挑戰(zhàn)仍然存在。
???????? 在本節(jié)中,我們提供了一些當(dāng)前工作尚未很好解決并需要在未來(lái)進(jìn)一步研究的開放性問(wèn)題。
6.1 可解釋模型
????????目前的 STDM 深度學(xué)習(xí)模型大多被認(rèn)為是缺乏可解釋性的黑盒。
????????可解釋性賦予深度學(xué)習(xí)模型以可理解的方式向人類解釋或呈現(xiàn)模型行為的能力,它是機(jī)器學(xué)習(xí)模型為更好地為人們服務(wù)、造福社會(huì)不可或缺的一部分[29]。
????????考慮到時(shí)空數(shù)據(jù)的復(fù)雜數(shù)據(jù)類型和表示,與其他類型的數(shù)據(jù)(例如圖像和單詞標(biāo)記)相比,設(shè)計(jì)可解釋的深度學(xué)習(xí)模型更具挑戰(zhàn)性。
???????? 盡管之前的一些工作中使用了注意力機(jī)制來(lái)增加模型的可解釋性,例如周期性和局部空間依賴性 [19]、[57]、[88],但如何為 STDM 任務(wù)構(gòu)建更具可解釋性的深度學(xué)習(xí)模型仍然沒有得到很好的研究 并且仍然是一個(gè)懸而未決的問(wèn)題。
6.2 深度學(xué)習(xí)模型的選擇
????????對(duì)于給定的 STDM 任務(wù),有時(shí)可以收集多種類型的相關(guān)時(shí)空數(shù)據(jù),并且可以選擇不同的數(shù)據(jù)表示。
???????? 如何正確選擇時(shí)空數(shù)據(jù)表示和相應(yīng)的深度學(xué)習(xí)模式還沒有得到很好的研究。
????????例如,在交通流預(yù)測(cè)中,一些工作將每條道路的交通流數(shù)據(jù)建模為時(shí)間序列,以便使用 RNN、DNN 或 SAE 進(jìn)行預(yù)測(cè) [104]、[136]; 一些工作將多個(gè)道路連接的交通流數(shù)據(jù)建模為空間圖,以便應(yīng)用 CNN 進(jìn)行預(yù)測(cè) [184]; 一些工作將道路網(wǎng)絡(luò)的交通流數(shù)據(jù)建模為圖形,以便采用 GraphCNN [85]。
????????關(guān)于如何正確選擇深度學(xué)習(xí)模型和 ST 數(shù)據(jù)的數(shù)據(jù)表示以更好地解決所研究的 STDM 任務(wù),缺乏更深入的研究。
6.3?對(duì)更多 STDM 任務(wù)的更廣泛應(yīng)用。????????
????????盡管深度學(xué)習(xí)模型已廣泛用于上述各種 STDM 任務(wù),但仍有一些深度學(xué)習(xí)模型尚未解決的任務(wù),例如頻繁模式挖掘和關(guān)系挖掘 [4]、[87]。
????????深度學(xué)習(xí)的主要優(yōu)勢(shì)在于其強(qiáng)大的特征學(xué)習(xí)能力,這對(duì)于一些主要依賴高質(zhì)量特征的預(yù)測(cè)學(xué)習(xí)和分類的?STDM 任務(wù)至關(guān)重要。
???????? 然而,對(duì)于一些 STDM 任務(wù),如頻繁模式挖掘和關(guān)系挖掘,學(xué)習(xí)高質(zhì)量的特征可能沒有那么有用,因?yàn)檫@些任務(wù)不需要特征。
????????根據(jù)我們的調(diào)研,目前很少甚至沒有利用深度學(xué)習(xí)模型來(lái)完成上述任務(wù)的作品。
????????因此,如何使用深度學(xué)習(xí)模型或深度學(xué)習(xí)模型與傳統(tǒng)模型(例如頻繁模式挖掘和圖形模型)的結(jié)合模型,來(lái)擴(kuò)展到更廣泛的應(yīng)用程序,以解決更多 STDM 任務(wù),這仍然是一個(gè)懸而未決的問(wèn)題。
6.4?融合多模態(tài) ST 數(shù)據(jù)集
????????在大數(shù)據(jù)時(shí)代,多模態(tài) ST 數(shù)據(jù)集越來(lái)越多地用于神經(jīng)影像、氣候科學(xué)和城市交通等許多領(lǐng)域。
???????? 例如,在神經(jīng)成像中,fMRI 和 DTI 都可以使用提供不同時(shí)空分辨率的不同技術(shù)來(lái)捕獲大腦活動(dòng)的成像數(shù)據(jù) [61]。 如何使用深度學(xué)習(xí)模型將它們有效地融合在一起,以更好地執(zhí)行疾病分類和大腦活動(dòng)識(shí)別的任務(wù),研究較少。
???????? 城市的出租車軌跡數(shù)據(jù)、共享單車出行數(shù)據(jù)、公共交通進(jìn)出站數(shù)據(jù)等多模式交通數(shù)據(jù)都可以從不同的角度反映城市??人流的流動(dòng)性[30]。將它們?nèi)诤显谝黄鸲皇菃为?dú)分析可以更全面地捕捉潛在的移動(dòng)模式并做出更準(zhǔn)確的預(yù)測(cè)。
????????盡管最近有嘗試應(yīng)用深度學(xué)習(xí)模型從不同城市之間的人群流量數(shù)據(jù)中轉(zhuǎn)移知識(shí)[151],[172],但如何將多模態(tài)時(shí)空數(shù)據(jù)集與深度學(xué)習(xí)模型融合仍然沒有得到很好的研究,需要未來(lái)更多的研究關(guān)注。
7 結(jié)論
????????在本文中,我們?nèi)娓攀隽颂剿?STDM 深度學(xué)習(xí)技術(shù)的最新進(jìn)展。
????????我們首先對(duì)時(shí)空數(shù)據(jù)的不同數(shù)據(jù)類型和表示進(jìn)行分類,并簡(jiǎn)要介紹用于 STDM 的流行深度學(xué)習(xí)模型。對(duì)于不同類型的時(shí)空數(shù)據(jù)及其表示,我們展示了適合處理它們的相應(yīng)深度學(xué)習(xí)模型。
????????然后我們給出了一個(gè)通用框架,展示了利用深度學(xué)習(xí)模型來(lái)解決 STDM 任務(wù)的基本流程。在該框架下,我們概述了基于時(shí)空數(shù)據(jù)類型分類和 STDM 任務(wù)的當(dāng)前工作,包括預(yù)測(cè)學(xué)習(xí)、表示學(xué)習(xí)、分類、估計(jì)和推理、異常檢測(cè)等。
????????接下來(lái),我們總結(jié)了深度學(xué)習(xí)技術(shù)在 STDM 中在不同領(lǐng)域的應(yīng)用,包括交通、按需服務(wù)、氣候和天氣、人員流動(dòng)、基于位置的社交網(wǎng)絡(luò) (LBSN)、犯罪分析和神經(jīng)科學(xué)。
????????最后,我們列出了一些懸而未決的問(wèn)題,并指出了這個(gè)快速增長(zhǎng)的研究領(lǐng)域的未來(lái)研究方向。
總結(jié)
以上是生活随笔為你收集整理的Data Mining 论文翻译:Deep Learning for Spatio-Temporal Data Mining: A Survey的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 李宏毅线性代数笔记9:特征值与特征向量
- 下一篇: 李宏毅线性代数笔记9:对角化