丛高教授《空间数据管理和挖掘及在智慧城市的应用》演讲笔记
?1 general part
來自?https://www.163.com/dy/article/G4OMJ3LH0511PEBT.html
2020年11月20日,由中國科學技術協會主辦,中國國際科技交流中心、中國人工智能學會、新加坡通商中國承辦的“中新數字經濟與人工智能高峰論壇”云端召開。主題報告環節,新加坡南洋理工大學教授、新加坡電信 - 南洋理工人工智能聯合實驗室主任叢高教授帶來了《空間數據管理和挖掘及在智慧城市的應用》的精彩演講。
今天介紹的內容,是我的團隊和合作方的研究成果。
我關注的主題是空間數據管理和數據挖掘,特別是地理空間 +X 的數據。這個X可以是任何其他類型的數據,比如文本、社交網絡、多媒體數據等。如果 X 是文本信息,就是一個地理文本信息,是基于特定地點所收集到的文本數據來作數據管理和分析。
這種地理空間+X 數據可以是相對靜態的,也可以是一大規模、以數據流的形式。我們的研究集中在三個層次,一是數據管理層,主要集中在相關的數據存儲、索引和查詢。對于大規模空間數據流,設計了分布式系統支持實時查詢和連續查詢。二是數據挖掘和分析層。針對不同時空數據類型設計不同數據挖掘技術,具體集中在點空間數據、軌跡空間數據和區域空間數據這三種不同時空數據類型。三是智慧城市或智慧國家應用層。
?
?
首先分享在數據管理層近十幾年做的一些工作。我們設計數據管理系統, 包括索引和查詢算法,支持對空間文本數據的查詢和管理;也設計分布式系統,查詢分析時空信息流;同時設計如何衡量空間文本數據流系統的工作負荷,然后設計附載均衡的彈性工作任務劃分,以及隨著負載變化進行彈性調整;此外也研究利用機器學習的方式改進數據庫的系統,提高一些具體數據管理模塊的性能,比如查詢優化。
下面分別介紹我們在數據挖掘和分析層做的工作。
首先,針對點空間數據介紹 3 個工作。
①點空間數據探索及可視化。給一個點空間數據(比如一個國家景點的照片數據,或者興趣點POI數據)作為輸入,我們想在地圖上展示數據集以支持用戶對數據的探索。簡單地把所有數據可視化到地圖上,數據重疊在一起,什么也看不出。一個自然的想法是選取數據的一小部分可視化,這些數據應該盡量代表用戶感興趣區域的所有數據,且不重疊。另外,當用戶放大、縮小,以及移動感興趣的區域,選取的數據應該保持一致性。
② 構建地理位置知識庫。我們要打造一個知識庫,而且知識庫里會有非常細顆粒度的一些地點,在高層有國家為單位,甚至是洲為單位、城市為單位,顆粒度越細就會以酒店、商城等為單位。
③ 興趣點(POIs)的推薦。POI 推薦可以分為兩種,一種是傳統的推薦;另外一種就是基于場景和背景的 POI 推薦 , 例如基于用戶現在位置,推薦他接下來去的地方,或者基于時間推薦POIs。
?一個很本質的問題就是怎么做數據表示。不管是做推薦還是做知識圖譜,怎么表達location(用機器學習?數據挖掘?還是其他?),這是一個很關鍵的問題。?
其次,針對軌跡數據介紹兩個工作。
① 軌跡相似性計算。傳統的方法基于配對、匹配模型,通常基于動態規劃算法,計算復雜度很高;另外不能很好處理軌跡數據出現的一些噪音。我們提出用深度表征學習方法把軌跡表示成一個向量,不但可以極大提升算法的復雜度,也可以取得更好的相似度計算準確性。
② 運動軌跡數據分析。
體育比賽分析人員可能想知道在一場足球比賽中,梅西究竟跑了多少米?有多遠?以往基于視頻數據很難做分析。我們從視頻數據得到軌跡,通過深度學習模型表示一組球員的軌跡,然后計算球員和比賽的相似度。
?如何表征軌跡?傳統意義上表示成一系列的點(特殊的時間序列),但是這可能并不是一個最好的辦法,尤其是在現在有很多機器學習和深度學習任務的時候。
最后,針對區域空間數據介紹兩個工作。
① 區域地理、時空的主題分析。我們提出一種方法快速、高效分析一個用戶感興趣的區域,在某個時間段進行主題分析。針對某個區域做一個話題分析,要收集某個區域的社交媒體數據;對每個區域地理、時空主題要進一步分析對于不同品牌的競爭情況。
② 類似區域搜索。現在輸入一個特定的區域后,可以找到一個和它類似區域的表現。我們嘗試去用深度學習表示區域,學習區域的相似性。我們還做了一個案例的分析,比如找到一個探索區域,新加坡的一座城市,選擇一個自然保護區,希望通過我們的引擎搜索到 5 個類似自然保護區。
關鍵也是 region representation
最后一部分是智慧城市的應用。我們也做過交通時間分布測算,考慮到出發點和到達點,預測整段里程要用的時間,會有不同的路線來作預判。例如會做一些交通路徑的介入,這些紅點、綠點的地點可以幫助用戶改變行程;同時還會給用戶提供一些建議,如有時到某個地點時間不夠,可以在中間改變潛在的路線圖。
此外,基于我們的技術,和合作方新電信共同開發了傳染病contact tracing 的演示系統。
在【Gauss松鼠會|技術群英會】Cong Gao:Enriched Spatial Data Management and Mining_嗶哩嗶哩_bilibili?中,叢老師主要介紹了上述的三篇論文的model:
2 querying streaming spatial textual data
?
這是twitter里面的內容,數據是不停來的,我們可以把它看成一個數據流。
對這個數據流的查詢,我們可以分為snapshot query和continuous query。前者是找過去指定時刻(last week)的query信息,后者則是持續不斷地找時間片中的query信息(in comming week)。我們需要制定一個系統同時支持這兩種query。
找一個時間片內、某一個區域的關鍵詞:
找一個時間片內,某一區域距離keyword最近的k個詞
?找一個時間片內,某一區域出現最平凡的k個詞
?
3 trajectory representation and similarity
?
?
傳統的方法一般是將軌跡看成是點組成的sequence。
那么,怎么計算相似度呢?
傳統的方法做的基本上是兩個軌跡(點組成的時間序列),進行對齊alignment,然后mapping,來計算相似度和距離。
這樣的方式會帶來很多二問題,比如:
1 如果一個軌跡采樣了5個點、另一個軌跡采樣了1000個點,那么即使兩個軌跡是相似的,但傳統的方法也會得到不高的相似度【換句話說,就是不同的采樣率導致了不理想的匹配,如下圖(a)】
2 如果軌跡有噪聲的話,會干擾相似度的計算
3 因為兩個軌跡需要進行對齊,而對齊操作一般都需要動態規劃。動態規劃的時間復雜度一般是O(n^2)(如果軌跡是O(n)的話)
4 低采樣率會導致很難區分路徑【如下圖(b),因為Ta軌跡中和Tb不一樣的部分沒有被sample到,所以就會出現發現不了兩個軌跡不一樣的問題】
?
?傳統方法中的點的sequence并不能真正代表軌跡,而DTW等傳統方法又偏慢,所以能否用representation learning 的方法重新表示軌跡呢?
?
?
對軌跡T,學習一個vector表示,以得到一個真實路徑,我們的目標就是最大化這個條件概率。?
問題在于,實際的真實路徑我們是不知道怎么表示的(也就是沒有直接可以得到的ground truth);其次,Seq2Seq 主要是使用NLLLoss 作為誤差函數的。但是NLLLoss沒有考慮空間這一個維度的屬性?
找一個采樣率高的軌跡Tb,對其降采樣,作為Ta。這樣就可以作為訓練集訓練這個模型了。
?在“軌跡相似度”這個問題中,常見的損失函數NLLLoss沒有考慮空間的信息。這也就導致了本來一組比較相似的軌跡(如上圖的Tb和Tb'),得到的結論是不相似(因為沒有兩個dot在同一個區域內,它們都會被表征成不同的dot)
以下是實驗結論:
?
4 其他
4.1 子軌跡的查詢?
?
?4.2 travel time distribution
?起點和終點已知,預測通行時間的分布
4.3 travel route inference
起點和終點已知,預測用戶走哪條路。
4.4 異常軌跡預測
?
總結
以上是生活随笔為你收集整理的丛高教授《空间数据管理和挖掘及在智慧城市的应用》演讲笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文巾解题 620. 有趣的电影
- 下一篇: 262. 行程和用户