【Hard to Park】Estimating Parking Difficulty at Scale
First Pass
Title
Hard to Park? Estimating Parking Difficulty at Scale
Author
Neha Arora James Cook Ravi Kumar Ivan Kuznetsov Yechen Li Huai-Jen Liang Andrew Miller Andrew Tomkins Iveel Tsogsuren Yi Wang
Source
KDD ’19, August 4–8, 2019, Anchorage, AK, USA
Abstract
- 提取不同時間、不同地點停車難的特點,以及特點的影響程度。
- 針對預測停車難問題評估各種模型
- 解決該問題的挑戰
Introduction
問題場景:
系統問題:
解決:
使用眾包數據(crowd-sourced data)(ground truth)搭建預測停車難的系統
提取特點:300多個特征,例如:
- 從目的地開始到停車點的平均距離
- 目的地附近的停車位分布
- 找停車位的平均時間
location trajectory data提取的特征有噪音,但是其特征空間是可預測的
- logistic regression
- deep feed-forward networks
Contributions
Sections
相關工作:停車傳感器、停車位占用模型、路線規劃
問題和方法:目標是訓練出停車難的程度
數據:地圖的軌跡數據、提取出來的時空桶、調研的真實數據
特征:基于軌跡的時間和距離特征、周轉特征、環境特征
模型:獎勵矩陣、懲罰函數、單層回歸、前饋深度神經網絡模型
評估:模型輸出測試、平衡歸一化獎勵(BNR)、單個特征族的能力、特征族的消融分析、DNN性能和泛化能力、跨城市泛化與本地模型的比較
總結評論:通過探索給定區域反映停車難的特征類,產生一些主觀的停車難的估計。實驗發現,無論停車難預測的結果是什么,其他出行方式的查詢都增加了4%。【那么該試驗有何意義?大家都不自己開車了,都去找別的交通工具了。及時地圖上預測的結果是容易停車,也有一些人選擇其他方式出行。】【或許到達終點時,停車位的使用情況會改變。根據從出發地到達目的地的時間t以及目的地附近停車位的歷史停車信息共同預測,在時間t時目的地附近停車位的情況】
future:停車狀況會根據季節,停車位的結構和功能變化,事件等而變化。在匯總特征和地面實況并生成反映當前狀況的實時估計時,必須考慮到這些。
地圖應用給用戶做路線導航時,停車難度的預測是很有參考價值的部分,那么該問題是通過什么模型來解決的呢?輸入的數據是什么?輸出的數據按照谷歌地圖的需求是easy, medium, limited。
Second Pass:gist/take home message
2.1 Parking sensors
- 要得到某一時間點某一個停車位的占用情況,可以通過給停車位位安裝傳感器,或者圖象識別、GPS等方式來獲取。
- 本文采取的是歷史地理位置數據和匿名用戶調查
2.2 Parking occupancy modeling
- 統計學ML方法:聚類、SVR、時間序分析、馬爾科夫鏈、向量自回歸模型、神經網絡、表示學習…
- 貝葉斯正則化神經網絡(歷史數據、交通流、天氣狀況)Alajali et al. propose a Bayesian regularized neural network that takes into account historical data, traffic flow, and weather conditions.
- Du Parking:DNN+LSTM(實時停車可用性預測,基于百度地圖地理數據和停車場傳感器數據)
- 基于來自多個數據源的實時和歷史數據(包括占用率,交通狀況,道路和天氣以及網絡拓撲),結合了CNN和RNN / LSTM來建模時空相關性。
這些方法都用到了停車位傳感器或停車收費表。
2.3 Route planning
很多停車位的預測是在路線規劃算法的基礎上研究的。
ParkAssistant目的是最小化停車成本(包括停車費、停車時間、交規、司機開車習慣等)
PSR在路網模擬環境中用A*算法
低成本數據源:所謂的基于移動設備浮動車輛數據
3 FORMULATION AND OVERVIEW
目標:給定目的地和當前時間,預測目的地附近的停車位是個什么情況。
such as:f(l=37MainStreet,t=3:12pmonJanuary2)=limitedf(l=37MainStreet,t=3:12pm on January 2)=limitedf(l=37MainStreet,t=3:12pmonJanuary2)=limited
處理:將目的地lll和時間ttt裝入到一個“SpatialTemporal buckets”B中,并且提取出一個特征向量xxx,由模型M得出f(?,t)=M(xB)f (?,t) = M(x_B)f(?,t)=M(xB?)
4 Data
4.3 ground truth 市民調查
在不同的時間、不同的地點調查“是否停車難”,存在很大的主觀因素,因此得到的結果可能產生互斥的情況。為了避免這個問題的發生,把調查的問題改為“該地區在M分鐘內能否找到停車位呢?”,M很難確定。經其研究所得,第二個問題可以采用,所以他們獲取了10萬條測試。
4.3.1 Inter-rater agreement
Inter-rater agreement 評價者一致性
按照時間空間將調查的回答分組(特征聚合方式使同一個時空桶中的模型是相同的);
在每一個時空桶中使用聯合概率來計算評價者一致性;
計算兩個評論落入同一個時空桶時一致的頻率。
對于每一個桶都有一個answer的集合S,我們計算一致性和一個地理區域所有桶的平均一致性。
我們根據一組評估者報告的平均難度評估模型的準確性,并了解此平均難度代表具有非平凡差異的個人經歷的分布。
評論越一致,停車越難
5 如何提取特征
從軌道數據中提取,按照空間和時間的分法將軌跡數據分成一個個時空桶,然后將每一個桶中的軌跡中提取出來的特征進行處理: count, 10th percentile, median, mean, and 90th percentile.
5.1 Trajectory-based time and distance features
選取了一個到達目的地D的鄰近點r,從軌跡中分析出以下幾個變量:
timertime_rtimer?表示到達rrr的時刻
parkTimeparkTimeparkTime表示到達停車位的時刻
arrivalTimearrivalTimearrivalTime表示到達目的地的時刻
vicinityParkTimer=parkTime?timervicinityParkTime_r=parkTime-time_rvicinityParkTimer?=parkTime?timer?表示從鄰近點rrr到達停車位的實際時間
vicinityDestinationTimer=arrivalTime?timervicinityDestinationTime_r=arrivalTime-time_rvicinityDestinationTimer?=arrivalTime?timer?表示從鄰近點rrr到達目的地的實際時間
drivingEstimaterdrivingEstimate_rdrivingEstimater?表示從鄰近點直接到達目的地的時間
實際的時間都包含司機繞圈找車位以及從停車位走到目的地等額外消耗的時間
arrivalDeviationr=vicinityDestinationTimer?drivingEstimaterarrivalDeviation_r=vicinityDestinationTime_r-drivingEstimate_rarrivalDeviationr?=vicinityDestinationTimer??drivingEstimater?表示到達目的地額外花費的時間(包含開車、走路等)
drivingDeviationr=vicinityParkTimer?drivingEstimaterdrivingDeviation_r=vicinityParkTime_r-drivingEstimate_rdrivingDeviationr?=vicinityParkTimer??drivingEstimater?表示到達停車位額外花費的開車時間
5.2 Circling features
如果乘客坐的出租車或者順風車,不存在找車位和走到目的地的時間,可以直接送到目的地門口下車。這種情況下的deviation時間可記為0,但并不能說明停車很容易。
公交車系統可能導致誤判,公交車站附近很好停車,離車站遠了不好停車。
下圖是模擬乘坐公交車到達目的地的路線。
PS:美國市內的路基本都是單行道。
設想一個簡單的模型,人們一般會直接到達目的地,然后開始找停車位。臨近目的地的位置記為Y,停車位記為P。從Y 到P的時間記為circling?time=12:15?12:02=13mincircling-time=12:15-12:02=13mincircling?time=12:15?12:02=13min,距離記為circling?distance=360+300+600=1260circling-distance=360+300+600=1260circling?distance=360+300+600=1260。下圖為模擬的找車位的軌跡。
5.2.1 Monotonicity (單調性)
定義了一個到達目的地前各個位置的距離序列,我們想要的這個序列是遞增的,使用保序回歸(isotonic regression)來計算單調性特征。離目標越近的點賦予越大的權重。
比如:Figure 8 shows an example in which there are six location reports before parking. The sequence of distances to the destination
is (480, 400, 430, 700, 580, 100, 0) say with weights (1/7, 1/6, 1/5,1/4, 1/3, 1/2, 1/1). The best monotone fit to the given sequence is (539,539,539,539,539,100,0), with an ?2 error of 114.
5.3 Ambient features(環境特征)
不像單條軌跡的特征,環境特征是由一個時空桶內軌跡的聚合信息計算出來的。以下他們定義了兩個特征:
5.3.1 Geo dispersion(地理分布)
在特定的時空桶B下考慮有目的地的軌跡。如果該時空桶很容易停車,我們期望大部分車停在附近;如果停車難,車將會停到離目的地遠的地方,并且停車的位置都不一樣。
將S2單元劃分為C1,C2,...,CnC_1,C_2,...,C_nC1?,C2?,...,Cn?,包含B中的一條軌跡的至少一個停車位置。
記cic_ici?為CiC_iCi?中的軌跡數,pi=ci∑jcjp_i=\frac{c_i}{\sum_j{c_j}}pi?=∑j?cj?ci??表示B中的軌跡停在CiC_iCi?的概率。
然后定義兩個特征來描述B中停車位置的分布:
Collision:去同一目的地的車停在同一停車區域CiC_iCi?的概率:collision(B)=∑i=1npi2collision(B)=\sum_{i=1}^n {p_i}^2collision(B)=∑i=1n?pi?2
Entropy:對某一個特定的目的地,停車位置可預測性的缺失??entropy(B)=∑i=1npilog(1pi)entropy(B)=\sum_{i=1}^n p_ilog(\frac{1}{p_i})entropy(B)=∑i=1n?pi?log(pi?1?)
5.3.2 Relative busyness(相對忙碌)
為了記錄城市中異常忙碌的時間,他們提出了相對忙碌的特征。(應該就是停車位占用量較大的異常情況吧) 用$n_{l,t}$表示在時間$t$要去目的地$l$的用戶數,然后時間邊緣化,計算目的地的最大分位數、90百分位數和75百分位數:$n_l^{max}、n_l^{90\%}、n_l^{75\%}$,然后使用這些統計信息對不同的時間$t$上的特征進行歸一化。這樣就得到了相對忙碌的特征:rel_busyness_max=nl,tnlmax、rel_busyness_max=nl,tnl90%、rel_busyness_max=nl,tnl75%rel\_busyness\_max=\frac{n_{l,t}}{n_l^{max}}、rel\_busyness\_max=\frac{n_{l,t}}{n_l^{90\%}}、rel\_busyness\_max=\frac{n_{l,t}}{n_l^{75\%}}rel_busyness_max=nlmax?nl,t??、rel_busyness_max=nl90%?nl,t??、rel_busyness_max=nl75%?nl,t??
6 Learning Models
6.1 Reward matrix
谷歌地圖的輸出需要三個level:easy , medium , and limited
ground truth是兩個level:easy or limited
為優化該模型,需要橫梁錯誤的危害性,比如實際上是limited預測為medium和實際是easy預測為limited相比較。
基于這個問題,定義了獎勵矩陣和懲罰函數:
對錯誤的預測懲罰系數很大。預測不確定時,一般輸出medium。
模型一般采用medium,直到確定性程度超過差異。
6.2 Loss function
對于以下公式我的理解:x是一個實例的向量,y是其對應的真實label,y^表示預測的label。比如西瓜x實際上是好瓜的損失值為【(預測西瓜x是壞瓜的概率)乘上(實際是好瓜,預測是壞瓜的獎懲度)】加上【(預測西瓜x是好瓜的概率)乘上(實際是好瓜,預測是好瓜的獎懲度)】
6.3 Single-layer regression
基于ground truth和獎勵矩陣訓練出一個標準單層多類回歸(single-layer multiclass regression)機器學習模型,其目的是最小化損失函數。
該模型的簡單性體現在以下幾個優點:
- 其行為機制很容易被理解,往往對訓練數據中的噪音有彈性(resilient)。當數據來自眾包復雜響應變量(如停車難易程度)時,這是一個有用的屬性。
- 使模型有可解釋性,方便測量每一個特征的contribution
6.4 Feedforward deep neural network model
6.3的備用模型:構建了一個有兩個隱藏層(分別為20和10個隱藏單元)的DNN模型,其激活函數采用的ReLU,損失函數用的6.2節定義的,使用AdaGrad來優化。
7 EVALUATION AND RESULTS
這一部分模型性能測試,目標是了解所提取特征和模型架構的性能,并且研究出地理性概括(geographical generalization)。因此,以下是SF海灣地區的測試結果,還有在其他地區測試的性能,并用相同的數據做了消融模型(ablated model)。
7.1 Examples of model output
在任何時間地點對停車難度的估計。如下圖,可以看出周一上午比晚上停車要難,周六晚上比上午停車難。
7.2 Balanced normalized rewards (BNR)
停車困難因城市而異。一些城市比其他城市更難停放,并且此結果是在我們的調查中對應于easy和limited的不同分布。為了比較可能具有不同標簽分布的城市的模型性能,我們在將地面真實數據分布重新平衡為相等數量的easy實例和limited實例之后,報告了我們的系統(根據表1–6.1節)獲得的收益。為了便于解釋,我們還報告了每個評估實例的平均獎勵,將得出的數量稱為平衡標準化獎勵(BNR)。 定義如下:
BNR=12?reward(easy)#easysamples+12?reward(limited)#limitedsamplesBNR=\frac{1}{2}·\frac{reward(easy)}{\# easy samples}+\frac{1}{2}·\frac{reward(limited)}{\# limited samples}BNR=21??#easysamplesreward(easy)?+21??#limitedsamplesreward(limited)?
7.2.1 Relative BNR
將6.3節在SF海灣地區交叉檢驗的單層模型作為baseline model B,將其他模型M的相對BNR定義為BNR(M)- BNR(B):要評估的模型的BNR與baseline的BNR之間的差。以下各節中的所有評估結果均使用相對BNR作為模型比較的度量。該度量報告與baseline相比,每個(平衡)實例模型M獲得多少額外獎勵。
7.3 Power of individual feature families(單個特征的影響度)
這部分評估第五部分所提出特征的power。使用來自SF灣地區的訓練數據。我們首先在所有特征上訓練baseline model B。對于每類特征F,我們僅使用該類特征就可以在相同數據上訓練一個單獨的模型MFM_FMF?。表2顯示了與模型B相比,每個模型MFM_FMF?的相對BNR變化。應該理解如下:第一行顯示,僅停車距離功能比完整模型M少獲得0.069的BNR。 根據此表,停車距離,附近和偏離時間特征似乎是最強大的獨立特征,而單調性是最弱的特征。
7.4 Ablation analysis of feature families
類似于7.3,測試數據都是SF灣數據,用所有特征訓練一個baseline model B,然后用除了特征F的其余特征訓練處模型M(?F)M_{(-F)}M(?F)?。
從上表中可以看出,沒有parking distance這個特征訓練出來的模型比baseline訓練出來的少0.018。Distance, vicinity和deviation times是最有影響力的獨立特征。
7.5 DNN performance and power to generalize
考慮兩層前饋DNN模型。仍然用SFbay data訓練模型,此外比較了基準單層模型B和兩層模型M應用于全球其他四個城市的評估數據的結果。如下表可以看出在SF Bay area,兩種模型的結果特別接近,但是對于新城市,DNN雙層模型要比單層模型要好一些。
7.6 Cross-city generalization vs. local training(跨城市)
這一部分仍然討論在SFBay地區訓練的兩層DNN模型的性能,將該模型轉移到其他城市,用目標城市的數據訓練出的模型與本地模型(SFBay)做對比。表5顯示了在SFBay上訓練的DNN模型的相對BNR,與根據目標城市的數據訓練的相同體系結構的相對BNR相比。
總結
以上是生活随笔為你收集整理的【Hard to Park】Estimating Parking Difficulty at Scale的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新版标准日本语初级_第二课
- 下一篇: 怎样使用PDF编辑器删除多余页面