滴滴数据挖掘竞赛题目
生活随笔
收集整理的這篇文章主要介紹了
滴滴数据挖掘竞赛题目
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
賽題詳情
在出行問題上,中國市場人數多、人口密度大,總體的出行頻率遠高于其他國家,這種情況在大城市尤為明顯。然而,截至目前中國擁有汽車的人口只有不到10%,這意味著在中國人們的出行更加依賴于出租車、公共交通等市場提供的服務。另一方面,滴滴出行占領了國內絕大部分的網絡呼叫出行市場,面對著巨大的數據量以及與日俱增的數據處理需求。截至目前,滴滴出行平臺日均需處理1100萬訂單,需要分析的數據量達到50TB,路徑規劃服務請求超過90億。面對如此龐雜的數據,我們需要通過不斷升級、完善與創新背后的云計算與大數據技術,從而保證數據分析及相關應用的穩定,實現高頻出行下的運力均衡。供需預測就是其中的一個關鍵問題。供需預測的目標是準確預測出給定地理區域在未來某個時間段的出行需求量及需求滿足量。調研發現,同一地區不同時間段的訂單密度是不一樣的,例如大型居住區在早高峰時段的出行需求比較旺盛,而商務區則在晚高峰時段的出行需求比較旺盛。如果能預測到在未來的一段時間內某些地區的出行需求量比較大,就可以提前對營運車輛提供一些引導,指向性地提高部分地區的運力,從而提升乘客的整體出行體驗。| training_set.tar.gz | .tar.gz(600MB) | 下載數據 |
| test_set.tar.gz | .tar.gz | 下載數據 |
定義及評估標準
1. 問題定義將一個城市劃分為n個互不重疊的正方形區域D={d1,d2,?,dn?},將每一天的24小時劃分為144個10分鐘長的時間片t1,t2,?,t144。
對于區域di,在時間片tj,有rij個乘客發單,有aij個司機成功應答了aij次發單。
對于區域di,在時間片tj,定義需求demandij=rij,供給supplyij=aij,則有供需缺口gapij:gapij?=?rij?-?aij
給定每個區域在時間片tj,tj-1...的各項數據,預測gapi,j+1, ?di∈D。
以MAE作為最終的評價指標:MAE越小越好。
| 區域ID | string | 1,2,3,4 (與區域映射ID一致) |
| 時間片 | string | 2016-01-23-1(即2016年1月23日第1個時間片,時間片是將每天的時間按10分鐘間隔劃分到1-144個片中) |
| 預測值 | double | 6.0 |
數據形式
訓練集中給出M市2016年連續三周的數據信息,需預測M市第四周和第五周中某五天的某些時間段的供需。測試集中給出了每個需預測的時間片的前半小時的數據信息,具體需預測的時間片見說明文件(說明文件含在數據集下載包內)。 具體數據如下,其中訂單信息表、天氣信息表和POI信息表為數據庫中直接的表信息,而區域定義表、擁堵信息表是由數據庫中其他表衍生的信息。 訂單信息表| order_id | string | 訂單ID | 70fc7c2bd2caf386bb50f8fd5dfef0cf |
| driver_id | string | 司機ID | 56018323b921dd2c5444f98fb45509de |
| passenger_id | string | 用戶ID | 238de35f44bbe8a67bdea86a5b0f4719 |
| start_district_hash | string | 出發地區域哈希值 | d4ec2125aff74eded207d2d915ef682f |
| dest_district_hash | string | 目的地區域哈希值 | 929ec6c160e6f52c20a4217c7978f681 |
| Price | double | 價格 | 37.5 |
| Time | string | 訂單時間戳 | 2016-01-15 00:35:11 |
| district_hash | string | 區域哈希值 | 90c5a34f06ac86aee0fd70e2adce7d8a |
| district_id | string | 區域映射ID | 1 |
| district_hash | string | 區域哈希值 | 74c1c25f4b283fa74a5514307b0d0278 |
| poi_class | string | POI類目及其數量 | 1#1:41 2#1:22 2#2:32 |
| district_hash | string | 區域哈希值 | 1ecbb52d73c522f184a6fc53128b1ea1 |
| tj_level | string | 不同擁堵程度的路段數 | 1:231 2:33 3:13 4:10 |
| tj_time | string | 時間戳 | 2016-01-15 00:35:11 |
| Time | string | 時間戳 | 2016-01-15 00:35:11 |
| Weather | int | 天氣 | 7 |
| temperature | double | 溫度 | -9 |
| PM2.5 | double | pm25 | 66 |
總結
以上是生活随笔為你收集整理的滴滴数据挖掘竞赛题目的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP通用模型decaNLP诞生,一个模
- 下一篇: 滴滴算法大赛算法解决过程 - 拟合算法