空间数据挖掘与空间大数据的探索与思考(五)
生活随笔
收集整理的這篇文章主要介紹了
空间数据挖掘与空间大数据的探索与思考(五)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
如果按照互聯(lián)網(wǎng)所謂的大數(shù)據(jù)特點來說,GIS領(lǐng)域大部分的傳統(tǒng)數(shù)據(jù)都不算是實際意義上的大數(shù)據(jù)。
我國從各個方面來說,都是一個大國,所以有各種大國的幸福和苦惱,特別是對于我們做GIS的人來說。
比如地理國情普查,比如二調(diào),比如農(nóng)地確權(quán),960萬平方公里,十幾億人,生成的數(shù)據(jù)量都是極度龐大的,比如農(nóng)地確權(quán):
農(nóng)地確權(quán)是以農(nóng)戶為單位發(fā)證,以地塊為單位制作數(shù)據(jù)的,所以全國上來,預(yù)計超過15億個地塊(三至四億農(nóng)戶,戶均3-5個地塊)。
這種數(shù)據(jù)量,比之互聯(lián)網(wǎng),也不遑多讓,而且論數(shù)據(jù)的復(fù)雜程度,也不遑多讓:
但是,是不是互聯(lián)網(wǎng)意義上的大數(shù)據(jù)呢?
我的答案為:不是。
因為農(nóng)地確權(quán)數(shù)據(jù)缺少了互聯(lián)網(wǎng)大數(shù)據(jù)的一些特性,比如快速的生成、傳播、變化,比如低密度,比如易變性和變異性,比如非精確性的描述和分析(非精確性不代表不準確,而是代表了置信度區(qū)間),這樣就導(dǎo)致了這些數(shù)據(jù)可以認為是廣義上的大數(shù)據(jù),但是并非互聯(lián)網(wǎng)意義上的大數(shù)據(jù)。
而要談?wù)嬲ヂ?lián)網(wǎng)意義上的所謂空間大數(shù)據(jù)有哪些呢?我認為空間大數(shù)據(jù)與互聯(lián)網(wǎng)真正接壤的有兩大類。
第一類是遙感影像產(chǎn)品。
第二類是LBS信息,LBS就是基于位置的服務(wù),它由三個維度組成:
? 空間數(shù)據(jù),沒有空間數(shù)據(jù)就不能稱為基于位置的數(shù)據(jù)
? 時間數(shù)據(jù),如果沒有時間數(shù)據(jù),那么這個數(shù)據(jù)就是個靜態(tài)的數(shù)據(jù),失去了變化,也就成了死的數(shù)據(jù)。
? 唯一ID,當然還可以附加其他信息。
我們來看一下哪些是LBS信息。最狹義的LBS信息就是來源于類似GPS記錄信息,比如各種行車記錄儀、全站儀和智能手機等,這個數(shù)據(jù)會使用絕對的經(jīng)緯度信息來標識位置;
第二類是公交車的刷卡記錄,這份數(shù)據(jù)會告訴你在什么時間、坐的哪一趟車、從哪一站上車和哪一站下車,它沒有明確定位經(jīng)緯度坐標,但是可以明確站臺的信息,而站臺也是一種個位置,是通過站臺掛接唯一ID給出的
第三類LBS信息是電商物流日志信息,這一類信息沒有很詳細的位置描述,他的日志里面所記錄的位置,區(qū)域可能非常之大,但是不妨礙你對它的解讀和使用;
接下來一類LBS信息是微博、微信、足跡相片,這種社交數(shù)據(jù)。根據(jù)最新的統(tǒng)計,除去發(fā)布帶有確切位置的社交信息以外,還有最少三分之一以上數(shù)據(jù)能夠通過算法識別出所在的地理位置。
比如我現(xiàn)在在武大拍張武大校門口的相片發(fā)一條狀態(tài),就算沒有加上定位,那么通過那張相片就能識別我在什么位置。當然這種識別可能是很不精確的,也恰恰是這種不精確的識別,才更有價值。
如果說農(nóng)地確權(quán)數(shù)據(jù)的精確性是通過各種技術(shù)手段來保證的(比如測繪工程學(xué),數(shù)據(jù)質(zhì)量檢查,邏輯拓撲等),這種非精確性的獲取數(shù)據(jù)及其位置,才是未來計算機智能化發(fā)展的一個趨勢。
當然,還包括很多其他類的信息,比如氣象站點、智能電表、監(jiān)控攝像頭和設(shè)施傳感器等等。任何一類具有時間、空間和標識的信息,都是LBS信息。
這里多說幾句關(guān)于智能電表情況,這個概念是從德國開始的,在物理學(xué)上任何一種電器在接入電網(wǎng)時,會在電網(wǎng)上會發(fā)送一個信號,這個信號稱之為電流浪涌。就是斷路瞬間接入開路的時候,電流會發(fā)出一個波動,因為每一種電器接入電網(wǎng)的時候,功率和工作模式是不一樣的,比如微波爐和手機充電器在接入電網(wǎng)的時候,發(fā)送的信號波動肯定也是不一樣,所以這個電流浪涌稱為電器的指紋。通過這個電流浪涌的波動就知道家里面在什么時候用了什么電器。如果突然發(fā)現(xiàn)電器插入電流發(fā)送的信號和平常不太一樣,就會知道電器可能需要換了,這樣還可以把這個信息賣給電商,然后電商會給你寄微波爐的優(yōu)惠券,說你家的微波爐快要換了等等的。
我們再來看一下空間大數(shù)據(jù)可能會有一些什么樣的作用。這里有一個很簡單的分析案例,圖中每一個蜂窩網(wǎng)格都代表一個手機信號基站提供的服務(wù)區(qū),服務(wù)區(qū)內(nèi)綠色的點是手機,由此可以知道某一區(qū)域為哪些手機提供信號服務(wù)。
當某個服務(wù)區(qū)內(nèi)發(fā)生了某種案件,而當收集到足夠多的數(shù)據(jù),把她們做一個簡單的交集就會發(fā)現(xiàn),某一區(qū)域內(nèi)發(fā)生某種案件的時候,某一個(或者多個)手機信號會重復(fù)再重復(fù)出現(xiàn),那么持有這個手機的人可能就是嫌疑人。
? ??
當然,實際上案件的偵破并沒有這么簡單,可能你計算出來的結(jié)果只是一個巧合,或者有幾百幾千個信號源都符合這種規(guī)律怎么辦?所以數(shù)據(jù)分析實際上在這里給出的是一個非精確性的可能。
這些分析手段和技術(shù),并非是直接解決這類問題,而主要是提供另外一種思路,比如利用這種分析,能夠從若干嫌疑人中,篩選出符合條件的,進一步縮小偵查范圍。也有可能是抓獲了犯罪嫌疑人后,利用這種技術(shù),來進行驗證和舉證,減少冤假錯案的可能。而且目前在國際上,此類犯罪分析手段,已經(jīng)可以作為證據(jù)鏈的一部分,出現(xiàn)在法庭上,作為呈堂證供了。
當然,也有人說,能不能用這些手段,去預(yù)測某些事情的發(fā)生呢?答案當然是有可能,是僅僅是可能而已,真正數(shù)據(jù)分析對于預(yù)測給出來的是一個非常模糊的區(qū)間,比如下面這個例子:
我如果能夠完美的收集到每一滴水的位置,那么能否(精準的)預(yù)測下一滴水會落在什么地方呢?答案當然是否定的,因為不可控的因素太多了,所以最多能夠給出一個可能出現(xiàn)的區(qū)間答案。
但是,如果我完美的收集到了每一滴水的位置,那么一定能夠做到的,就是通過這些位置,反推出噴頭的位置。
我國從各個方面來說,都是一個大國,所以有各種大國的幸福和苦惱,特別是對于我們做GIS的人來說。
比如地理國情普查,比如二調(diào),比如農(nóng)地確權(quán),960萬平方公里,十幾億人,生成的數(shù)據(jù)量都是極度龐大的,比如農(nóng)地確權(quán):
農(nóng)地確權(quán)是以農(nóng)戶為單位發(fā)證,以地塊為單位制作數(shù)據(jù)的,所以全國上來,預(yù)計超過15億個地塊(三至四億農(nóng)戶,戶均3-5個地塊)。
這種數(shù)據(jù)量,比之互聯(lián)網(wǎng),也不遑多讓,而且論數(shù)據(jù)的復(fù)雜程度,也不遑多讓:
但是,是不是互聯(lián)網(wǎng)意義上的大數(shù)據(jù)呢?
我的答案為:不是。
因為農(nóng)地確權(quán)數(shù)據(jù)缺少了互聯(lián)網(wǎng)大數(shù)據(jù)的一些特性,比如快速的生成、傳播、變化,比如低密度,比如易變性和變異性,比如非精確性的描述和分析(非精確性不代表不準確,而是代表了置信度區(qū)間),這樣就導(dǎo)致了這些數(shù)據(jù)可以認為是廣義上的大數(shù)據(jù),但是并非互聯(lián)網(wǎng)意義上的大數(shù)據(jù)。
而要談?wù)嬲ヂ?lián)網(wǎng)意義上的所謂空間大數(shù)據(jù)有哪些呢?我認為空間大數(shù)據(jù)與互聯(lián)網(wǎng)真正接壤的有兩大類。
第一類是遙感影像產(chǎn)品。
第二類是LBS信息,LBS就是基于位置的服務(wù),它由三個維度組成:
? 空間數(shù)據(jù),沒有空間數(shù)據(jù)就不能稱為基于位置的數(shù)據(jù)
? 時間數(shù)據(jù),如果沒有時間數(shù)據(jù),那么這個數(shù)據(jù)就是個靜態(tài)的數(shù)據(jù),失去了變化,也就成了死的數(shù)據(jù)。
? 唯一ID,當然還可以附加其他信息。
我們來看一下哪些是LBS信息。最狹義的LBS信息就是來源于類似GPS記錄信息,比如各種行車記錄儀、全站儀和智能手機等,這個數(shù)據(jù)會使用絕對的經(jīng)緯度信息來標識位置;
第二類是公交車的刷卡記錄,這份數(shù)據(jù)會告訴你在什么時間、坐的哪一趟車、從哪一站上車和哪一站下車,它沒有明確定位經(jīng)緯度坐標,但是可以明確站臺的信息,而站臺也是一種個位置,是通過站臺掛接唯一ID給出的
第三類LBS信息是電商物流日志信息,這一類信息沒有很詳細的位置描述,他的日志里面所記錄的位置,區(qū)域可能非常之大,但是不妨礙你對它的解讀和使用;
接下來一類LBS信息是微博、微信、足跡相片,這種社交數(shù)據(jù)。根據(jù)最新的統(tǒng)計,除去發(fā)布帶有確切位置的社交信息以外,還有最少三分之一以上數(shù)據(jù)能夠通過算法識別出所在的地理位置。
比如我現(xiàn)在在武大拍張武大校門口的相片發(fā)一條狀態(tài),就算沒有加上定位,那么通過那張相片就能識別我在什么位置。當然這種識別可能是很不精確的,也恰恰是這種不精確的識別,才更有價值。
如果說農(nóng)地確權(quán)數(shù)據(jù)的精確性是通過各種技術(shù)手段來保證的(比如測繪工程學(xué),數(shù)據(jù)質(zhì)量檢查,邏輯拓撲等),這種非精確性的獲取數(shù)據(jù)及其位置,才是未來計算機智能化發(fā)展的一個趨勢。
當然,還包括很多其他類的信息,比如氣象站點、智能電表、監(jiān)控攝像頭和設(shè)施傳感器等等。任何一類具有時間、空間和標識的信息,都是LBS信息。
這里多說幾句關(guān)于智能電表情況,這個概念是從德國開始的,在物理學(xué)上任何一種電器在接入電網(wǎng)時,會在電網(wǎng)上會發(fā)送一個信號,這個信號稱之為電流浪涌。就是斷路瞬間接入開路的時候,電流會發(fā)出一個波動,因為每一種電器接入電網(wǎng)的時候,功率和工作模式是不一樣的,比如微波爐和手機充電器在接入電網(wǎng)的時候,發(fā)送的信號波動肯定也是不一樣,所以這個電流浪涌稱為電器的指紋。通過這個電流浪涌的波動就知道家里面在什么時候用了什么電器。如果突然發(fā)現(xiàn)電器插入電流發(fā)送的信號和平常不太一樣,就會知道電器可能需要換了,這樣還可以把這個信息賣給電商,然后電商會給你寄微波爐的優(yōu)惠券,說你家的微波爐快要換了等等的。
我們再來看一下空間大數(shù)據(jù)可能會有一些什么樣的作用。這里有一個很簡單的分析案例,圖中每一個蜂窩網(wǎng)格都代表一個手機信號基站提供的服務(wù)區(qū),服務(wù)區(qū)內(nèi)綠色的點是手機,由此可以知道某一區(qū)域為哪些手機提供信號服務(wù)。
當某個服務(wù)區(qū)內(nèi)發(fā)生了某種案件,而當收集到足夠多的數(shù)據(jù),把她們做一個簡單的交集就會發(fā)現(xiàn),某一區(qū)域內(nèi)發(fā)生某種案件的時候,某一個(或者多個)手機信號會重復(fù)再重復(fù)出現(xiàn),那么持有這個手機的人可能就是嫌疑人。
? ??
當然,實際上案件的偵破并沒有這么簡單,可能你計算出來的結(jié)果只是一個巧合,或者有幾百幾千個信號源都符合這種規(guī)律怎么辦?所以數(shù)據(jù)分析實際上在這里給出的是一個非精確性的可能。
這些分析手段和技術(shù),并非是直接解決這類問題,而主要是提供另外一種思路,比如利用這種分析,能夠從若干嫌疑人中,篩選出符合條件的,進一步縮小偵查范圍。也有可能是抓獲了犯罪嫌疑人后,利用這種技術(shù),來進行驗證和舉證,減少冤假錯案的可能。而且目前在國際上,此類犯罪分析手段,已經(jīng)可以作為證據(jù)鏈的一部分,出現(xiàn)在法庭上,作為呈堂證供了。
當然,也有人說,能不能用這些手段,去預(yù)測某些事情的發(fā)生呢?答案當然是有可能,是僅僅是可能而已,真正數(shù)據(jù)分析對于預(yù)測給出來的是一個非常模糊的區(qū)間,比如下面這個例子:
我如果能夠完美的收集到每一滴水的位置,那么能否(精準的)預(yù)測下一滴水會落在什么地方呢?答案當然是否定的,因為不可控的因素太多了,所以最多能夠給出一個可能出現(xiàn)的區(qū)間答案。
但是,如果我完美的收集到了每一滴水的位置,那么一定能夠做到的,就是通過這些位置,反推出噴頭的位置。
所以,很多小說里面,對于智者的解釋就是:足夠多的情報與信息,加上合理以及精確的推理計算,就能做出近似乎預(yù)言一般的判斷。
總結(jié)
以上是生活随笔為你收集整理的空间数据挖掘与空间大数据的探索与思考(五)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: XiaoHu日志 5/29~5/30
- 下一篇: 广电总局重拳出击全面清理PPLive、P