白话空间统计十六:增量空间自相关
遇上瓶頸……所以進來更新稍微有點慢了……大家見諒
點數據的密度計算,是一個很常用的分析方式,在計算密度的時候,最令人頭痛的是如何去確定密度的距離,也就是密度收集區域的半徑,那么從這句話看,也就知道我們這篇文章是干嘛的了。
?
距離,又見距離!
?
不同的情況下,分析空間數據對使用的距離是非常敏感的。對于不同的分析,使用的距離也是不同的。比如你要計算人的活動區域熱點,步行的話,一般不會超過3公里,而騎自行車,就變成了5-10公里了。
?
所以在做類似熱點分析或者密度分析的時候,選擇一個合適的距離,非常重要的事情。
?
那么怎么選擇一個合適的距離的?如果你以前這樣問蝦神,蝦神我會告訴你一個蝦神的獨門絕技,那就是——瞎猜……
?
好吧……既然蝦神的絕技被破,我們只能用這個所謂的“增量空間自相關”來對距離進行探索了。
?
首先從名稱上看,這個神奇的工具首先是用來計算空間自相關的,有關空間自相關的解釋,請參考白話空間統計的第一話,講的就是這個空間統計學里面的理論基礎概念。
?
當然,空間相關性涉及到各種指數,比如莫蘭指數、P值、Z得分神馬的,大家有興趣的話去翻以前的文章(知道什么叫萬丈高樓平地起了吧……基礎概念不過關,后面就只能看圖看熱鬧了。)
?
好吧,我知道有的同學記不住了,這里來復習一下,通常來說,莫蘭指數是一個有理數,經過方差歸一化之后,它的值會被歸一化到-1.0——1.0之間。如下圖:
?
然后自然要看聚類或者離散的程度了,老規矩,Z得分出馬,Z得分的概念,詳細的說明也請去翻歷史消息,這里來一張圖片簡單的復習一下:
基礎內容復習完了,下面進入具體的算法說明:
?
這個算法其實與上一篇文章講的多距離空間聚類方法很像,就是通過不同的距離進行迭代計算,然后對計算出來的值進行比較,最后給出迭代計算結果的建議。
?
過程與多距離聚類計算很像,但是也有不同的地方。首先是在上一個方法計算的是,可以忽略每個點上面的屬性值(當然你可以設定權重來進行計算),但是在增量空間自相關上面,對要素的屬性數據是一定需要的,否則你就沒辦法確定是否是隨機結果了。對比如下:
?
所以,如果你的數據分析,只關心空間位置,那么實際上沒必要使用這個工具,用多距離聚類分析就行了,但是如果你關注的除了空間位置以外,還需要關心數據屬性的話,就有必要采用這個工具了。另外需要說明的是,參與計算的屬性值,一般是數字類型的值。
?
看下面這個例子:
我們手上有一份上海市停車場的數據,大約有2900多條,數據描述如下:
?
我們現在要研究他們的空間分布熱點以及聚集度情況,并且以價格price字段作為他們的聚類屬性約束,從空間上和價格上進行聚類研究。
?
最簡單的方法就是做一個核密度計算,以價格為高斯核函數的自變量帶入進行計算,如下:
?
好吧,既然瞎猜大法已經失效了,就啟動增量空間自相關工具算算好了,工具說明如下:
?
需要注意的是分析的區間,這個區間值如果不手動設置數據的話,系統會直接采用最小距離來計算,這樣如果你的數據有一些明顯的離群點的話,就會出現非常郁悶的結果。
?
我們先采用完全默認的參數,計算結果如下:
?
?
如果你選擇了生成pdf,還會生成一個PDF,內容如下:
?
主要是把上面的內容通過統計圖表的方式展現出來。
?
其中我們可以看見,有一個點,被特別加亮的標識了出來,這個就是系統計算出來的,認為這個峰值反映這份數據促進空間過程聚類最明顯的距離是多少。
?
那么下面通過計算出來的10個數據,進行一下核密度計算看看效果如何:
可以看見,對于全市范圍的計算,聚類效果最顯著的是搜索半徑5739的區域。
?
現在我們再來看看不對全市的數據進行分析,僅僅對黃浦區的數據進行分析,計算之后,出現了兩個峰值:
然后進行核密度計算:
其中,602和699,是兩個明顯的峰值,也就是表示在這兩個值,空間統計值是最顯著的。
?
所謂的聚類,指的是讓同類間差別最小,不同類之間差別最大,所以我們可以對比一下標成紅色的的兩個圖,602和699,他們明顯處于核密度曲線值變異的關鍵拐點上面,這也是我們使用這個工具,進行點數據分析之前進行探索時候的主要作用。
?
總結
以上是生活随笔為你收集整理的白话空间统计十六:增量空间自相关的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你不知道的分布式锁+分布式事务面试题
- 下一篇: brew彻底卸载mysql