新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]
CSDN的被爬蟲專用聲明:蝦神原創,公眾號\知乎:蝦神說D
轉發、轉載和爬蟲,請主動保留此聲明。
上次我們簡單的介紹了一下學渣莫蘭同學的逆襲之旅,夢想成為一個數學家的他最后陰差陽錯的成為了一個統計學家,所以蝦神不禁陷入沉思:
好了,不說數學了,我們今天繼續來說莫蘭指數。
我們先來看看莫蘭指數的原理。
先看看下面這樣一個屬性數據的相關分析圖,假設這是四個城市的房價數據——
當北京連續三個月上升的時候,石家莊也連續三個月上升,這樣我們就可以認為(在本次分析中)北京和石家莊的房價是正相關的,所以我們記為1。
同樣,北京上升的同時,太原連續三個月下降,就認為是負相關,記為-1。
北京上升,但是天津有升有降,那么這樣就可以他們之間是不相關,記為0
類推,西安,正相關,記為1。
屬性相關性的分析非常容易,那么到了空間自相關應該怎么辦呢?雖然莫蘭提出莫蘭指數的時候,所謂的地理學第一定律還沒有被發布(1950年,托布勒還在讀大學,莫蘭同學已經是牛津大學的講師了),但是莫蘭在隨機概率的研究中發覺,空間分布對動物種群研究的重要性,所以開創性的在相關性研究中,加入了空間相鄰的參數,如果加入空間關系,就會得到這樣一個空間權重關系:
之后,四個城市之間的空間權重矩陣就應該是:
那么,最簡單的對二者之間,做一個乘法,就得到這樣一個值(與北京的空間自相關):
可以看見,空間關系就兩種:相關 or 不相關,屬性有三種:正、負、無,所以乘積就得到三種情況:
這就是莫蘭指數的原理:屬性與空間關系的乘積,得到最終的空間上的相關性。空間關系在自相關分析里面,起到的作用就是判定是否有關系,空間上不相關,那么屬性再相關也沒有用。
在這個例子里面,北京被認為與太原有臨近關系,而他們的屬性又正好是負相關,所以空間加權之后,就認為是空間負相關,再按照空間分布模式的規則,兩個蹲在一起的,屬性不相似,那就是所謂的離散關系。
而北京與石家莊在空間上也有臨近關系,而且屬性相似,為正相關,所以加權之后被計算為空間自相關,在自己身邊有相似的伙伴,就是所謂的聚集模式。
下面我們來看看那莫蘭當年給莫蘭指數定義的計算公式:
好吧好吧,數學公式就不寫了,有興趣的同學見(以后可能會有的)黑話空間統計學算法篇里面的內容。我只是簡單說說莫蘭指數如何進行計算的基礎過程:
第一件事就是計算出所有要素之間的空間關系,形成空間關系矩陣,不過用矩陣來進行存儲的話,有足足50%+的浪費,所以所有的計算莫蘭指數的軟件,都用的稀疏矩陣來進行記錄的,比如上面那個矩陣,記錄的方式就是:
北京:天津、石家莊、太原
天津:北京、石家莊、太原
石家莊:北京、天津,太原
太原:北京、天津、石家莊
西安:(空)
然后以此對有關系的城市之間進行計算,因為莫蘭指數計算的是截面數據,所以不可能會出現多個時間片段的數據,單個數值之間,怎么進行相關性對比呢?答案就是用屬性值與平均數之間的差(離差)來進行判定。
總所周知,離差是衡量數據分布離散程度的一種非常有效的指標,所以莫蘭在這里用每個要素與相鄰要素的離差乘積,然后乘以空間關系系數,作為分子,然后用所有數據的離差平方和作為分母,計算出所有數據之間的離散程度來,接下去用總的要素數量除以所有空間關系權重的和,來作為總體系數權重,把二者相乘,就得到了結果,用公式表達就是:
好吧,我食言了……
從這個公式可以看出,每個要素會和與自身有空間臨近關系的要素進行計算——沒有臨近關系,比如上面示例里面的西安,空間相關系數為0,結果自然都是0了。
從這個數學公式上面看來,莫蘭同學當年的設計非常的精巧,蝦神這種數學學渣到現在讀到這個公式都覺得頗為驚艷,我們來感受一下這個公式的美:
假設所有的數值的平均數是10的話:
北京的數值是50
天津的數值是5
北京的離差就是40,而天津的離差就是-5,二者的乘積就是-200
那么如果:
北京的數值是50,
石家莊的數值是40,
北京的離差還是40,石家莊的離差就是30,二者離差的乘積就是1200。
換一個更小的數值的話:
比如太原的數值是5
石家莊的數值是3
二者的離差就是-5和-7,得到的乘積就是35,還是正值。
那么從這個算法我們可以看見,兩個值同時大于或者小于均值,就能得到正值,而被均值正好切開的兩個值,就會得到負值——與參與計算的數值與均值偏離越大,得到的結果的絕對值就越大,所以空間上有關系的,而且有彼此接近的數值,表達成了聚集分布,而反之亦然。
高值周邊聚集高值或者低值周邊聚集低值,都計算為正——表示為聚集,而高低值相互交錯,那么就會計算為負,表示為離散。如果有正有負,相互抵消為0,那么就表達為隨機。
而公式中的分子部分,是通過方差進行歸一化,因此最終該指數的值將落在 -1.0 到 +1.0 的區間內。
這就是可怕的數學家啊……天地為爐,造化為工,陰陽為炭,萬物為銅
讀懂了這個公式之后,給一張紙一支筆,就能夠手算了,不過十個八個要素,咬咬牙能算出,但是給你180個要素來計算,估計你就要抓瞎了,所以最簡單的方式,就是用現成的工具來實現,比如ArcGIS,所以下一章,我們看看在ArcGIS里面,如何利用現成的工具來進行莫蘭指數的計算。
(待續未完)
CSDN的被爬蟲專用聲明:蝦神原創,公眾號\知乎:蝦神說D
轉發、轉載和爬蟲,請主動保留此聲明。
總結
以上是生活随笔為你收集整理的新版白话空间统计(5):莫兰指数之计算详解[通俗易懂]的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: cad2014闪退的原因和解决方法(au
- 下一篇: ccid是什么意思(Usbccid)