白话空间统计二十三回归分析番外:残差可视化
生活随笔
收集整理的這篇文章主要介紹了
白话空间统计二十三回归分析番外:残差可视化
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
對于可視化來說,GIS有先天的優勢……俺們天生就是畫地圖的,不過首先要限于可空間化的情況下……如果要分析的數據非空間數據,結果也沒有空間化的可能,那么就涼拌了。
不過大家放心啦,作為微信平臺里面專門講空間分析和空間統計的公眾號:蝦神daxialu,老夫是不會讓這種事情發生的……所以今天雖然還是講回歸分析,那么我也要弄成帶有空間數據的回歸可視化。
首先,還是用山東的數據吧……首先挑選了五個維度,回歸因變量選擇財政收入,自變量選擇工業總產值,消費品零售額,總出口以及固定資產投資,然后進行一元線性回歸:
進行回歸之后,發現全是正向影響因素,然后進行一下VIF檢驗:
根據經驗公式,超過11的話,就表示存在嚴重的多重共線性,而這里計算出來的都在4一下,表示選擇的這些變量之間不存在多重共線性,回歸的結果是可信的。
好了,上面的計算部分有不是今天的重點,下面開始對回歸分析的結果進行可視化。
首先進行四個自變量系數的可視化,一般來說,系數越大的,表示貢獻度越大,可視化的方式用R語言里面的ggplot2這個神包:
四個維度里面工業總產值對財政收入的貢獻度最低……總出口的貢獻度最高,從這里可以看出來,我國所謂的經濟三架馬,投資、消費、出口,出口效果果然還是最好的……而工業總產值,對地方財政的收入,基本呵呵呵呵……
下面來看看另外一個重要數據,就是殘差,先進性殘差的圖表可視化:
好吧……山東137個縣區,平鋪出來之后,不知道大家是啥感覺,反正蝦神看完之后是這樣的:
所以,現在可以看出來,使用空間可視化的重要了……下面進入空間可視化階段……什么?你說用ArcGIS,好吧,雖然這個是蝦神的老本行,但是這次我想先用R語言來把這事干了。(另外,這篇文章能算leaflet的番外篇么)。
先看看效果:
雖然正向殘差少于負項殘差(正向62個,負向75個),但是因為正向部分的極差大于負向,所以整個地圖的主色調都是偏向綠色。現在來修正一下整個地圖的風格。
我們要看殘差的話,不管是正向殘差還是負向殘差,都是殘差,所以我們先進性一個絕對值化,把所有數據都取絕對值,那么整個地圖的風格就變成這樣了:
這樣看來,大部分的殘差,都比較少(當然少啊……R-squared都到了0.8+ 了),也就說明這個回歸分析的可信度還是挺高的,且在地域上的差異不是特別大。
另外,在看看特別紅的那個部分……又是蝦神最喜歡的格林蘭(greenland)……當然,我們更習慣叫它青島。再次回到最初分析數據的維度:用工業總產值、零售額、固定資產和出口來對財政收入進行回歸,貢獻系數最大的是進出口,我大格林蘭,額,還是叫青島吧……我大青島作為世界知名港口城市(2015年世界排名第八),出口量自然不是吹的,但是為什么殘差最大的也在青島了,仔細看看,最紅這個地方,是青島市的嶗山區……好吧,回頭來看看數據:
百億的財政收入,貢獻系數最大的出口,只有49億……所以才會出現正向殘差最大(正向殘差表示預測值太低了)。那么從數據上可以得到這樣一個結論:嶗山區的財政收入,有其他因素的支持。(猜也猜出來了啊……作為國內旅游圣地的嶗山,自然第三產業里面最賺錢的旅游啊!)
如果有用過ArcGIS 中空間統計工具的OLS工具的話, 發現分析完成了之后會給出一個與標準差的倍數對比的可視化圖出來(以標準差為基準,離標準差越遠,表示殘差越大),從這種可視化結果,可以更清晰的看出殘差的分布。那么下面用R來實現這個功能:
分析完之后,發現負殘差最大的兩個城市,分別是煙臺市的福山區和淄博市的張店區:
負向殘差表示預測值太高,實際值遠遠小于預測值(高估),來看看這兩個城市的數據:
先看張店區,只有15億的出口,但是有70多億的財政收入,也就說明,要么整體系數中出口的系數,對張店區的貢獻估計不對,要么像嶗山一樣,有其他的因素。
然后看福山區:153億的出口……好吧,幾乎除青島以外,在山東一騎絕塵了,但是財政收入也只有109億,說明有其他的負向因素影響了他的財政收入。
正殘差最大的是青島市的嶗山區:
那么這些漂移太大的地區,就是所謂的分析的蠻點或者說異常區域,也有可能是我們下面需要重點研究的區域,如何進一步研究呢?那就要繼續所謂的地理加權回歸了。
待續未完。
最后,還是一樣,需要數據還腳本的,請發關注公眾號,獲取郵箱,并且發送一封有自我簡介的郵件索取。(能夠轉發推廣,更是功德無量……不愿意轉發的,發個紅包,蝦神也不介意……)
不過大家放心啦,作為微信平臺里面專門講空間分析和空間統計的公眾號:蝦神daxialu,老夫是不會讓這種事情發生的……所以今天雖然還是講回歸分析,那么我也要弄成帶有空間數據的回歸可視化。
首先,還是用山東的數據吧……首先挑選了五個維度,回歸因變量選擇財政收入,自變量選擇工業總產值,消費品零售額,總出口以及固定資產投資,然后進行一元線性回歸:
進行回歸之后,發現全是正向影響因素,然后進行一下VIF檢驗:
根據經驗公式,超過11的話,就表示存在嚴重的多重共線性,而這里計算出來的都在4一下,表示選擇的這些變量之間不存在多重共線性,回歸的結果是可信的。
好了,上面的計算部分有不是今天的重點,下面開始對回歸分析的結果進行可視化。
首先進行四個自變量系數的可視化,一般來說,系數越大的,表示貢獻度越大,可視化的方式用R語言里面的ggplot2這個神包:
四個維度里面工業總產值對財政收入的貢獻度最低……總出口的貢獻度最高,從這里可以看出來,我國所謂的經濟三架馬,投資、消費、出口,出口效果果然還是最好的……而工業總產值,對地方財政的收入,基本呵呵呵呵……
下面來看看另外一個重要數據,就是殘差,先進性殘差的圖表可視化:
好吧……山東137個縣區,平鋪出來之后,不知道大家是啥感覺,反正蝦神看完之后是這樣的:
所以,現在可以看出來,使用空間可視化的重要了……下面進入空間可視化階段……什么?你說用ArcGIS,好吧,雖然這個是蝦神的老本行,但是這次我想先用R語言來把這事干了。(另外,這篇文章能算leaflet的番外篇么)。
先看看效果:
雖然正向殘差少于負項殘差(正向62個,負向75個),但是因為正向部分的極差大于負向,所以整個地圖的主色調都是偏向綠色。現在來修正一下整個地圖的風格。
我們要看殘差的話,不管是正向殘差還是負向殘差,都是殘差,所以我們先進性一個絕對值化,把所有數據都取絕對值,那么整個地圖的風格就變成這樣了:
這樣看來,大部分的殘差,都比較少(當然少啊……R-squared都到了0.8+ 了),也就說明這個回歸分析的可信度還是挺高的,且在地域上的差異不是特別大。
另外,在看看特別紅的那個部分……又是蝦神最喜歡的格林蘭(greenland)……當然,我們更習慣叫它青島。再次回到最初分析數據的維度:用工業總產值、零售額、固定資產和出口來對財政收入進行回歸,貢獻系數最大的是進出口,我大格林蘭,額,還是叫青島吧……我大青島作為世界知名港口城市(2015年世界排名第八),出口量自然不是吹的,但是為什么殘差最大的也在青島了,仔細看看,最紅這個地方,是青島市的嶗山區……好吧,回頭來看看數據:
百億的財政收入,貢獻系數最大的出口,只有49億……所以才會出現正向殘差最大(正向殘差表示預測值太低了)。那么從數據上可以得到這樣一個結論:嶗山區的財政收入,有其他因素的支持。(猜也猜出來了啊……作為國內旅游圣地的嶗山,自然第三產業里面最賺錢的旅游啊!)
如果有用過ArcGIS 中空間統計工具的OLS工具的話, 發現分析完成了之后會給出一個與標準差的倍數對比的可視化圖出來(以標準差為基準,離標準差越遠,表示殘差越大),從這種可視化結果,可以更清晰的看出殘差的分布。那么下面用R來實現這個功能:
分析完之后,發現負殘差最大的兩個城市,分別是煙臺市的福山區和淄博市的張店區:
負向殘差表示預測值太高,實際值遠遠小于預測值(高估),來看看這兩個城市的數據:
先看張店區,只有15億的出口,但是有70多億的財政收入,也就說明,要么整體系數中出口的系數,對張店區的貢獻估計不對,要么像嶗山一樣,有其他的因素。
然后看福山區:153億的出口……好吧,幾乎除青島以外,在山東一騎絕塵了,但是財政收入也只有109億,說明有其他的負向因素影響了他的財政收入。
正殘差最大的是青島市的嶗山區:
那么這些漂移太大的地區,就是所謂的分析的蠻點或者說異常區域,也有可能是我們下面需要重點研究的區域,如何進一步研究呢?那就要繼續所謂的地理加權回歸了。
待續未完。
最后,還是一樣,需要數據還腳本的,請發關注公眾號,獲取郵箱,并且發送一封有自我簡介的郵件索取。(能夠轉發推廣,更是功德無量……不愿意轉發的,發個紅包,蝦神也不介意……)
總結
以上是生活随笔為你收集整理的白话空间统计二十三回归分析番外:残差可视化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ArcGIS server如何将自己的小
- 下一篇: 企业邮箱:全球传书,使命必达