R语言:关于我国各地区消费水平的聚类分析
一、研究方法
此次研究中主要用的是系統(tǒng)聚類法與K-means聚類法。
系統(tǒng)聚類可以對(duì)變量或樣品進(jìn)行聚類,變量可以為連續(xù)或分離變量,提供的距離測(cè)量方法和結(jié)果表示也非常豐富。該方法的原理是先將所有n個(gè)變量或觀測(cè)看成不同的n類,然后將性質(zhì)最接近的兩類合并為一類;再?gòu)倪@n-1類中找到最接近的兩類加以合并,以此類推,直到所有的變量或觀測(cè)被合為一類。
K-means聚類需要先隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心。然后計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中心。聚類中心以及分配給它們的對(duì)象就代表一個(gè)聚類。一旦全部對(duì)象都被分配了,每個(gè)聚類的聚類中心會(huì)根據(jù)聚類中現(xiàn)有的對(duì)象被重新計(jì)算。
二、實(shí)證分析
數(shù)據(jù)來(lái)源
地區(qū)居民消費(fèi)水平差異的測(cè)度方法有單一指標(biāo)法和綜合指標(biāo)法2種方法.居民消費(fèi)水平不僅僅體現(xiàn)在人均消費(fèi)性支出等單一指標(biāo),居民生活消費(fèi)的各個(gè)具體指標(biāo)等也是居民消費(fèi)水平的重要體現(xiàn).因此,文章選擇綜合法分析我國(guó)城鎮(zhèn)居民消費(fèi)水平的差異,以我國(guó)31個(gè)省市為研究對(duì)象,以中國(guó)統(tǒng)計(jì)年鑒2005年的各地區(qū)城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ),選取食品、衣著、家庭設(shè)備用品及服務(wù)、醫(yī)療保健、交通和通信、教育文化、居住娛樂(lè)服務(wù)、雜項(xiàng)商品和服務(wù)等8個(gè)方面的指標(biāo),構(gòu)建聚類分析模型。
模型構(gòu)建
數(shù)據(jù)文件的建立
導(dǎo)入數(shù)據(jù)并查詢數(shù)據(jù)結(jié)構(gòu)
根據(jù)上圖可以看出此次聚類的數(shù)據(jù)結(jié)構(gòu),除“地區(qū)”數(shù)據(jù)之外,其余數(shù)據(jù)全為數(shù)值型數(shù)據(jù)
匯總變量信息
由上圖可以看出各個(gè)變量的最小值,第一四分位數(shù),中位數(shù),均值,第三四分位數(shù)與最大值。
數(shù)據(jù)預(yù)處理
需要提取聚類的變量
由上圖可以看到此次需要用到的聚類變量。
判斷是否存在缺失值
由上圖可以看出此次選取的數(shù)據(jù)不存在缺失值,因此不需要在進(jìn)行缺失值處理,但需要進(jìn)一步判斷是否存在較多的異常值
判斷是否存在異常值
由上圖各變量的折線圖可以看出各個(gè)變量變化較為平穩(wěn),無(wú)較大的波動(dòng)和異常值情況。
由各變量箱線圖可以看出,此次選用的數(shù)據(jù)存在部分的異常值,但異常值較少,可以接受并進(jìn)行聚類分析。
數(shù)據(jù)挖掘
系統(tǒng)聚類:
通過(guò)計(jì)算變量間的“歐氏距離”,利用“重心法”計(jì)算觀測(cè)點(diǎn)與小類間的距離,進(jìn)行系統(tǒng)聚類。
上圖為系統(tǒng)聚類的譜系圖,由譜系圖可以看出分三類比較合適,其中,上海、廣東、北京、浙江地區(qū)為第一類;海南、云南、安徽、陜西、內(nèi)蒙古、吉林、甘肅、新疆、河北、青海、寧夏、河南、山西、黑龍江、湖北、江西、貴州、山東、湖南、遼寧、廣西、四川、天津、福建、江蘇、重慶地區(qū)為第二類;西藏地區(qū)為第三類。
由上圖可以看出隨著聚類數(shù)目的不斷減少,最小類間距離不斷增大。當(dāng)聚類數(shù)目達(dá)成3類之后,最小類間距離的變化幅度很大,說(shuō)明類間的差異較大,不應(yīng)再繼續(xù)合并。所以,根據(jù)碎石圖粗略判斷聚成3類較為合適
通過(guò)計(jì)算可以的出聚類為三類,第一類為4個(gè)地區(qū),第二類為26個(gè)地區(qū),第三類為1個(gè)地區(qū)。
上圖為聚類的聚類解,可以看出系統(tǒng)聚類將數(shù)據(jù)分為三類以及各地區(qū)的類別。
數(shù)據(jù)解讀:
在系統(tǒng)聚類分析中,將數(shù)據(jù)分為了3類,各類樣本量依次為4,26,1。第一類地區(qū)消費(fèi)支出最大,其次為第二類,第三類地區(qū)消費(fèi)支出最少。
即第一類總體消費(fèi)區(qū)間為(11809.87,13773.41),第二類總體消費(fèi)區(qū)間為(5928.79,9653.26),第三類總體消費(fèi)為8617.11。
K-means聚類:
經(jīng)過(guò)初步的系統(tǒng)聚類可以得出將數(shù)據(jù)分為三類,為了更地對(duì)比兩種聚類方法的差異,在進(jìn)行K-means聚類時(shí),將初步指定聚類個(gè)數(shù)為3類。
通過(guò)K-means聚類可以得出將數(shù)據(jù)分為三類,第一類為4個(gè)地區(qū),第二類為5個(gè)地區(qū),第三類為22個(gè)地區(qū)。
上圖的數(shù)據(jù)為聚類的結(jié)果,可以看出每一個(gè)變量的聚類中心。
上圖為聚類的聚類解,可以看出K-means聚類將數(shù)據(jù)分為三類以及各地區(qū)的類別。
上圖為各類聚類變量均值的變化折線圖,可以從圖中看出第三類地區(qū)的消費(fèi)水平小于第二類地區(qū)小于第一類地區(qū),說(shuō)明我國(guó)東部沿海地區(qū)以及少數(shù)中西部地區(qū)的消費(fèi)水平較高,而大部分中西部地區(qū)的經(jīng)濟(jì)消費(fèi)水平較低,存在一定的貧富差距。
數(shù)據(jù)解讀:
在K均值聚類分析中,將數(shù)據(jù)分為了3類,各類樣本量依次為4,5,22。第一類地區(qū)消費(fèi)支出最大,其次為第二類,第三類地區(qū)消費(fèi)支出最少。
即第一類總體消費(fèi)區(qū)間為(11809.87,13773.41),第二類總體消費(fèi)區(qū)間為(8617.11,9653.26),第三類總體消費(fèi)區(qū)間為(5928.79,7504.99)。
雖然系統(tǒng)聚類與K-Means聚類都將數(shù)據(jù)劃分為三類,所劃分的地區(qū)卻完全不同,這是兩種聚類方法原理上的差異所導(dǎo)致的。因此,在數(shù)據(jù)分析過(guò)程中采用不同方法進(jìn)行反復(fù)研究是非常必要的。
四、結(jié)論
此次研究利用了東中西部城鎮(zhèn)居民統(tǒng)計(jì)數(shù)據(jù),實(shí)證分析了經(jīng)濟(jì)體制改革對(duì)不同地區(qū)居民消費(fèi)行為的影響,結(jié)論是經(jīng)濟(jì)體制改革對(duì)中西部地區(qū)城鎮(zhèn)居民消費(fèi)行為影響明顯,且影響程度從東到西逐漸減弱。隨著消費(fèi)水平的提高各省市在反映生活水平高低的重要指標(biāo)食品支出方面雖然在總量上呈下降趨勢(shì),但對(duì)于總消費(fèi)支出的比重卻呈不斷上升趨勢(shì),在衣著、居住方面的支出也有相同的變化趨勢(shì);在家庭設(shè)備、醫(yī)療保健、交通通信、娛樂(lè)文教等方面的支出無(wú)論是總量還是比重都呈現(xiàn)出不斷下降的趨勢(shì)。由此可以看出,隨著經(jīng)濟(jì)水平和消費(fèi)水平的不斷提高,人們不僅物質(zhì)生活質(zhì)量不斷提高,而且更加注重精神文化生活方面的消費(fèi),再保證生存的基礎(chǔ)上,更注重發(fā)展型和享受型消費(fèi),消費(fèi)結(jié)構(gòu)逐漸趨向合理化。我國(guó)居民總體消費(fèi)水平還不高,中西部地區(qū)的大部分省市消費(fèi)水平仍處于較低水平。
總結(jié)
以上是生活随笔為你收集整理的R语言:关于我国各地区消费水平的聚类分析的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 竞赛图 计算机网络 应用题,我校学子获2
- 下一篇: mac环境下node.js和phoneg