贝壳房价数据分析
目錄
?
項目內容
項目目的
房源數據爬取
數據清洗
數據分析+可視化
?
項目內容
?本案案例選擇貝殼網寧波地區的二手房房源信息進行分析
項目目的
1.寧波各區二手房數量與每平米房價分布情況
2.房屋結構概況
3.分析各因素對房價的影響(地區、戶型、朝向、裝修)
4.統計出現在標題中出現次數最多的詞是什么
?
?
房源數據爬取
1.全部代售房屋數據
爬取到的數據
數據清洗
1.刪除缺失值
使用篩選,篩選出戶型結構的空白值
全部選中刪除行
然后點擊列就可知道每列有多少的數值
?
2.將樓層中的數字提取出來
=MID(E2,FIND("共",E2)+1,FIND("層",E2,FIND("共",E2))-FIND("共",E2)-1)用此Excel公式將樓層數字提取取出以便后期分析,再將原列隱藏起來。
?
?
3.提取平均每平方米房價數據
clean函數用于刪除不能打印的換行符
=CLEAN(LEFT(I2,FIND("元",I2)-1))不過要注意的是unitprice_num這一列還不是數值格式,在Excel中靠右的才算數值格式。
轉換成數值格式過程:
(1)在其后面插入一列,然后復制該列,以值的格式粘貼到后面。
(2)選中該列,數據→分列→以“,”分隔
這樣便得到了靠右的數據
?
4.將房屋面積替換為可清洗的數值
?
數據分析+可視化
?
1、寧波各區二手房數量與每平米房價分布情況
(1)各地區二手房數量分布
從數量統計上來看,目前二手房市場上比較火熱的區域。鄞州區、北侖區和海曙區的二手房數量最多,基本都在2500套以上,畢竟是在人口比較集中的地區,需求也大。
?
(2)寧波地區每平米房價分布情況
由上圖可以看出,寧波地區的房單價大部分分布在1w-3w之間,寧波作為新一線城市房價增長的速度也越來越快。
?
2、房屋結構概況
(1)戶型結構的分布
我們發現只要少數幾種戶型的數量比較多,其余戶型的數量基本是個位數。所以,在這里我們將房子套數小于50的戶型歸為一類,命名為其他戶型。
寧波地區租房中房源最多的戶型是3室2廳型
?
(2)朝向分布
朝南房子最多,這樣符合大部分國內房子的朝向。
?
(3)房屋裝修情況
可以看到二手房當中,大部分都是已經精裝過的,說明大部分都是有居住過再轉手。
?
?
3、各因素對房價的影響
?
(1)寧波地區二手房總價浮動情況
可以看到寧波地區二手房,由于有相當一部分的異常值,導致整體分布不均勻,無法觀察到總體。
從房屋總價數據里面可以發現,平均的房價為230W,而這里最高的房價竟然達到了3100W,所以房屋總價數據中存在異常數據,這里處理的方法是將超過平均值3倍標準差的異常數據進行剔除,平均值為230,標準差為164,剔除房屋總價大于722的數據。
?
從上可以看出鄞州區和江北區的房價浮動情況最大,有75%都在180W以上。而寧海縣地區的房產浮動則最小,大部分在75w-200w之間。
(2)各地區平均房價對比
寧波地區房價最貴的為鄞州區,大約2.6萬/平。其次是江北區2.4萬/平,海曙區2.2萬/平,然后是鎮海區2萬/平,其他均第一2萬/平。
房屋總價和單價具有相關性,一般房總價越高,每平方米的價格也就越高。
寧海縣每平方米的價格比象山縣要高,而它的平均總價卻比象山縣的要低。這是因為寧海縣的房源信息只有5套,相比其他幾個地區統計量要少,沒有太多異常值的原因。
?
(3)裝修程度與價格對比
對于裝修程度與價格的箱型圖來看,精裝修的價格最高,其次是毛坯房。
?
(4)房屋朝向與價格的關系
從上圖可以發現只要朝向偏南或有朝南的,價格都會偏高,都在2W/米
?
?
4、統計出現在標題中出現次數最多的詞是什么
賣家為了能盡快的收儲房子一定會為自己的房子量身定做吸引人眼球的廣告詞,而這些廣告詞則能很好反映對于一套房子而言具備什么因素才能稱得上一個“筍盤”。戶型方正,精裝修,交通便利。拎包入住都是一套吸引人的房子所具備的特點。
詞云圖
代碼
import jieba import matplotlib.pyplot as plt from scipy.misc import imread from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator import numpy as np from PIL import Image text_from_file=open('title.txt', 'r', encoding='utf-8').read() Word_spilt_jieba = jieba.cut(text_from_file, cut_all=False) word_space = ' '.join(Word_spilt_jieba) #print(word_space) # 圖片背景模板 image=np.array(Image.open('timg.jpg'))my_wordcloud = WordCloud(scale=4,# 設置背景顏色background_color="white",# 設置最大顯示的詞云數max_words=100,# 這種字體都在電腦字體中,一般路徑font_path='C:\Windows\Fonts\simfang.ttf',mask=image,# 設置字體最大值max_font_size=100,# 設置有多少種隨機生成狀態,即有多少種配色方案 ).generate(word_space)plt.imshow(my_wordcloud) plt.axis('off') plt.show() my_wordcloud.to_file('res.jpg')?
總結
- 上一篇: 码农笑话图片十张
- 下一篇: Android ADB 源码分析(三)