统计学习导论 基于R应用——作业 3
?
7. 解:
(a)歐幾里德距離: |x| = sqrt( x[1]^2 + x[2]^2 + … + x[n]^2 )
所以計算結果是: 1.3、 2.2、 3.sqrt(10)、 4.sqrt(5)、 5.sqrt(2)、 6.sqrt(3)
(b) Green。最近的點 obs.5 的 Y 值作為預測結果。
(c) Red. 最近的點有 Y[2]=Red,Y[5]=Green,Y[6]=Red,計算出
Pr(Y=Red|X1=X2=X3=0)=2/3
(d) 小。 K 越小,光滑度越高,也就越非線性。所以 K 應該小。
9.解:
(a) 代碼:
> auto=read.csv("Auto.csv",header=T,na.strings="?")
> auto = na.omit(auto)
> fix(auto)
定量變量有: mpg, cylinders, displacement, horsepower, weight, acceleration, year。
定性變量: origin, name。
(b) 代碼:
> sapply(auto[, 1:7], range)
mpg cylinders displacement horsepower weight acceleration year
[1,] 9.0 3 68 46 1613 8.0 70
[2,] 46.6 8 455 230 5140 24.8 82
(c) 代碼:
> sapply(auto[, 1:7], mean)
> sapply(auto[, 1:7], sd)
(d) 代碼:
> newauto = auto[-(10:85),]
> sapply(newauto[, 1:7], range)
> sapply(newauto[, 1:7], mean)
> sapply(newauto[, 1:7], sd)
(e)代碼:
> attach(auto)
> cylinders=as.factor(cylinders)
> par(mfrow=c(2,2))
> plot(cylinders,mpg)
> plot(cylinders,horsepower)
> plot(horsepower,displacement)
> plot(weight,mpg)
分析:cylinders 為 4 時 mpg 最高, 然后 mpg 的值隨 cylinders 的增加或減少而遞減。
cylinders 為 4 時 horsepower 最低,然后 horsepower 的值隨 cylinders 的增加或減少
而遞增。 displacement 與 horsepower 存在正相關關系,而 mpg 與 weight 負相關。
(f)由( e)題討論結果,可以用 cylinders, horsepower,和 weight 等預測 mpg。
10.解:
(a)代碼:
> library(MASS)
> ?Boston
> dim(Boston)
[1] 506 14
(b)代碼:
> pairs(Boston)
分析:1)公路可達數 rad 明顯的可劃分為 24 條和小于 10 條。 2) tax 明顯的可分為
666 和小于 400。 3)由散點圖, nox, rm, age, dis 變量影響其他變量變化趨勢明顯。
4) crim 受其他變量影響變化明顯。
(c)代碼:
從 pairs(Boston)的結果來看, crim 和 age, dis, rad, tax, ptratio 有較大的相關性
> par(mfrow=c(3,3))
> plot(Boston$zn, Boston$crim)
> plot(Boston$indus, Boston$crim)
> plot(Boston$chas, Boston$crim)
> plot(Boston$age, Boston$crim)
> plot(Boston$dis, Boston$crim)
> plot(Boston$rad, Boston$crim)
> plot(Boston$tax, Boston$crim)
> plot(Boston$ptratio, Boston$crim)
> plot(Boston$black, Boston$crim)
分析:1)高人均犯罪率 crim 均分布在住宅比例 zn 接近 0 處。 2) 高人均犯罪率 crim
均分布在零售商比例 indus 在 17 左右。 3)近河處犯罪率高 4) 早于 1940 年建立的的
住宅比例 age 越高, 出現高犯罪率的可能越大 5) 距離五個上班區域的加權平均距離
dis 越低,高犯罪概率值越密集。 6) 公路可達數 rad 小于 10 時,越靠近 5 犯罪率越
高, 等于 24 時出現更高的犯罪率,且高犯罪率分布密集。 7)財產稅 tax 小于 500 時
犯罪率極低,達到 666 處且高犯罪率分布密集。 8)師生比略超出 20 時高犯罪率分布
密集,大于或小于此值處犯罪率極低。 9)黑人比例 black 在 0.63 左右犯罪率最低,
高犯罪率向兩側逐漸密集分布。
(d)代碼:
> par(mfrow=c(1,3))
> hist(Boston$crim[Boston$crim>1], breaks=25)
> hist(Boston$tax, breaks=25)
> hist(Boston$ptratio, breaks=25)
分析:1) 不會,高犯罪率的只有極少城鎮。 2) 3)師生比不高
(e)代碼:
> dim(subset(Boston, chas == 1))
[1] 35 14
(f)代碼:
> median(Boston$ptratio)
[1] 19.05
(g)代碼:
> t(subset(Boston, medv == min(Boston$medv)))
399 406
crim 38.3518 67.9208
zn 0.0000 0.0000
indus 18.1000 18.1000
chas 0.0000 0.0000
nox 0.6930 0.6930
rm 5.4530 5.6830
age 100.0000 100.0000
dis 1.4896 1.4254
rad 24.0000 24.0000
tax 666.0000 666.0000
ptratio 20.2000 20.2000
black 396.9000 384.9700
lstat 30.5900 22.9800
medv 5.0000 5.0000
> summary(Boston)
分析: 1) 第 399 個。2) 38.35180 0.0 18.10 0 0.6930 5.453 100.0 1.4896
24 666 20.2 396.90 30.59 5.0 。 3)犯罪率高,住宅用地比率低,零售商
業比例較高,不靠近河,氮氧化物濃度較高,住宅房間數中等, 早于 1940 年建立的
的住宅比例最高, 為 100%, 距離五個上班區域的加權平均距離較近, 交通發達,稅率
高,生師比較高, 黑人占比極高, 地位低的人群比例高
(h)代碼:
> dim(subset(Boston, rm > 7))
[1] 64 14
> dim(subset(Boston, rm > 8))
[1] 13 14
> summary(subset(Boston, rm > 8))
分析:犯罪率低,住宅用地比率高,零售商業比例更合理, 河,氮氧化物濃度更接近
中等水平,住宅房間數多,早于 1940 年建立的的住宅比例更高,距離五個上班區域
的加權平均距離更近,交通發達,稅率低,生師比低,黑人占比極高,地位低的人群
低
?
懶得整理,pdf版本http://pan.baidu.com/s/1nv16iG5
轉載于:https://www.cnblogs.com/butta/p/6401411.html
總結
以上是生活随笔為你收集整理的统计学习导论 基于R应用——作业 3的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hihocoder-1135-Magic
- 下一篇: 动态嵌套游标解决方案