R语言实现双变量分析教程
雙變量分析表示分析兩個變量。
雙變量分析是為了分析兩個變量之間的關系,與單變量、多變量分析對應。主要有三種方式進行雙變量分析。
下面使用測試數據作為示例來演示三種方法,供包括兩個變量,HourStudied表示學習時間,ExamScore為測試成績。
exData <- read.csv("csv/exData.csv") exData# HourStudied ExamScore # 1 1 75 # 2 1 66 # 3 1 68 # 4 2 74 # 5 2 78 # 6 2 72 # 7 3 85 # 8 3 82 # 9 3 90 # 10 3 82 # 11 3 80 # 12 4 88 # 13 4 85 # 14 5 90 # 15 5 92 # 16 6 94 # 17 6 94 # 18 6 88 # 19 7 91 # 20 8 96散點圖
散點圖以可視化方式進行雙變量分析,其中一個變量作為x軸變量,另一個作為y軸變量。下面示例對上面示例數據畫散點圖:
plot(exData$HourStudied, exData$ExamScore, main = "HourStudied vs. ExamScore", xlab = "HourStudied", ylab = "ExamScore" )# 增加擬合線 abline(lm(ExamScore~HourStudied, exData))通過散點圖可以清晰看到兩個變量之間有正相關關系,即隨著學習時間增加,考試成績也響應增加。
相關系數
相關系數是另一個雙變量分析的方法。最常用的計算方法為皮爾遜相關系數,用于衡量兩個變量之間的線性關系,它的值在1~-1之間:
- -1 表示完全負相關
- 0 表示完全沒有線性關系
- 1 表示完全正相關
這個簡單指標讓我們很好地了解兩個變量之間的關系。在實踐中經常同時使用散點圖和相關系數來理解兩個變量之間的關系,從而可以形象化和量化它們之間的關系。
下面代碼計算示例數據的相關系數:
cor(exData$HourStudied, exData$ExamScore) # 0.891306返回值為0.89 表示具有較強的正相關關系。
簡單線性回歸
第三種方法是簡單線性回歸。首先選擇一個變量作為解釋變量,另一個作為響應變量。然后我們發現最佳直線擬合數據集,使用該線性模型可以進行預測。
下面代碼執行簡單線性回歸:
model <- lm(ExamScore~HourStudied, exData) summary(model)# Call: # lm(formula = ExamScore ~ HourStudied, data = exData) # # Residuals: # Min 1Q Median 3Q Max # -6.920 -3.927 1.309 1.903 9.385 # # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 69.0734 1.9651 35.15 < 2e-16 *** # HourStudied 3.8471 0.4613 8.34 1.35e-07 *** # --- # Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 # # Residual standard error: 4.171 on 18 degrees of freedom # Multiple R-squared: 0.7944, Adjusted R-squared: 0.783 # F-statistic: 69.56 on 1 and 18 DF, p-value: 1.347e-07通過輸出可以看到回歸模型為:
- Exam score = 69.07 + 3.85*(hours studied)
可解釋為:每增加學習時間1小時,平均增加成績3.85分。通過線性回歸模型,我們可以量化兩個變量之間的關系。
總結
雙變量分析是統計學中最常用的分析類型之一,因為我們經常對理解兩個變量之間的關系感興趣。通過使用散點圖、相關系數和簡單線性回歸,我們可以可視化和量化兩個變量之間的關系。
通常這三種方法在分析中需同時使用,以全面了解兩個變量之間的關系,因此同時熟悉三種方法是不錯的選擇。
總結
以上是生活随笔為你收集整理的R语言实现双变量分析教程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 脚本:通过ssh、scp和expect批
- 下一篇: list序列化为string存入数据库