编程问答

R语言基础入门（9）之因子类型

發(fā)布時間：2025/3/15 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 R语言基础入门（9）之因子类型小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

1.因子

2.table() 函數(shù)

3.tapply() 函數(shù)

4.forcats 包的因子函數(shù)

練習(xí)

1.因子

????????R 中用因子代表數(shù)據(jù)中分類變量, 如性別、省份、職業(yè)。有序因子代表有序量度，如打分結(jié)果，疾病嚴(yán)重程度等。 ????????用 factor() 函數(shù)把字符型向量轉(zhuǎn)換成因子，如 x <- c(" 男", " 女", " 男", " 男", " 女") sex <- factor(x) sex

attributes(sex)

????????因子有 class 屬性，取值為"factor"，還有一個 levels(水平值) 屬性，此屬性可以用 levels() 函數(shù)訪問，如

levels(sex)

因子的 levels 屬性可以看成是一個映射，把整數(shù)值 1,2,. . . 映射成這些水平值，因子在保存時會保存成整數(shù)值 1,2,. . . 等與水平值對應(yīng)的編號。這樣可以節(jié)省存儲空間，在建模計算的程序中也比較有利于進(jìn)行數(shù)學(xué)運(yùn)算。 ????????事實(shí)上，read.csv() 函數(shù)的默認(rèn)操作會把輸入文件的字符型列自動轉(zhuǎn)換成因子，這對于性別、職業(yè)、地名這樣的列是合適的，但是對于姓名、日期、詳細(xì)地址這樣的列則不合適。所以，在 read.csv() 調(diào)用中經(jīng)常加選項(xiàng) stringsAsFactors=FALSE 選項(xiàng)禁止這樣的自動轉(zhuǎn)換，還可以用 colClasses 選項(xiàng)逐個指定每列的類型。

????????用 as.numeric() 可以把因子轉(zhuǎn)換為純粹的整數(shù)值，如

as.numeric(sex)

????????因?yàn)?strong>因子實(shí)際保存為整數(shù)值，所以對因子進(jìn)行一些字符型操作可能導(dǎo)致錯誤。用 as.character() 可以把因子轉(zhuǎn)換成原來的字符型，如 as.character(sex)

為了對因子執(zhí)行字符型操作（如取子串），保險的做法是先用 as.character() 函數(shù)強(qiáng)制轉(zhuǎn)換為字符型。 ????????factor() 函數(shù)的一般形式為 factor(x, levels = sort(unique(x), na.last = TRUE),labels, exclude = NA, ordered = FALSE) 可以用選項(xiàng) levels 自行指定各水平值, 不指定時由 x 的不同值來求得。可以用選項(xiàng) labels 指定各水平的標(biāo)簽, 不指定時用各水平值的對應(yīng)字符串。可以用 exclude 選項(xiàng)指定要轉(zhuǎn)換為缺失值 (NA) 的元素值集合。如果指定了 levels, 則當(dāng)自變量 x 的某個元素等于第 j 個水平值時輸出的因子對應(yīng)元素值取整數(shù) j, 如果該元素值沒有出現(xiàn)在 levels 中則輸出的因子對應(yīng)元素值取NA。ordered 取真值時表示因子水平是有次序的 (按編碼次序)。在使用 factor() 函數(shù)定義因子時，如果知道自變量元素的所有可能取值，應(yīng)盡可能使用 levels= 參數(shù)指定這些不同可能取值，這樣，即使某個取值沒有出現(xiàn)，此變量代表的含義和頻數(shù)信息也是完整的。自己指定 levels= 的另一好處是可以按正確的次序顯示因子的分類統(tǒng)計值。 ????????因?yàn)橐粋€因子的 levels 屬性是該因子獨(dú)有的，所以合并兩個因子有可能造成錯誤，但在最新版本4.1.2 沒有報錯，應(yīng)跟版本有關(guān)，如 li1 <- factor(c(' 男', ' 女')) li2 <- factor(c(' 男', ' 男')) c(li1, li2)

如果結(jié)果不是因子的話，需要對其進(jìn)行轉(zhuǎn)換。則那樣正確的做法是

factor(c(as.character(li1), as.character(li2)))

就是先轉(zhuǎn)換為字符型，再進(jìn)行合并就可以了。

2.table() 函數(shù)

????????用 table() 函數(shù)統(tǒng)計因子各水平的出現(xiàn)次數(shù)（稱為頻數(shù)或頻率）。也可以對一般的向量統(tǒng)計每個不同元素的出現(xiàn)次數(shù)。如 x <- c(" 男", " 女", " 男", " 男", " 女") sex <- factor(x) table(sex)

對一個變量用 table 函數(shù)計數(shù)的結(jié)果是一個特殊的有元素名的向量，元素名是自變量的不同取值，結(jié)果的元素值是對應(yīng)的頻數(shù)。單個因子或單個向量的頻數(shù)結(jié)果可以用向量的下標(biāo)訪問方法取出單個頻數(shù)或若干個頻數(shù)的子集。

3.tapply() 函數(shù)

????????可以按照因子分組然后每組計算另一變量的概括統(tǒng)計。如

x <- c(" 男", " 女", " 男", " 男", " 女") sex <- factor(x) h <- c(165, 170, 168, 172, 159) tapply(h, sex, mean)

4.forcats 包的因子函數(shù)

如果使用此函數(shù)，需要先進(jìn)行載入：

library(forcats) ????????在分類變量類數(shù)較多時，往往需要對因子水平另外排序、合并等，forcats 包提供了一些針對因子的方便函數(shù)。 ????????orcats::fac_reorder() 可以根據(jù)不同因子水平分成的組中另一數(shù)值型變量的統(tǒng)計量值排序。如： set.seed(1) fac <- sample(c("red", "green", "blue"), 30, replace=TRUE) fac <- factor(fac, levels=c("red", "green", "blue")) x <- round(100*(10+rt(30,2))) res1 <- tapply(x, fac, sd); res1

?對上面數(shù)值畫條形圖：

barplot(res1)

????????如果希望按照統(tǒng)計量次序?qū)σ蜃优判?/strong>，可以用 forcats::fct_reorder() 函數(shù)，并畫圖條形圖，如 fac2 <- fct_reorder(fac, x, sd) res2 <- tapply(x, fac2, sd) barplot(res2)
返回：

?新的因子 fac2 的因子水平次序已經(jīng)按照變量 x 的標(biāo)準(zhǔn)差從小到大排列。
????????有時在因子水平數(shù)較多時僅想將特定的一個或幾個水平次序放到因子水平最前面，可以用 forcats::fct_relevel() 函數(shù)，如： levels(fac)
返回：

fac3 <- fct_relevel(fac, "blue"); levels(fac3)
返回：

fct_relevel() 第一個參數(shù)是要修改次序的因子，后續(xù)可以有多個字符型參數(shù)表示要提前的水平。 forcats::fct_reorder2(f, x, y) 也調(diào)整因子 f 的水平的次序，但是根據(jù)與每組中最大的 x 值相對應(yīng)的 y 值大小調(diào)整次序，這樣在作多個因子水平對應(yīng)的曲線圖時可以比較容易地區(qū)分多條曲線。
????????forcats::fct_recode() 可以修改每個水平的名稱，如：
fac4 <- fct_recode( fac, " 紅"="red", " 綠"="green", " 藍(lán)"="blue") table(fac4)
返回：

????????fct_recode() 在修改水平名時允許多個舊水平對應(yīng)到一個新水平，從而合并原來的水平。如果合并很多，可以用 fct_collapse() 函數(shù)，記得要先導(dǎo)入forcats 包的因子函數(shù)，如 compf <- fct_collapse( comp, " 其它"=c("", " 無名", " 無應(yīng)答"), " 聯(lián)想"=c(" 聯(lián)想", " 聯(lián)想集團(tuán)"), " 百度"=c(" 百度", " 百度集團(tuán)") ) 如果某個因子頻數(shù)少的水平很多，在統(tǒng)計時有過多水平不易展示主要的類別，可以用 forcats::fct_lump(f) 合并，缺省地從最少的類合并一直到 “其它” 類超過其它最小的類之前，可以用 n= 參數(shù)指定要保留多少個類。
練習(xí)
設(shè)文件class.csv中包含如下內(nèi)容: name,sex,age,height,weight Alice,F,13,56.5,84 Becka,F,13,65.3,98 Gail,F,14,64.3,90 Karen,F,12,56.3,77 Kathy,F,12,59.8,84.5 Mary,F,15,66.5,112 Sandy,F,11,51.3,50.5 Sharon,F,15,62.5,112.5 Tammy,F,14,62.8,102.5 Alfred,M,14,69,112.5 Duke,M,14,63.5,102.5 Guido,M,15,67,133 James,M,12,57.3,83 Jeffrey,M,13,62.5,84 John,M,12,59,99.5 Philip,M,16,72,150 Robert,M,12,64.8,128 Thomas,M,11,57.5,85 William,M,15,66.5,112 用如下程序把該文件讀入為 R 數(shù)據(jù)框 d.class, 其中的 sex 列已經(jīng)自動轉(zhuǎn)換為因子。取出其中的 sex 和 age 列到變量 sex 和 age 中 d.class <- read.csv('class.csv', header=TRUE) sex <- d.class[,'sex'] age <- d.class[,'age'] (1) 統(tǒng)計并顯示列出 sex 的不同值頻數(shù)； (2) 分男女兩組分別求年齡最大值； (3) 把 sex 變量轉(zhuǎn)換為一個新的因子，F 顯示成 “Female”，M 顯示成 “Male”。
總結(jié)

以上是生活随笔為你收集整理的R语言基础入门（9）之因子类型的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

因子

类型

入门

语言

歡迎分享！

轉(zhuǎn)載請說明來源于"生活随笔"，并保留原作者的名字。

本文地址：R语言基础入门（9）之因子类型

上一篇：单机安装oracle,单机安装oracl

下一篇： if or函数套用_IF函数和OR函数的

最新發(fā)布

IO流操作HDFS

JAVA操作Hadoop

Hadoop伪分布式运行案例

移植uboot第十步：制作uboot补丁

移植uboot第九步：支持yaffs映像烧写

熱門推薦

计算机和hdmi无法正常显示,如果计算机使用HDMI接口连接到显示器，显示不正常或者甚至无法显示黑屏，该怎么办...

计算机和hdmi无法正常显示,如果计算机使用HDMI接口连接到显示器，显示不正常或者甚至无法显示黑屏，该怎么办...

河南王牌计算机专业,河南计算机专业实力突出的7所大学，郑大位列次席，榜首实至名归...

河南王牌计算机专业,河南计算机专业实力突出的7所大学，郑大位列次席，榜首实至名归...

蓝牙厂商代码与公司对应列表

標(biāo)簽云

连接数据库

单元格

蓝牙耳机

程序语言

微信游戏

软件安装

双系统

游戏开发者

设计理念

计算机资源

TransactionProducer

OpenDTP

SimpleJob

AnnotationScopeMetadataResolver

JobStore

BeanDefinitionReader

DataFlowJob

ObjectProvider

ScriptJob

BeanDefinitionReaderUtils