mat 和asmatrix的区别_R语言的稀疏矩阵太大可能就不能用as.matrix了
一個(gè)很大的矩陣, 320127 行, 8189列,假如用一個(gè)全為0的普通矩陣來(lái)存儲(chǔ),需要用到9.8Gb
cols
rows
mat
print(object.size(mat), unit="GB")
# 19.5 Gb
mat
print(object.size(mat), unit="GB")
# 9.8 Gb這里的0其實(shí)也要區(qū)分
這里的0L表示數(shù)據(jù)類型是integer,默認(rèn)是numeric. 這兩者最大的區(qū)別在于,當(dāng)你用320127L * 8189L,你會(huì)得到一個(gè)NA,而320127 * 8189不會(huì)
如果用稀疏矩陣保存的話
mat
print(object.size(mat), unit="GB")
#0 Gb
dim(mat)
#[1] 320127 8189
雖然行列數(shù)一樣,但是稀疏矩陣幾乎不占用任何內(nèi)存。而且普通矩陣支持的運(yùn)算,比如說(shuō)求行和,求列和,提取元素的操作,在稀疏矩陣矩陣也是可以的,只不過(guò)會(huì)多花一點(diǎn)點(diǎn)時(shí)間而已。同時(shí)還有很多R包支持稀疏矩陣,比如說(shuō)glmnet,一個(gè)做lasso回歸的R包。
雖然看起來(lái)稀疏矩陣很美好,但是在R語(yǔ)言中那么大的稀疏矩陣的部分操作會(huì)出錯(cuò)
> mat2
Error in asMethod(object) :
Cholmod error 'problem too large' at file ../Core/cholmod_dense.c, line 105
即便是我想把它用as.matrix轉(zhuǎn)回普通矩陣,它也報(bào)錯(cuò)了
> mat3
Error in asMethod(object) :
Cholmod error 'problem too large' at file ../Core/cholmod_dense.c, line 105
既然現(xiàn)成的as.matrix無(wú)法處理,那怎么辦呢?最簡(jiǎn)單粗暴的方法就是新建一個(gè)普通矩陣,然后對(duì)稀疏矩陣進(jìn)行遍歷,將稀疏矩陣的值挨個(gè)放回到的普通矩陣上。
mat2
for (i in seq_len(nrow(mat))){
for (j in seq_len(ncol(mat))){
mat2[i][j]
}
}
那么這大概要多少時(shí)間呢?反正我的電腦跑了2個(gè)小時(shí)也沒(méi)有跑完,所以你也別測(cè)試了。
那有沒(méi)有辦法可以加速呢?加速的方法就是減少for循環(huán)的次數(shù),因?yàn)槲覀兪且粋€(gè)稀疏矩陣,大部分的空間都是0,我們只需要將不為0的部分賦值給新矩陣即可。
這需要我們?nèi)チ私庀孪∈杈仃嚨臄?shù)據(jù)結(jié)構(gòu)
> str(mat)
Formal class 'dgCMatrix' [package "Matrix"] with 6 slots
..@ i : int(0)
..@ p : int [1:8190] 0 0 0 0 0 0 0 0 0 0 ...
..@ Dim : int [1:2] 320127 8189
..@ Dimnames:List of 2
.. ..$ : NULL
.. ..$ : NULL
..@ x : num(0)
..@ factors : list()
@Dim記錄矩陣的維度信息, @Dimnames記錄行名和列名, @x記錄不為0的數(shù)值。@i記錄不為0的行索引,和@x對(duì)應(yīng),這里全為0,所以不記錄。@p比較復(fù)雜,并不是簡(jiǎn)單的記錄不為0值的列索引,看文檔也不知道是啥,不過(guò)通過(guò)檢索可以找到它和不為0值的列索引的換算關(guān)系。
因此代碼優(yōu)化為
row_pos
col_pos
val
for (i in seq_along(val)){
tmp[row_pos[i],col_pos[i]]
}
可以將其封裝為一個(gè)函數(shù)
as_matrix
tmp
row_pos
col_pos
val
for (i in seq_along(val)){
tmp[row_pos[i],col_pos[i]]
}
row.names(tmp)
colnames(tmp)
return(tmp)
}
總結(jié)
以上是生活随笔為你收集整理的mat 和asmatrix的区别_R语言的稀疏矩阵太大可能就不能用as.matrix了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 好看的按钮html,html-好看的CS
- 下一篇: ie8 html 编辑器 为word,i