机器学习系列补充:数据集准备和更正YSX包
之前的教程中提到了數據下載鏈接,但未提供整理好后的數據。后臺總有朋友問起,提供數據網盤容易失效,就把整理方法放在這,可基于原始鏈接下載后轉換為所需格式。
安裝YSX包 (已改名為ImageGP包)
YSX包已改名為ImageGP包,這是為配合繪圖網站ImageGP而構建的包,里面也包含了對常用繪圖函數和數據整理命令的包裝,在整個機器學習教程中也常有用到。
ImageGP包目前在Github和碼云上都有,推薦用碼云,下載速度快。
devtools::install_git("https://gitee.com/ct586/ImageGP")# 安裝好之后,之前教程的library(YSX)都改為library(ImageGP) library("ImageGP")改名是因為之前一個誤操作,在YSX倉庫里面引入了不少示例數據,使得包變得很大。而Github又訪問速度慢,常常安裝不成功。
# 如果從Github上安裝原有的`YSX`也可以: # 不推薦 # devtools::install_github("Tong-Chen/YSX")DLBCL 數據集
數據信息在頁面https://file.biolab.si/biolab/supp/bi-cancer/projections/info/DLBCL.html
Diffuse large B-cell lymphoma (DLBCL): 58 examples (75.3%); Follicular lymphoma (FL): 19 examples (24.7%)。
可通過鏈接下載https://file.biolab.si/biolab/supp/bi-cancer/projections/_datasets/DLBCL.tab。
下載后,刪除第2行和第3行。
再用下面的R代碼讀取和整理
dlbcl_tab <- "DLBCL.tab" dlblc <- read.table(dlbcl_tab, row.names = NULL, header=T) dim(dlblc)class = dlblc$class table(class)生成Metadata信息
metadata = data.frame(sample=c(paste("DLBCL", 1:58, sep="_"), paste("FL", 1:19, sep="_")),class=class) head(metadata)write.table(metadata, "dlbcl.metadata.txt", sep="\t", row.names=F, col.names = T, quote=F)生成表達文件
rownames(dlblc) <- metadata$sample dlblc <- dlblc[,1:7070] dlblc <- t(dlblc) dlblc[1:3,1:4]library(ImageGP) sp_writeTable(dlblc, file="dlblc.expr.txt", keep_rownames = T)機器學習系列教程
從隨機森林開始,一步步理解決策樹、隨機森林、ROC/AUC、數據集、交叉驗證的概念和實踐。
文字能說清的用文字、圖片能展示的用、描述不清的用公式、公式還不清楚的寫個簡單代碼,一步步理清各個環節和概念。
再到成熟代碼應用、模型調參、模型比較、模型評估,學習整個機器學習需要用到的知識和技能。
機器學習算法 - 隨機森林之決策樹初探(1)
機器學習算法-隨機森林之決策樹R 代碼從頭暴力實現(2)
機器學習算法-隨機森林之決策樹R 代碼從頭暴力實現(3)
機器學習算法-隨機森林之理論概述
隨機森林拖了這么久,終于到實戰了。先分享很多套用于機器學習的多種癌癥表達數據集 https://file.biolab.si/biolab/supp/bi-cancer/projections/。
機器學習算法-隨機森林初探(1)
機器學習 模型評估指標 - ROC曲線和AUC值
機器學習 - 訓練集、驗證集、測試集
機器學習 - 隨機森林手動10 折交叉驗證
一個函數統一238個機器學習R包,這也太贊了吧
基于Caret和RandomForest包進行隨機森林分析的一般步驟 (1)
Caret模型訓練和調參更多參數解讀(2)
機器學習相關書籍分享
基于Caret進行隨機森林隨機調參的4種方式
送你一個在線機器學習網站,真香!
UCI機器學習數據集
機器學習第17篇 - 特征變量篩選(1)
機器學習第18篇 - Boruta特征變量篩選(2)
總結
以上是生活随笔為你收集整理的机器学习系列补充:数据集准备和更正YSX包的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法-随机森林之理论概述
- 下一篇: Cell子刊:盗梦空间成真,科学家成功进