R语言学习笔记之——数据处理神器data.table
前言
數(shù)據(jù)處理在數(shù)據(jù)分析流程中的地位相信大家都有目共睹,也是每一個數(shù)據(jù)從業(yè)者面臨的最為繁重的工作任務(wù)。
在實際應(yīng)用場景下,雖然SQL(SQL類專業(yè)的etl語言)是數(shù)據(jù)處理的首選明星語言,性能佳、效率高、容易培養(yǎng)數(shù)據(jù)思維,但是SQL沒法處理構(gòu)建全流程的數(shù)據(jù)任務(wù),之后仍然需要借助其他數(shù)據(jù)分析工具來對接更為深入的分析任務(wù)。
R語言作為專業(yè)的統(tǒng)計計算語言,數(shù)據(jù)處理是其一大特色功能,事實上每一個處理任務(wù)在R語言中都有著不止一套解決方案(這通常也是初學(xué)者在入門R語言時,感覺內(nèi)容太多無從下手的原因),當(dāng)然這些不同方案確實存在著性能和效率的絕大差異。
合理選擇一套自己的數(shù)據(jù)處理工具組合算是挺艱難的選擇,因為這個涉及到使用習(xí)慣和遷移成本的問題,比如你先熟知了R語言的基礎(chǔ)繪圖系統(tǒng),在沒有強大的驅(qū)動力的情況下,你可能不太愿意畫大把時間去研究ggplot2,你用會寫for/while循環(huán),就不太愿意去掌握apply組函數(shù),甚至那些性能逆天的并行算運算包;剛開始會用基礎(chǔ)字符串處理,看到stringr包就面臨著技能工具更新的問題……
太多的選擇,讓人眼花繚亂,我自己也遇到過這種困惑,為了避免注意力分散,我的做法是先做可能性羅列——羅列一個可以實現(xiàn)同類功能的所有工具清單并做一套功能卡(也算是初步了解)。然后根據(jù)自己掌握的現(xiàn)狀選擇最熟練的一套,隨著時間的推移慢慢發(fā)現(xiàn)現(xiàn)有工具組合的不足,開始嘗試往更加高效、簡介的工具遷移,這樣以需求為推動力的技能升級和遷移更為徹底和明確。
最典型的幾個技能組合遷移如下:
基礎(chǔ)字符串處理函數(shù)——stringr 繪圖系統(tǒng):plot——ggplot2 代碼風(fēng)格:函數(shù)嵌套總結(jié)
以上是生活随笔為你收集整理的R语言学习笔记之——数据处理神器data.table的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: tableau可视化数据分析60讲(十五
- 下一篇: MATLAB从入门到精通-如何用matl