学习生信的系列书籍
歡迎關(guān)注天下博客:http://blog.genesino.com/2017/10/SXBD-books/
每次遇到有人問怎么學(xué)生信時(shí),總會(huì)碰到一個(gè)尷尬的問題,“有沒有什么書可以推薦下”。驟然之下,也不知道該怎么回答。這個(gè)問題有點(diǎn)大,想不到一本書可以囊括。而且對(duì)提問人的基礎(chǔ)和學(xué)習(xí)傾向沒有了解,與其指條錯(cuò)路,還不如不指。最后我都都會(huì)說,看生信寶典吧,有一系列由淺入深的Linux教程,R教程,Python教程和NGS教程;你要想學(xué)就按我寫的做,有問題再討論。
后來想想,生信寶典雖然是凝練了很多書籍、經(jīng)驗(yàn)的知識(shí)合體,但總會(huì)有涉及不到的地方和忽略了的地方。還是系統(tǒng)地整理下書籍,做為一個(gè)補(bǔ)充吧。
我最開始學(xué)習(xí)時(shí)也會(huì)碰到讀什么書的問題。那時(shí)候網(wǎng)上還沒有現(xiàn)在這么多的資源,而寫成書的東西都會(huì)比較系統(tǒng),所以有一本合適的入門書籍還是會(huì)很有幫助的。但怎么叫合適呢?最開始學(xué)C語言,看了譚先生的C語言入門系列,確實(shí)是入門系列,看來看去總在門口徘徊,體會(huì)不到先生的真諦。直到后來寒假在家讀了The C programming language才知道圣經(jīng)就是圣經(jīng),地位不可撼動(dòng),拉你入門沒商量。
后來,我選書的原則就是,先搜索到一堆 (現(xiàn)在百度云里面還沉睡著很多電子書),然后一個(gè)個(gè)的打開瀏覽,看不下去的就扔掉,哪個(gè)能看下去就看哪個(gè);很有可能最后看完的那個(gè),無論在寫作風(fēng)格和內(nèi)容深度方面都是適合你的這個(gè)階段的。看網(wǎng)上的教程也是,多瀏覽,少細(xì)讀,既能保證你熟悉這個(gè)方向,又能幫你找到合適的切入點(diǎn)。
列一下其中可能對(duì)大家有幫助的書:
并行計(jì)算導(dǎo)論(2006 張林波等編著):如果不想學(xué)并行計(jì)算,這本書第二章是不錯(cuò)的Linux操作系統(tǒng)、Linux命令和Linux開發(fā)環(huán)境介紹,樸實(shí)、詳細(xì)。
Bioinformatics programming using python (2010, O’Reilly): O’Reilly出版,經(jīng)典,只看前7章就可以
ThinkPython, ThinkBayes, ThinkStats (Allen B. Downey著): 計(jì)算的視角學(xué)習(xí)貝葉斯和統(tǒng)計(jì), 自帶電子版
Programming Collective Intelligence (Toby Segaran, O’Reilly): 有意思的機(jī)器學(xué)習(xí)類書籍,基于Python
關(guān)于生信,我最開始看的是《生物信息學(xué)中的計(jì)算機(jī)技術(shù)》(2002年出版),內(nèi)容涵蓋Linux系統(tǒng)使用,生物序列分析、基因和基因家族鑒定,系統(tǒng)發(fā)育和數(shù)據(jù)庫建設(shè)、自動(dòng)化、可視化等內(nèi)容。對(duì)當(dāng)時(shí)不知道怎么入手的我,有很大的啟蒙作用。現(xiàn)在已經(jīng)記不清具體的內(nèi)容了,只是印象中看完這一本,朦朧中找到了方向。后來的兩本書有《Beginning Perl for Bioinformatics》(2001年出版),《Beginning Python for Bioinformatics》(2002年出版),應(yīng)該還都有對(duì)應(yīng)的Master系列,在看這兩本書的時(shí)候,已經(jīng)有了一定的編程基礎(chǔ),都是作為既學(xué)習(xí)英語,又彌補(bǔ)下沒系統(tǒng)學(xué)習(xí)過編程的缺陷。
后來在中科院數(shù)學(xué)所張林波老師和計(jì)算所遲學(xué)斌老師教授的《并行計(jì)算》,劉瑩老師主講的《數(shù)據(jù)挖掘》,《計(jì)算機(jī)病毒》等課程下鞏固學(xué)習(xí)編程理念,不局限于哪一種語言了,主要學(xué)習(xí)里面的思考。這些老師,無論在基礎(chǔ)理論還是應(yīng)用上都有很好的經(jīng)驗(yàn)指導(dǎo)。如果在中科院或北京上學(xué)的,都可以去選這些老師的課。遲學(xué)斌老師常常吶“不怕賊偷就怕賊惦記”來教導(dǎo)我們,不要害怕學(xué)不會(huì),多看幾遍,沒事多想想就會(huì)了。套用現(xiàn)在話就是,沒有看一遍生信寶典解決不了的問題,如果有,那就再看一遍。
再以后,基本就不完整的看專業(yè)類的書籍了,用到哪部分,就借助谷歌去搜索。因?yàn)橛辛艘恍┙?jīng)驗(yàn),再多看看在線的教程,哪里不會(huì)搜哪里,問題一般都可以解決。這是一個(gè)便捷快速的方式,就像你有一本可檢索的CookBook在手。但是也會(huì)造成知識(shí)不連貫的缺陷。比如學(xué)習(xí)R時(shí),就只看了R for beginners(現(xiàn)在看的比較多的應(yīng)該是R in actions,也屬于快速上手的小冊(cè)子),后來也沒系統(tǒng)地學(xué),直到現(xiàn)在R的水平還是在入門階段徘徊 。
寫代碼到了一定的階段,還是要多看優(yōu)秀的代碼,學(xué)習(xí)他人的寫法,學(xué)習(xí)新的思路和新的方式。在解決問題時(shí),如果感覺自己寫出的代碼很詭異,雖然能解決問題,但也最好搜索下,有沒有更合適的方式。
從出版日期來看,之前看的那些書都比較老了,而且講述的都是經(jīng)典的計(jì)算知識(shí)和基礎(chǔ)的生物計(jì)算處理。如果作為生信中的編程入門,問題倒也不大。但生物信息學(xué)發(fā)展到現(xiàn)在,那些提到的知識(shí)大都被封裝到函數(shù)或命令中,現(xiàn)在用起來都是很簡(jiǎn)單的事了。尤其是對(duì)于著急用生信的人來說,里面的知識(shí)跟眼前要解決的問題中間有10年的落差,給人感覺有點(diǎn)”low”,可能滿足不了現(xiàn)在人浮躁的心理。
最近這幾年出版的書,對(duì)常用的高通量測(cè)序、蛋白質(zhì)組學(xué)和代謝組學(xué)等都有涉及,還是有一些挺不錯(cuò)的,比如 Clinical Applications for Next-Generation Sequencing (2016)和Next-Generation Sequencing Data Analysis (2016),Bioinformatics_and_Functional_Genomics_3rd_edition (2015)都可作為參考讀物,用到什么地方去讀什么地方。當(dāng)做小說看也可以,翻到哪是哪。
Clinical Applications for Next-Generation Sequencing (2016): 開始是關(guān)于NGS技術(shù)的原理、優(yōu)缺點(diǎn)、應(yīng)用的詳細(xì)描述,后面分不同類型的疾病概述NGS的研究進(jìn)展和存在的問題。
Next-Generation Sequencing Data Analysis: 涉及分子生物學(xué)基本知識(shí),NGS概述、測(cè)序原理及注意事項(xiàng)、NGS共有分析步驟及軟硬件要求;轉(zhuǎn)錄組,小RNA,全基因組、表觀和基因組組裝等的原理、實(shí)驗(yàn)設(shè)計(jì)、分析內(nèi)容和用到的工具。
Bioinformatics_and_Functional_Genomics: 大百科,序列比對(duì),數(shù)據(jù)庫使用,系統(tǒng)進(jìn)化,到芯片,NGS,蛋白結(jié)構(gòu)、蛋白組,疾病;有原理,有代碼。
如果想看中文的,書好像是沒有的,但公眾號(hào)和博客還是很多的。不管看懂看不懂,每篇都翻一翻看一看,說不準(zhǔn)什么時(shí)候就會(huì)了。就像大學(xué)時(shí),去圖書館,不看書,而是挨個(gè)書架的走動(dòng),瀏覽書名就會(huì)有不少收獲。
最后,不管看書,還是看公眾號(hào),都要打起至少半年的主意;如果能堅(jiān)持半年,再回頭來看,攔路虎都成溫順的小貓了。
BIOINFO
CHENTONG
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請(qǐng)注明出處。
alipay.png WeChatPay.png
總結(jié)
- 上一篇: Nature重磅综述|关于RNA-seq
- 下一篇: 废弃P-value,还是学学如何评估统计