学习生物信息的系列书籍
歡迎關注生信寶典公眾號 http://mp.weixin.qq.com/s/IiehgNu3JGVTDa079ll1SQ
每次遇到有人問怎么學生信時,總會碰到一個尷尬的問題,“有沒有什么書可以推薦下”。驟然之下,也不知道該怎么回答。這個問題有點大,想不到一本書可以囊括。而且對提問人的基礎和學習傾向沒有了解,與其指條錯路,還不如不指。最后我都都會說,看生信寶典吧,有一系列由淺入深的Linux教程,R教程,Python教程和NGS教程;你要想學就按我寫的做,有問題再討論。
后來想想,生信寶典雖然是凝練了很多書籍、經驗的知識合體,但總會有涉及不到的地方和忽略了的地方。還是系統地整理下書籍,做為一個補充吧。
我最開始學習時也會碰到讀什么書的問題。那時候網上還沒有現在這么多的資源,而寫成書的東西都會比較系統,所以有一本合適的入門書籍還是會很有幫助的。但怎么叫合適呢?最開始學C語言,看了譚先生的C語言入門系列,確實是入門系列,看來看去總在門口徘徊,體會不到先生的真諦。直到后來寒假在家讀了The C programming language才知道圣經就是圣經,地位不可撼動,拉你入門沒商量。
后來,我選書的原則就是,先搜索到一堆 (現在百度云里面還沉睡著很多電子書),然后一個個的打開瀏覽,看不下去的就扔掉,哪個能看下去就看哪個;很有可能最后看完的那個,無論在寫作風格和內容深度方面都是適合你的這個階段的。看網上的教程也是,多瀏覽,少細讀,既能保證你熟悉這個方向,又能幫你找到合適的切入點。
列一下其中可能對大家有幫助的書:
- 并行計算導論(2006 張林波等編著):如果不想學并行計算,這本書第二章是不錯的Linux操作系統、Linux命令和Linux開發環境介紹,樸實、詳細。
- Bioinformatics programming using python (2010, O’Reilly): O’Reilly出版,經典,只看前7章就可以
- ThinkPython, ThinkBayes, ThinkStats (Allen B. Downey著): 計算的視角學習貝葉斯和統計, 自帶電子版
- Programming Collective Intelligence (Toby Segaran, O’Reilly): 有意思的機器學習類書籍,基于Python
關于生信,我最開始看的是《生物信息學中的計算機技術》(2002年出版),內容涵蓋Linux系統使用,生物序列分析、基因和基因家族鑒定,系統發育和數據庫建設、自動化、可視化等內容。對當時不知道怎么入手的我,有很大的啟蒙作用。現在已經記不清具體的內容了,只是印象中看完這一本,朦朧中找到了方向。后來的兩本書有《Beginning Perl for Bioinformatics》(2001年出版),《Beginning Python for Bioinformatics》(2002年出版),應該還都有對應的Master系列,在看這兩本書的時候,已經有了一定的編程基礎,都是作為既學習英語,又彌補下沒系統學習過編程的缺陷。
后來在中科院數學所張林波老師和計算所遲學斌老師教授的《并行計算》,劉瑩老師主講的《數據挖掘》,《計算機病毒》等課程下鞏固學習編程理念,不局限于哪一種語言了,主要學習里面的思考。這些老師,無論在基礎理論還是應用上都有很好的經驗指導。如果在中科院或北京上學的,都可以去選這些老師的課。遲學斌老師常常吶“不怕賊偷就怕賊惦記”來教導我們,不要害怕學不會,多看幾遍,沒事多想想就會了。套用現在話就是,沒有看一遍生信寶典解決不了的問題,如果有,那就再看一遍。
再以后,基本就不完整的看專業類的書籍了,用到哪部分,就借助谷歌去搜索。因為有了一些經驗,再多看看在線的教程,哪里不會搜哪里,問題一般都可以解決。這是一個便捷快速的方式,就像你有一本可檢索的CookBook在手。但是也會造成知識不連貫的缺陷。比如學習R時,就只看了R for beginners(現在看的比較多的應該是R in actions,也屬于快速上手的小冊子),后來也沒系統地學,直到現在R的水平還是在入門階段徘徊 。
寫代碼到了一定的階段,還是要多看優秀的代碼,學習他人的寫法,學習新的思路和新的方式。在解決問題時,如果感覺自己寫出的代碼很詭異,雖然能解決問題,但也最好搜索下,有沒有更合適的方式。
從出版日期來看,之前看的那些書都比較老了,而且講述的都是經典的計算知識和基礎的生物計算處理。如果作為生信中的編程入門,問題倒也不大。但生物信息學發展到現在,那些提到的知識大都被封裝到函數或命令中,現在用起來都是很簡單的事了。尤其是對于著急用生信的人來說,里面的知識跟眼前要解決的問題中間有10年的落差,給人感覺有點"low",可能滿足不了現在人浮躁的心理。
最近這幾年出版的書,對常用的高通量測序、蛋白質組學和代謝組學等都有涉及,還是有一些挺不錯的,比如 Clinical Applications for Next-Generation Sequencing (2016)和Next-Generation Sequencing Data Analysis (2016),Bioinformatics_and_Functional_Genomics_3rd_edition (2015)都可作為參考讀物,用到什么地方去讀什么地方。當做小說看也可以,翻到哪是哪。
- Clinical Applications for Next-Generation Sequencing (2016): 開始是關于NGS技術的原理、優缺點、應用的詳細描述,后面分不同類型的疾病概述NGS的研究進展和存在的問題。
- Next-Generation Sequencing Data Analysis: 涉及分子生物學基本知識,NGS概述、測序原理及注意事項、NGS共有分析步驟及軟硬件要求;轉錄組,小RNA,全基因組、表觀和基因組組裝等的原理、實驗設計、分析內容和用到的工具。
- Bioinformatics_and_Functional_Genomics: 大百科,序列比對,數據庫使用,系統進化,到芯片,NGS,蛋白結構、蛋白組,疾病;有原理,有代碼。
如果想看中文的,書好像是沒有的,但公眾號和博客還是很多的。不管看懂看不懂,每篇都翻一翻看一看,說不準什么時候就會了。就像大學時,去圖書館,不看書,而是挨個書架的走動,瀏覽書名就會有不少收獲。
最后,不管看書,還是看公眾號,都要打起至少半年的主意;如果能堅持半年,再回頭來看,攔路虎都成溫順的小貓了。
總結
以上是生活随笔為你收集整理的学习生物信息的系列书籍的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Apple Configurator 2
- 下一篇: 并行计算部分总结