【NGS接龙】薛宇:漫谈生物信息圈儿的那些年、那些事!
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、高顏值在線繪圖和分析、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
編者按:在中國生物信息這個圈子里,活躍著一群年輕、高智、積極向上、敢于探索的一線學者,在全球生物信息迅速發展的這十年里,TA們取得了一項又一項的成果,TA們是活躍在生命科學、計算科學交叉領域的發燒友!華中科技大學生命科學與技術學院教授薛宇便是這其中的一份子。本期NGS接龍,有請薛宇教授以他獨特的風格給大家講述生物信息圈兒的那些年、那些事!
科研就要有迅雷不及掩耳盜鈴的風格
按慣例上來先扯點兒無關的。話說上一篇博文《Shirley:迅雷不及掩耳盜鈴的科研風格》寫完之后,發給Shirley、文勝兄和勇哥看看有沒有問題,Shirley立馬以迅雷不及掩耳盜鈴的速度回了封很長的信。
上來先指出我一個理解上的錯誤:CRISPR/Cas9篩選之后的測序,是用PCR去擴充已經通過病毒載體整合到基因組上的gDNA,而不是測轉錄組。
接著就開始洋洋灑灑的吐槽,說老弟啊,做新方向不容易啊,我們實驗室13年那會兒就看見CRISPR/Cas9了,但那時候沒有高通量的數據,“沒處下手”啊!
等到14年1月高通量的數據一出,我們就知道計算的機會來了,當時組里來了個大討論,我們馬上就發現gRNA的設計和篩選之后怎么排序結果(CRISPR screen hit calling)是兩個好問題。
兩個工具其實14年5月份就做完了,但是因為在篩選這個領域沒有名氣,并且雜志一般都會優先考慮花錢產生新數據的工作,所以拖了很久才投稿。
Shirley繼續吐槽,說這個吧,CRISPR/Cas9應用可能會很廣,不光是研究,也可以轉化,例如基因治療(Gene therapy)。但是基因治療不是咱搞計算的菜,所以做高通量篩選的數據分析才是咱生信該干的事情。
當然這樣問題就來了:基于CRISPR/Cas9篩選的計算方法能算是一個研究方向嗎?但如果咱要是決定研究這個方向并且持續鉆研10年,“怎么可能不是一個方向? 打一槍換一個地方的工作只能算是傻忙”。
只有“打持久戰”才能穩步的建立名聲。所以當一個新領域超級有前途并且你也希望投身其中10年的話,最好在你暈暈乎乎的時候就趕緊動手,因為絕大多數競爭者可能更暈菜。
Shirley舉了個例子,NGS技術出來不久,07年Richard M. Myers研究組在他們第一篇ChIP-Seq文章發表之前就把數據給了他們組,他們當時看數據感覺也不比老方法ChIP-chip好多少,所以拖到08年才發表相關的分析工具MACS(ChIP-seq數據分析的一個經典軟件,引用2000左右)。
等到單細胞基因組剛出來的時候,大家都覺得數據質量差所以Shirley也就懶得動手。但這個技術發展的很快,所以等到技術改進了數據好的時候已經沒機會了。因此Shirley認為:“錯失良機,痛定思痛!CRISPR screen 不能再傻了”。
Shirley總結,科學家不能躺在過去的功勞薄里,你的最后一篇文章代表你的水平(“you are as good as your last paper”)。所以要想做的快,研究方向就得集中,文章發的少且精,做真正感興趣的并且要么是做第一個引導這個方向,要么就是做最后一個干掉這個方向。
編輯注:Shirley,中文名,劉小樂,目前擔任哈佛大學公共衛生學院生物統計與計算生物學系的終身正教授、Dana-Farber 腫瘤研究所功能性癌癥表觀遺傳組學中心主任, 和同濟大學生物信息學系教授并長江學者講座教授。
言歸正傳,那些年我們一起錯過的機會
前段時間好友轉了我一篇“測序中國”上的文章《【NGS接龍】原國家基因庫負責人張勇:成長歷練后的夢想追逐》,咱生信圈叫張勇的有三位,另一個在同濟還有一位在北京動物所,在各自的方向上都相當的強。好朋友寫文章,而且寫的意致盎然,咱自然要點贊,等看到最后不對勁了,搞了半天這是個接龍的游戲,一人寫完點名另一個人開寫。既然被點了名,那咱也就瞎寫寫,各位也就看了個樂兒吧!
話說咱讀研究生那會兒是02年,先是跟著符師兄學做實驗。咱是化學背景,化學實驗一般周期沒有生物實驗長,比較快就能出結果,生物學的實驗一般周期都比較長而且咱還沒有學過生物,并且性子急結果越急越做不出來東西。
所以后來老板建議,說要不你小子去搞生物信息學吧,這玩意兒有前途。并且給我提了個問題:你能不能做一個大家都能用得上的工具?
02年那會兒國內搞生信的很不多,那時候最熱門的研究方向有兩個,一個是蛋白質二級結構預測,另一個是蛋白質的細胞亞定位預測。
這倆方向是怎么來的呢?這是因為當時國內搞生信的希望劃界問題,即哪些方法是生信可用的、哪些問題是生信可以解決的,等等。那時候大家都沒有意識到的事情是,研究方向是可以硬闖出來的,甭管理論上是不是生信的菜,能沖進去一做10年怎么都能做成一個方向。
之所以這倆方向能成為熱門,是因為清華大學孫之榮先生與學生華蘇軍用支持向量機(Support Vector Machine, SVM)算法先是在JMB上發表了一篇二級結構預測的工作,又在Bioinformatics上發表了一篇細胞亞定位預測的工作。
這兩篇文章幾乎是國內早期生信研究發表最好的工作,而且發表了之后一片嘩然。因為當時人工神經網絡(Artificial Neural Networks, ANNs)類算法是國內公認的可用于生信的主流方法,不過這類算法比較復雜,SVM是ANNs算法的一個特例和簡化版本,屬于一刀切的方法,比較容易實現。
大家不能理解的是:為什么復雜的、更有技術含量的算法不能發的更好,反而是簡單的東西能發的好呢?當然這個問題現在看來很簡單,那時候大家還不能理解novelty的涵意,技術復雜度高與做的東西有意思之間并沒有什么關系。
這倆方向我都努力去嘗試了,沒做成,不過好友慶華兄倒是做了個細胞亞定位的預測工具還發表了。咱沒做成的原因后來也想明白了,ANNs也好SVM也好,這些都是機器學習(Machine Learning)類算法,這是搞計算機或者自動化的菜,我一個學化學的瞎湊啥熱鬧?
這倆方向做不成沒有關系,咱換個東西繼續折騰。
第三個我看好的方向是序列比對(Sequence alignment),可問題在于雙序列比對的兩個經典算法Needleman-Wunsch和Smith-Waterman我一個都看不懂,已有的方法看不懂,怎么有可能做新方法?后來看懂的時候是07年要給本科生們上課,琢磨著要是瞎講估計要被學生投訴,所以老老實實翻課本、查文獻,居然看懂了。因此這個機會自然是錯過了。
第四個選擇的方向是分子動力學(Molecular Dynamics, MD),對,你木有看錯,就是Michael Levitt拿諾獎的工作(參見《震撼了!生物信息學終于也發獎了!》)。這玩意兒我不會但是咱樓下的劉老師是高手,所以跑去請教。劉老師溫文爾雅對學生歷來和善,上來丟了本書給我說小伙兒回去先練練葵花寶典。書打開一看,我倒抽一口涼氣:我靠,從第一頁開始一路推公式推到最后一頁。最后硬整了幾個月一個公式沒看懂,這個方向自然也就歇了。
02年底03年初還有個方向貌似很不錯:基因芯片的數據分析。芯片剛出來的時候又貴數據質量又差,可那時候很多人已經很敏銳的察覺到這是個有前途的方向,所以當時國內搞生信的好多人都跳了這個坑,并且賺的盆滿缽滿。這個方向咱鼓搗了幾個月沒做成,沒做成的原因是這玩意兒需要統計學的基礎,咱不懂統計怎么做?所以只能眼睜睜看著機會飛走了。
雖然現在基因芯片已經逐漸被NGS取代了,但當年轉這方向的弟兄們一點兒都不吃虧,芯片數據分析和NGS分析比較相似,無非是前者用正態分布來模擬,后者用負二項分布來模擬,換個統計模型稍微改進點兒方法繼續用,繼續發文章發到手軟。
當時還有幾個很不錯的方向。一個是蛋白質相互作用預測,主要是師兄發給我一篇JMB文章,說這個方向有前途。后來08年第一次請Shirley來科大訪問的時候,她說這個方向其實沒前途,因為那時候全世界只有三個研究組可以產生新數據,而有幾百個研究組在做計算分析,我又是剛入門的菜鳥,怎么可能有競爭力?
另一個就是siRNA設計效率預測(與sgRNA設計效率預測很類似)、miRNA預測以及miRNA靶基因的預測,當時國內國外跳這個坑的也是一大把,自然是都賺的眉開眼笑。
咱錯過了這個好機會,主要是因為第一,老板不感興趣。老板不感興趣是因為咱實驗室主要做細胞有絲分裂,關心的是蛋白質而不是核酸,老板當時問我說你做這個能解決什么問題?咱支支吾吾半天也講不清楚。第二,RNA干擾技術剛出來那幾年是又貴沉默效率又差,你覺得哪個老板愿意花大把銀子給一個做啥啥不成的研究生來練手?
所以后來生物網絡這個方向起來之后,咱又跑去做網絡。不過網絡這東西偏物理,咱物理學的不好提不出新概念,也做不出新方法。好容易拿著實驗室師兄們做的數據構建了一個網絡,被師兄們一句話批死了:實驗結果也可能是錯的,你這個網絡怎么可能一定是正確的?
所以到04年的時候明白了幾件事情:
第一,剛開始做方法學不能指望有實驗驗證,要找能夠在計算上講清楚的問題來做。計算預測的確需要實驗驗證,但因為往往后續的實驗時間很久新數據也很難拿到,所以計算上發展了不少檢驗預測性能的方法,例如除一法(Leave-one-out validation)和n倍交叉檢驗法(n-fold cross-validation)等。如果做得方法有用,預測的精準,解決的問題也不錯,那么即使沒有實驗驗證也還是會有很多人用,因為無論怎么說拿工具預測都不需要成本,即使不夠準確也能縮小待驗證的范圍,不花錢還有便宜可占,當然是不用白不用。至于不要指望有實驗驗證,這個也很簡單,既然你還是nobody,也就不要奢求有somebody會相信你是在做研究而不是忽悠。
第二,要做的方向一定得是自己能搞定的,生信很雜,處理不同的問題往往需要不同學科的知識,沒有這方面的背景基本上是不可能很快做出來的。
第三,提高研究能力除了自己讀文獻做練習題之外,最好的方法是合作,有志同道合知識背景互補的搭檔做起研究會快很多。搞生信自己一個人折騰的不是沒有,但要做的又快又好差不多合作是必須。
比方說,想出來一個有意思的問題這得需要生物學知識吧?生物沒學好就得邊兒呆著去了;問題想出來得轉化成數學模型吧?數理差的邊兒玩去了;模型構建好得編程實現吧?編程差的邊兒喝茶去了;做完預測你得分析吧?統計學的差又得邊兒站著了;分析完你得整點兒實驗吧?體外實驗大家不相信,你還得做點兒細胞,做完細胞大家又希望你做動物,做完動物大家又希望你結合點兒臨床,有臨床大家又想看看你這玩意兒能不能做個性化醫療,對吧?好的雜志你做多少東西編輯們也不會嫌多,做少了那就邊兒呆著去。一個人能搞得定這么多東西?
等到04年6月,咱那時候看文獻看的勤,正好看到一篇文章,做了一個新的磷酸化數據庫Phospho.ELM,正好實驗室研究方向細胞有絲分裂是受磷酸化調控的,咱對這個很熟悉,所以當時感覺機會來了,于是和豐豐討論了之后立即動手,幾個月之內就發了第一篇論文,后來慢慢就做成了一個小方向。期間核酸方面的研究,比如NGS技術從誕生到現在的成熟,咱看看不動手做。嘴上說不感興趣其實是做不了。
做不了的原因是:
第一,我沒錢不能產生新數據,為什么華大能夠迅速進入NGS領域搶地盤?這玩意兒費錢費的厲害,學術單位不可能有華大這樣的財力。國內早期做NGS能做得成的,要么砸錢是和華大合作,要么是借錢然后和華大合作;
第二,我也沒好的機器,這玩意兒計算量太大,沒有超級計算機想做方法學是不可能的;
第三,NGS做新算法需要很強的數理基礎和編程實現能力,并且精力還得旺盛肯折騰,華大為什么能出一堆神童?聰明當然是必須的,年輕能扛得住折騰更重要。華大那位剛離職的小王爺,那可是能跑馬拉松的主兒,體能不是一般的好;
第四,全世界最好的生信學家都在做NGS,你覺得我能斗得過哪位?對吧,打不過咱還躲不過嗎?生信的問題有的是,何必一棵樹上吊死?后來朋友老建議我轉NGS,每次要解釋感覺麻煩,所以千言萬語化成一句:沒有興趣。
做個總結,生命在于運動,人生在于折騰。搞研究嘛,做不成很正常,能做成那是僥幸,大家都錯過很多機會,沒有關系。另外,既然是接龍,那我邀請哈佛大學劉小樂教授來寫下一篇,不過很大可能Shirley會寫成英文版,要不裝個詞霸慢悠悠看吧!哈佛大學教授劉小樂:我與生物信息學的不解之緣
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
總結
以上是生活随笔為你收集整理的【NGS接龙】薛宇:漫谈生物信息圈儿的那些年、那些事!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一个R包玩转单细胞免疫组库分析,还能与S
- 下一篇: 让你的单细胞数据动起来!|iCellR(