(转)如何成为顶级生物信息学家?
每過一段時間就要讀一遍,看看自己現在到底在哪個等級了。
前幾天去南京參加兩年一度的全國大會CCBSB2014,今年是第六屆,見到許多熟識的前輩和老朋友,也結識了不少新朋友。相比于兩年前在哈爾濱開的第五屆大會,參會人數又多了100多。連大會特邀報告算上,總共76位學者做口頭報告,其中30位學者我之前并不認識,這個比例正好是40%。領域里的大會小會,無論何時、何地,總有約40~50%的學者我不認識,這個比例近年來恒定不變,咱生信領域發展速度之快,由此可見一斑。70多位學者的報告所涉及的研究方向,大概至少有60多個,兩位或者多位學者從事一個小的研究方向的現象,非常少見。昨晚和有11年交情的好友一起吃飯,大家回憶十年前國內生信開大會的場景,想了半天慶華來一句:那會兒大家好像沒啥可以做的,哪像現在這么多問題啊!所以咱生信領域現在真實的場景是:火打著,油門踩到底,檔掛到頂,一望無際的荒原,使勁的狂奔,一往無前;有條件的開法拉利,沒條件的開樂馳,實在沒條件的蹬個三輪兒也行,反正地盤兒有的是,誰搶著算誰的。兄弟我對這一現象總結:圈地運動。講這兒估計有人不高興了:你們生信咋做的這么散呢?這個不是咱生信想做的散:問題實在太多,又不缺數據,自己感興趣的問題都沒解決,哪有時間管人家的東西啊?使勁兒的沖就得了。至于即將畢業,或者剛畢業的同行兄弟們,也別覺得沒肉吃了,大家就算這么裸奔,也遠沒有涵蓋生信所有的方向,并且一般一個小領域往少了說能容納10位學者不算擠,那咱這領域的規模擴大10倍也照樣容得下。所以咱在這兒說一句:歡迎加入圈地運動(要不改成“生信歡迎您”?)。
***************************************************************************
講完廢話講正事。話說八號晚上參會的學者們開了一個“青年沙龍”,形式很活潑,討論了各種問題,其中忘記誰提了個問題,大致就是怎么評價生物信息學者的水平。大家七嘴八舌說了半天,最后Shirley做總結,眾人一聽,有道理。所以回來之后Shirley就寫了篇博文《Levelsof Bioinformatics Research》,建議同行兄弟們讀讀,推薦指數五星。因為咱生信算是比較新的研究領域,又是交叉學科,一般來說正統搞計算的覺得你在方法上沒貢獻,搞生物的又覺得你其實也就是個修電腦的。話說到這,電話鈴兒響了,二樓打電話讓過去看一下電腦咋黑屏了。好嘛,蹬蹬蹬跑下樓,圍著電腦琢磨了半天,明白了:插頭沒插緊。擺平,回辦公室。因此交叉學科評價這是個問題,哪邊兒都不討好,給個醬油級的評價那已經算是給面子了。所以同行評議才合理,好在咱生信現在人也不少,建立同行評議的機制并不困難。兄弟我寫博客屬于踩西瓜皮式的寫法,滑哪兒寫哪兒,這篇咱盡量忠于Shirley的原文,不改主要的觀點。
如何成為頂級的生物信息學家?看你的研究。所以Shirley將生物信息學研究(注意,不是生物信息學者本人)的水平劃分成五個層次。此外,Shirley不區分生物信息學(Bioinformatics)和計算生物學(Computational biology),因此這兩個概念不做區分。在這里咱再重復一遍,生物信息學和計算生物學的區別,就是西紅柿炒蛋和蛋炒西紅柿的區別,您要覺得有區別,那看我嘴型:呵呵。
0級 (Level 0):為建模、而建模(modeling for modeling’s sake)。簡稱:渣級。Shirley在博客里提到說“如果你記得功夫熊貓”,問題是我沒記得這個,腦子里想的是《憨豆的黃金周》里那段nothing, nothing, nothing… 原博舉的例子是,之前有人問:現在數據這么多,能建模的東西一大把,那我們該干點啥呢?Shirley就問:你想解決啥問題?答:建模的問題。這就像我坐電梯看見認識的研究生,說小伙最近忙啥呢?答:做水稻呢。繼續問:具體研究的啥?不高興了,詫異:研究水稻啊!然后給我解釋了半天中國要研究水稻的必要性。我…兄弟我每天吃米飯還固定要研究水稻三遍呢。原文解釋,這個回答是OK的,如果科學家僅僅將自己當成數學家、統計學家、計算機科學家、物理學家,或者像我這樣用嘴巴研究水稻的吃貨,因為在這些學者各自的領域里,確實有許多好的理論建模問題。但如果這些學者是認真對待生物信息學的研究,這個回答不OK。許多0級生物信息學家們從來不讀或者不發表生物學期刊上的論文,也不參加生物學的會議,因此這個級別屬于“未入門級”。根據人以類聚,物以群分的原則,0級生物信息學家們通常只閱讀自己或者其他0級生物信息學家的論文,并且,并且引用也是自引或者被同級別的學者引用。因此這類研究就是浪費資源。
1級(Level 1):給數據、能分析。簡稱:菜鳥級。這類研究一般是分析自己或者合作者實驗室里未發表的數據,并試圖獲得新的生物學發現。相比與0級,這已經有很大的進步,并且是訓練生物信息學者最好的途徑之一。可以練習將已有的生物信息學技術來做出真正生物學發現的技巧,學習更多的生信技術和生物學知識,可以啟發、衍生出2級和3級的好課題。評價1級科研的功底和水平要看數據有多復雜, 是否需要生信人員寫一些程序和算法(而不是只用他人的工具),生信分析在整個研究中的有重要性 (最重要的假設發現是不是由生物信息分析出來的,文章中生信圖表的個數),實驗與計算的結合程度 (實驗與計算 環環相扣,而不是高通量實驗數據獲得完跟個生信分析就拉倒),以及研究中生物學的發現是不是真的有意思,等等。因此兄弟我的看法是,1級雖然是“入門級”,但非常非常重要,所有生信專業研究生的必經之路,非生信領域的學者或學生,能達到1級中已可算是高手,進階到1級上那就是鳳毛麟角了。
2級(Level 2):想新招、玩數據。簡稱:肉鳥級。具有2級水準的生信研究有:1) 設計方法解決生物醫學相關大數據分析中普適、定量的問題。比如咱生信課本里經典的用于雙序列比對的Smith-Waterman算法等等;2) 設計算法來分析新的高通量技術所獲得的數據,例如華大基因設計的用于二代測序短讀段 (read) 映射到基因組上的SOAP系列工具,這就是典型的2級工作;3) 從各種公共數據中通過整合建立數據庫或數據資源。這個太多了,生信領域各種專業、精心注釋的數據庫,都屬于2級的研究。2級比1級高的地方,在于1級只能幫助一個實驗室或者固定的、極有限的合作者,而2級的工作則可以幫助數百甚至數千的生物學家。2級的工作不必須發表在頂級的期刊上,時間會證明一切,比如分子進化領域的經典軟件MEGA,每年幾千的引用跟玩兒一樣。這些方法并不見得必須要非常新,利用已有的統計或者計算方法來解決新的生物學問題已經足夠保證其新穎性,但必須盡可能保證用戶的友好性。開發者一般在發表之后還需要做非常非常多的工作,比如維護、升級,即使不在發表后續的論文。評價2級的生信研究工作不能數影響因子,但做的好卻比較容易被領域認可(例如,華大基因發表NCS對咱搞生信的來說未必認可,但人家的SOAP系列做的肯定是專業水準的)。此外,2級的研究要做的好,生物信息學者一般需要專注于自己特定的方向,從而能夠較好地了解領域內相關的、新的計算方法和實驗技術。總體來說,國內生信專業的博士畢業,一般起碼要做出2級下水平的工作,總得有點兒新玩意兒,不然想畢業幾乎是不可能的。而對于非生信領域的學者,從1級進階到2級幾乎是不可能的,咱生信人的飯碗,不是想砸就能砸的了的。所以對于業余票友們來說,與其花精力試圖進階2級,還不如找專業學者合作更劃算。
3級(Level 3):玩數據、作發現。簡稱:頂級。3級的生信研究一般是整合公共的高通量數據,利用相當精致的方法來做出生物學發現。因此這樣的工作一般是從數據開始,實驗驗證結束。這就需要生物信息學家具有非常扎實的生物學知識,并且能夠自己提出有意思的生物學問題。生物信息學家可以領導一個生物學的項目,并且實驗學的合作者能夠相信預測的正確性以及意義,并樂意開展實驗驗證。這個級別的研究一般都需要實驗驗證,不然頂級的期刊不收。對這類工作的評價,主要是看生物學的問題是否有意思,數據整合和分析是否有足夠的技巧和合理性,并且也可以根據雜志發表期刊的檔次(影響因子)來判斷。例如我在《環形RNA分子:論開掛在生命科學研究中的重要性》提到的工作,這是典型的3級研究。從2級進階到3級很困難,兄弟我目前正在努力中。
X級(Level X):玩科學、講政治。簡稱:神級。在這個級別,生物信息學家要在巨型項目產生的海量數據的整合和模擬中發揮關鍵作用。做這個級別工作的生物信息學家一般具有良好的1級和2級的研究記錄,并且在團隊研究中要具有非凡的領導才能。這些工作一般都發表在頂級的期刊,并且引用極好,在研究過程中要注意協調方方面面。盡管有時生信對于這些論文的發表是重要的,但往往數據本身可能比方法更重要。例如期刊判斷論文要依據其數據量的大小以及潛在的引用,而不是生信。此外,這類工作更多的是反映第一作者老板們的領導力以及在領域里的地位,而不是第一作者的技術能力和創造力。所以X級論文的第一作者們往往并不會得到足夠的認可。因此,這些工作中的一作在獨立研究之后,往往是必須建立科學的聲譽,并且與之前X級工作無關。學者參加一些X級的生信研究無可厚非,因為這些項目的成員一般在各自領域都是頂級學者。但如果學者只開展或者只發表X級的工作,那就表明該學者在政治方面的關注已經超過科學了。兄弟我舉例:典型的X級生信研究工作如艾瑞克?蘭德 (Eric Lander) 領銜的人類基因組草圖的公布《Initialsequencing and analysis of the human genome》。艾瑞克是第一作者也是共同通訊作者,因為這篇論文主要是他寫的,所以數據也自然主要是他分析的。這篇論文影響深遠,最重要的就是基本確定了基因組學這類超級項目的研究范式以及論文的書寫格式,例如這類論文一般不帶后續的實驗驗證,所以也是有爭議。這也就是為什么國內老是講華大在灌水的原因,第一,華大顯然是在灌水;第二,這個灌水模式是老外發明的;第三,那你很容易就能明白,其實老外灌的更狠;第四,你老外自己定的游戲規則,你還玩不過華大,那你得懂“愿賭服輸”這個道理。
Shirley總結,對于生物信息學者來說,一般從1級的研究開始,學習基本的生信技術;等到計算和生物學知識掌握差不多之后,可以嘗試想2級和3級進階,并且有可能也參與X級的研究。如果條件允許的話,一般有成就的生物信息學家的研究會從1級做到X級,不會專注某一個級別(所以搞生信研究不能挑食)。也有許多生信學者包括Shirley本人也在開始做實驗并且產生實驗數據,這樣實驗的內容要拿去跟實驗學家的工作去比,而計算部分則可按照上述五個類別來評價。因此,當您再讀基因組和生信的論文,可以帶著“這是什么水平的生信工作”這個問題來閱讀。嘗試客觀的評價生信工作,而不是數論文發表期刊的影響因子。
?? 注:本篇博文的觀點不代表本人觀點,但兄弟我對這些觀點表示無比的贊同。從1級到2級,對于生信專業的研究生和教師們來說不難,但2級到3級卻極其困難,對于和我年齡相當的同行朋友來說,要跨越這一步幾乎是難比登天。以及邁這個坎的,恭喜;如我般還在苦苦修煉的,也不必心急,武功練到境界了,破關也就是水到渠成的事情。同勉。
轉載本文請聯系原作者獲取授權,同時請注明本文來自薛宇科學網博客。
鏈接地址:http://blog.sciencenet.cn/blog-404304-834869.html
轉載于:https://www.cnblogs.com/leezx/p/6265527.html
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的(转)如何成为顶级生物信息学家?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C# 两时间,时间间隔
- 下一篇: 闭包、执行环境、作用域链