Nature重磅综述|关于RNA-seq,你想知道的都在这(续)
生物信息學習的正確姿勢
NGS系列文章包括NGS基礎、在線繪圖、轉錄組分析?(Nature重磅綜述|關于RNA-seq你想知道的全在這)、ChIP-seq分析?(ChIP-seq基本分析流程)、單細胞測序分析?(重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程)、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step))、批次效應處理等內容。
之前整理的一篇大綜述 — Nature重磅綜述 |關于RNA-seq,你想知道的都在這收到了熱烈反響,閱讀人數過萬。
行文很長,最后精煉下來的文字近三萬,適合深度閱讀思考。
上次發出時,有讀者留言說部分專業名詞不理解。為了方便理解和對綜述有個概覽,特整理了下面的思維導圖,對應原文,共計8個大標題,大標題下又分有小主題,各個分支介紹有每個主題的主要內容及采用方法。
內容已發布在石墨文檔,鏈接如下:
https://shimo.im/mindmaps/qQVV3r3Pqx8DVGjC/ 《RNA-seq思路圖(歡迎大家備注、修改,可先創建副本,在副本文件修改)》,可復制鏈接后用石墨文檔 App 或小程序打開
Note:想要打開全部分支、添加備注或修改信息,請先創建副本,在備份文件打開修改,原文件不支持修改
原文在深度總結了RNA-seq這些年的同時,還分享了文中一些名詞的解釋,編譯分享如下,希望有助于進一步理解學習。
NGS基礎 - FASTQ格式解釋和質量評估
NGS基礎 - 高通量測序原理
NGS基礎 - 參考基因組和基因注釋文件
NGS基礎 - GTF/GFF文件格式解讀和轉換
NGS基礎 - 測序原始數據下載
如果不是沒有錢,誰想測3個重復?
Read depth?Read深度:一個樣本測序得到的reads數;容易和基因組測序的覆蓋度 (多少基因組區域被測到了)和測序深度混淆 (單個核苷酸被測到的次數或所有核苷酸被測到的平均深度)。
Short-read?短讀長:測序得到的長度最大是500 bp的reads,常見的測序片段長度為100-300 bp;本文中的短讀長測序片段代表測到的mRNA片段和降解了的mRNA。
Long-read?長讀長:測序得到的超過1000 bp的reads,本文中代表全長或近乎全長的mRNA。
Direct RNA sequencing?(dRNA-seq): 直接測序RNA而非cDNA的測序技術,通常用于測序全長或近全長的mRNA 。
Multi-mapped reads?多重比對的reads:從轉錄組同源區域測序得到的reads,不能精確確認其轉錄本或基因組的來源。
Synthetic long reads?合成long reads:通過組裝多個短讀長得到長讀長的方法。
唯一分子標識符(UMIs):在擴增前,構建RNA-seq文庫的時候加入的短序列或barcodes,理想情況下每條轉錄本結合一個唯一的標識符,含有此標識符的reads都來源于此轉錄本,定量時只計算一次。可以用來降低RNA-seq的定量偏好性,在RNA起始量低的單細胞實驗中尤為適用。
Read length?讀長:單個測序reads的長度,short-read RNA測序得到的長度通常是50-150 bp。
Sensitivity?敏感性:樣本中多大比例的轉錄本會被測到,敏感性越高,這一比例越高。它受樣本處理、文庫制備、測序和計算偏好性的影響。
Specificity?特異性:度量差異表達轉錄本被正確鑒定出的比例的方法,它受樣本處理,文庫制備,測序和計算偏好性的影響。
Duplication rates?重復Reads比率:比對到轉錄組相同位置的的測序reads的比例。在RNA-seq文庫中,一些轉錄本可能有高的重復率,因為它們在樣本中表達水平高。高表達的基因的重復率很高,而低表達基因的或許有著最小的重復率。由此RNA-seq面臨著一個挑戰,該技術中大部分重復可能是高表達轉錄本帶來的真實信號,而另一些則是由于擴增和測序偏好性造成的。
Single-end sequencing?單端測序 (SE):只測序cDNA片段的一端,因其費用低,常用于只關注差異基因表達的項目中。(NGS基礎 - 高通量測序原理)
Paired-end sequencing?雙端測序 (PE):cDNA片段兩端分別測序,可以測序到cDNA的更多堿基,更好的識別剪接位點,常于差異基因表達分析項目。
生物學重復:對生物來源不同的樣本的多次檢測,比如來自三個個體的組織,用于捕獲生物個體自身的變化;這個變化要么是待研究的對象,要么是噪音。相較之下,技術重復是對同樣的樣本做重復的操作—比如,對一個組織做三次處理。
Expression matrix?表達矩陣:差異表達RNA-seq項目的核心數據文件。每一行代表一個RNA,比如基因或者轉錄本。每一列是一個測序的樣本。矩陣中的數值是每個RNA的reads數。這些可能是對轉錄異構體的計數估計,并通常在后續的分析前先進行標準化轉化。
Spike-in control?內參:按特定濃度添加到樣品中的外源核酸庫。它們通常是預先合成的不同濃度的RNA,用于監測反應效率和技術方法的偏差和假陰性結果。
Spatialomics?空間轉錄組學:能保留給定樣本(通常是組織切片)中每個轉錄本的空間信息的轉錄組分析方法。
Nascent RNA?新生RNA:剛剛轉錄出來的RNA,與已經加工并運輸到細胞質的RNA相對應。
Translatome?翻譯組:細胞、組織或生物體中正在翻譯成蛋白質的mRNA集合。
Structurome?結構組:細胞、組織或生物體中RNA的二級和三級結構集合。
Interactome?互作組:細胞、組織和生物體中分子相互作用的集合,包括有RNA-RNA或者RNA-蛋白質的相互作用。
Differential gene expression (DGE)?差異基因:兩個實驗組中表達顯著變化的基因。
你可能還想看
往期精品(點擊圖片直達文字對應教程)
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的Nature重磅综述|关于RNA-seq,你想知道的都在这(续)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国十大科技进展2项,世界十大科技进展6
- 下一篇: 学习生信的系列书籍