生物基因结构
基因結(jié)構(gòu)
最近需要對(duì)啟動(dòng)子區(qū)域進(jìn)行預(yù)測(cè),所以首先對(duì)啟動(dòng)子的結(jié)構(gòu)特征進(jìn)行了解,而說(shuō)到啟動(dòng)子,那就一定要了解基因結(jié)構(gòu),所以,在網(wǎng)上查找了部分資料進(jìn)行整理與學(xué)習(xí)。
首先,根據(jù)RNA合成的不同時(shí)期,從DNA到成熟mRNA,分為三個(gè)階段了解基因結(jié)構(gòu)的變化。
RNA合成
特點(diǎn)
RNA聚合酶-RNA polymerase:
細(xì)菌 Bacteria:全酶 (Holoenzyme) 由一種核心酶(α2ββ’σω)和多種因子組成。
真核生物 Eukaryotes:三種 RNA 聚合酶 ,根據(jù)對(duì)α-鵝膏覃堿分為三類(lèi)。
| RNA 聚合酶Ⅰ | 核仁 | rRNA(28S, 18S, 5.8S) | 50-70% | 不敏感 |
| RNA 聚合酶Ⅱ | 核質(zhì) | hnRNA*, snRNA, mRNA | 20-40% | 敏感 |
| RNA 聚合酶Ⅲ | 核質(zhì) | tRNA, 5SRNA, 某些涉及 RNA 加工的 snRNA | 約 10% | 存在物種特異性 |
PS:細(xì)菌中研究得最為清楚的是大腸桿菌的RNA聚合酶,該酶是由五種亞基組成的六聚體(α2ββ’ωσ),該六聚體稱(chēng)之為核心酶(coreenzyme),σ因子與核心酶結(jié)合后稱(chēng)為全酶 (Holoenzyme)。
對(duì)RNA的分類(lèi)
其中只有真核生物需要轉(zhuǎn)化成前mRNA,而細(xì)菌與原核生物由于缺少內(nèi)含子不需要這一步。
-
hnRNA: heterogeneous nuclear RNA, 核內(nèi)不均一 RNA, RNA 的前體
-
snRNA:核小RNA是真核生物轉(zhuǎn)錄后加工過(guò)程中RNA剪接體(spliceosome)的主要成分,參與mRNA前體的加工過(guò)程。
-
snoRNA:核仁小RNA(small nucleolar RNA)由內(nèi)含子編碼,分布于真核生物細(xì)胞核仁的小分子非編碼RNA,具有保守的結(jié)構(gòu)元件。已證明有多種功能,主要參與rRNA的加工;反義snoRNA指導(dǎo)rRNA核糖甲基化。
-
scRNA:,胞質(zhì)小RNA(small cytoplasmic RNA,scRNA),細(xì)胞質(zhì)中的小分子RNA。通常指轉(zhuǎn)移核糖核酸(tRNA)和小的核糖體RNA(rRNA),如5S rRNA、5.8S rRNA等。
-
tmRNA:轉(zhuǎn)運(yùn)-信使RNA(Transfer-messenger RNA),是一種細(xì)菌的RNA分子,是tRNA和信使RNA類(lèi)似物。 tmRNA的用途十分廣泛,它可用于回收停滯的核糖體,并有利于異常的信使RNA的降解。
DNA
轉(zhuǎn)錄是從DNA聚合酶結(jié)合到模版鏈上開(kāi)始的,用一個(gè)簡(jiǎn)單模型來(lái)概括就是將DNA分為兩個(gè)部分,編碼區(qū)與非編碼區(qū)。下圖是包含了一個(gè)最簡(jiǎn)單的轉(zhuǎn)錄單元(transcription unit),轉(zhuǎn)錄單元起始于啟動(dòng)子并終止于終止子。
PS:一個(gè)轉(zhuǎn)錄單元只包含一個(gè)基因,而轉(zhuǎn)錄本是由多個(gè)轉(zhuǎn)錄單元加上基因間隔區(qū)組成的。
由上圖可以看出,基因結(jié)構(gòu)分為編碼區(qū)與非編碼區(qū),真核生物的編碼區(qū)存在內(nèi)含子與外顯子,首先會(huì)生成前mRNA,然后將mRNA中的內(nèi)含子切除,最后合并外顯子形成mRNA。而原核生物沒(méi)有內(nèi)含子,可以直接生成mRNA。
編碼區(qū)
外顯子 Exon:外顯子是在 preRNA 經(jīng)過(guò)剪切或修飾后,被保留的DNA部分,并最終出現(xiàn)在成熟RNA的基因序列中。
內(nèi)含子 Intron:在真核生物中,內(nèi)含子作為阻斷基因的線性表達(dá)的一段DNA序列,是在 preRNA 經(jīng)過(guò)剪切或修飾后,被切除的DNA序列
非編碼區(qū)
非編碼區(qū)雖然不會(huì)被轉(zhuǎn)錄,但是對(duì)與基因的表達(dá)起到了重要的作用,啟動(dòng)子,終止子,增強(qiáng)子等都處于非編碼區(qū)中,且非編碼區(qū)在總RNA中占比超過(guò)90%。非編碼區(qū)RNA可以轉(zhuǎn)錄為功能性RNA,如tRNA,rRNA等;也可以對(duì)轉(zhuǎn)錄起到控制與調(diào)控作用,甚至參與mRNA的加工。
啟動(dòng)子:是一段位于結(jié)構(gòu)基因 5’端上游區(qū)的保守的 DNA 序列,能活化 RNA 聚合酶,使之與模板 DNA 準(zhǔn)確地相結(jié)合并具有轉(zhuǎn)錄起始的特異性。啟動(dòng)子長(zhǎng)約100-1000bp。在轉(zhuǎn)錄過(guò)程中,RNA聚合酶與轉(zhuǎn)錄因子可以識(shí)別并特異性結(jié)合到啟動(dòng)子特有的DNA序列(一般為保守序列),從而啟動(dòng)轉(zhuǎn)錄。啟動(dòng)子本身并不轉(zhuǎn)錄而且也不控制基因活動(dòng),而是通過(guò)轉(zhuǎn)錄因子結(jié)合來(lái)調(diào)控轉(zhuǎn)錄過(guò)程。在細(xì)胞核中,似乎啟動(dòng)子優(yōu)先分布在染色體區(qū)域的邊緣,可能是在不同染色體上共同表達(dá)基因。 此外,在人類(lèi)中,啟動(dòng)子顯示出每個(gè)染色體特有的某些結(jié)構(gòu)特征。
原核生物啟動(dòng)子
原核生物的啟動(dòng)子最重要的是-10區(qū)與-35區(qū),如果在原核生物中這兩個(gè)區(qū)域之間的距離超過(guò)或小于16-19bp,都會(huì)降低轉(zhuǎn)錄活性,可能與RNA Pol本身構(gòu)象有關(guān)。
- -10區(qū)(-10 box,Pribnow 盒)
是由 5 個(gè)核苷酸組成的保守序列,是聚合酶結(jié)合位點(diǎn),其中央大約位于起點(diǎn)上游 10bp 處,所以又稱(chēng)為 -10 區(qū),是真核生物與古細(xì)菌的TATA 盒的原核同源物,具有較短共有序列TATAATAAT。
-10區(qū)特點(diǎn):
研究發(fā)現(xiàn),只有 -10 區(qū) 是不能結(jié)合 RNA 聚合酶的。從噬菌體的左、右啟動(dòng)子 PL 及 PR 和 SV40 啟動(dòng)子的 - 35 bp 附近找到了另一段共同序列:TTGACA
- -35區(qū)(35 box ( Sextama 盒 ))
其保守序列為 TTGACa, 與 -10 序列相隔 16-19bp。
為 RNA pol 的識(shí)別位點(diǎn)。
是 RNA 聚合酶與啟動(dòng)子的結(jié)合位點(diǎn),能與 σ 因子相互識(shí)別而具有很高的親和力。但不能被 RNA Pol 的核心酶識(shí)別,核心酶只能起到和模板結(jié)合和催化的功能。
- 原核生物啟動(dòng)子的共同特點(diǎn)
- 位置和距離都比較恒定,都在其控制基因的 5’端,常和操縱子相鄰;
- -35 序列,-10 序列等特征序列都十分保守;
- 都含有識(shí)別 (R ) 、結(jié)合 (B) 和起始 (I) 三個(gè)位點(diǎn);
- 直接和多聚酶相結(jié)合,與 σ 結(jié)合決定轉(zhuǎn)錄的特異性。
σ因子自身并不能與 DNA 結(jié)合,但與核心酶相互作用后暴露出σ因子的 DNA 結(jié)合域:β’ 亞基的氨基酸片段促進(jìn) σ因子與啟動(dòng)子 -10 框的非模板鏈的結(jié)合。
σ因子可以選擇哪些基因?qū)⒈晦D(zhuǎn)錄:
- σ70 (RpoD)-“管家”σ因子/主要σ因子,轉(zhuǎn)錄生長(zhǎng)細(xì)胞中的大多數(shù)基因。制造保持細(xì)胞存活所必需的蛋白質(zhì)。
- σ54 (RpoN) -氮源缺陷應(yīng)激σ因子
- σ38 (RpoS) -饑餓應(yīng)激σ因子
- σ32 (RpoH) 熱休克應(yīng)激σ因子
- σ28 (RpoF) -鞭毛σ因子
- σ24 (RpoE) -極端/極端應(yīng)激σ因子
- σ19 (FecI) -檸檬酸鐵σ因子,調(diào)節(jié)用于鐵運(yùn)輸?shù)?fec 基因的轉(zhuǎn)錄
真核生物啟動(dòng)子
真核生物 RNA 聚合酶Ⅱ所識(shí)別的啟動(dòng)子區(qū)
- TATA box(Hogness 區(qū))
-25 ~ -30 bp 區(qū),保守序列為 TATAAA。確定轉(zhuǎn)錄起始位點(diǎn),使轉(zhuǎn)錄精確地起始:如果除去 TATA 區(qū)或進(jìn)行堿基突變,轉(zhuǎn)錄產(chǎn)物下降的相對(duì)值不如 CAAT 區(qū)或 GC 區(qū)突變后明顯,但發(fā)現(xiàn)所獲得的 RNA 產(chǎn)物起始點(diǎn)不固定。
- 啟始子 (initiator, Inr):轉(zhuǎn)錄起始位點(diǎn)附近。
- 上游啟動(dòng)子元件 ( upstream promoter element, UPE, 又稱(chēng) 上游激活序列 (upstream activating sequence, UAS) : TATA 區(qū)上游的保守序列。
- CAAT box
CCAAT box(有時(shí)也縮寫(xiě)為CAAT box或CAT box):具有GGCCAATCT 共有序列的不同核苷酸序列 ,是真核生物基因常有的調(diào)節(jié)區(qū),位于轉(zhuǎn)錄起始點(diǎn)上游約-80bp處,可能也是RNA聚合酶的一個(gè)結(jié)合處,控制著轉(zhuǎn)錄起始的頻率。與之對(duì)應(yīng)的就是原核的-35區(qū)。
CAAT框是最早被人們描述的常見(jiàn)啟動(dòng)子元件之一,常位于接近-80的位置,但是它可以在離起始點(diǎn)較遠(yuǎn)的距離仍能起作用,且在兩種取向均可發(fā)揮作用。CAAT框的突變敏感性提示了它在決定轉(zhuǎn)錄效率上有很強(qiáng)的作用,但是突變對(duì)啟動(dòng)子的特異性沒(méi)有影響。
- GC box :-80 ~ -110 含有 GCCACACCC 或 GGGCGGG 序列。
CAAT 區(qū)和 GC 區(qū)主要控制轉(zhuǎn)錄起始頻率,基本不參與起始位點(diǎn)的確定。
- 真核生物啟動(dòng)子特點(diǎn)
增強(qiáng)子 Enhancer
增強(qiáng)子是位于轉(zhuǎn)錄起始位點(diǎn)或下游基因1Mbp的位置,長(zhǎng)度50-1500bp的序列,其可以被轉(zhuǎn)錄激活因子結(jié)合從而增加特定基因轉(zhuǎn)錄發(fā)生的可能性,廣泛的存在于原核與真核生物基因結(jié)構(gòu)中。
增強(qiáng)子能大大增強(qiáng)啟動(dòng)子的活性。增強(qiáng)子有別于啟動(dòng)子處有兩點(diǎn):
終止子 Terminator
終止子與終止密碼子的概念區(qū)分:二者在名稱(chēng)上相似,但是含義是截然不同的。終止子是處于基因的非編碼區(qū)的一段DNA序列,用于終止轉(zhuǎn)錄。而終止密碼子是在翻譯過(guò)程中終止肽鏈合成的mRNA中的三聯(lián)體堿基序列,一般情況下為UAA,UAG和UGA,不編碼為氨基酸。
終止子處于基因或操縱子的末端,給RNA聚合酶提供轉(zhuǎn)錄終止信號(hào)的DNA序列。
- ATAAA
ATAAA 是 preRNA 在通過(guò)修剪后形成成熟mRNA 時(shí)在3’UTR產(chǎn)生ployA 是的加尾信號(hào)。但是這段序列并不是絕對(duì)保守,也可能為其他A富集的序列,比如AATAAA等。
- 回文序列 palindrome sequence
回文序列是雙鏈DNA中的一段倒置重復(fù)序列,這段序列有個(gè)特點(diǎn),它的堿基序列與其互補(bǔ)鏈之間正讀和反讀都相同。當(dāng)該序列的雙鏈被打開(kāi)后,如果這段序列較短,有可能是限制性?xún)?nèi)切酶的識(shí)別序列,如果比較長(zhǎng),有可能形成發(fā)卡結(jié)構(gòu),這種結(jié)構(gòu)的形成有助于DNA與特異性DNA與蛋白質(zhì)的結(jié)合。
preRNA
- 轉(zhuǎn)錄起始位點(diǎn) Transcription start sites (TSS)
轉(zhuǎn)錄起始位點(diǎn)是指與新生RNA鏈第一個(gè)核苷酸相對(duì)應(yīng)的DNA鏈上的堿基,通常為一個(gè)嘌呤(A 或G),即5’UTR的上游第一個(gè)堿基。 通常在起始核苷酸的兩側(cè)為 C 和 T (i.e. CGT or CAT)。
- 轉(zhuǎn)錄終止位點(diǎn) Transcription termination sites (TTS)
轉(zhuǎn)錄起始位點(diǎn)是指新生RNA鏈最后一個(gè)核苷酸相對(duì)應(yīng)的DNA鏈上的堿基。當(dāng)RNA鏈延伸到轉(zhuǎn)錄終止位點(diǎn)時(shí),RNA聚合酶不再形成新的磷酸二酯鍵,RNA-DNA雜合物分離,轉(zhuǎn)錄泡瓦解,DNA恢復(fù)成雙鏈狀態(tài),而RNA聚合酶和RNA鏈都被從模板上釋放出來(lái)。
- 開(kāi)放閱讀框 Open reading frame(ORF)
ORF 是連續(xù)的一段密碼子,其含有起始密碼子(通常是AUG)和終止密碼子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越內(nèi)含子/外顯子區(qū)域,其可以在 ORF 轉(zhuǎn)錄后拼接在一起以產(chǎn)生蛋白質(zhì)翻譯的最終mRNA。 由于讀寫(xiě)位置不同(對(duì)應(yīng)不同的起始位點(diǎn)),ORF 可能翻譯為不同的多肽鏈。
mRNA
從上圖可以看出,外顯子不僅僅只有編碼區(qū)域,還有非編碼的區(qū)域5'UTR與3'UTR。
UTR (Untranslated Region ),如果這段序列位于5’端,就稱(chēng)作5’UTR(5‘-untranslated region),也叫前導(dǎo)序列(leader)。相反若位于3’端,我們就叫它3’UTR(3‘-untranslated region),也叫尾隨序列(trailer)。
5’UTR 位于從mRNA起點(diǎn)的甲基化鳥(niǎo)嘌呤核苷酸帽延伸至起始密碼子AUG,3’UTR從編碼區(qū)末端的終止密碼子延伸至多聚A尾巴(Poly-A)的前端 。
原核生物和真核生物都可以看到UTR,但它們的長(zhǎng)度和組成都有所不同。原核生物中,5′非翻譯區(qū)通常為3至10個(gè)核苷酸的長(zhǎng)度。但在真核生物中,5′非翻譯區(qū)有成百上千個(gè)核苷酸的長(zhǎng)度。與原核生物相比,真核生物的基因組的復(fù)雜性更高,3′非翻譯區(qū)的長(zhǎng)度也不同。雖然5′非翻譯區(qū)和3′非翻譯區(qū)在長(zhǎng)度上有差異,但5′非翻譯區(qū)的長(zhǎng)度在演化過(guò)程中比3′非翻譯區(qū)顯得更保守。
5‘Cap
5‘Cap也被稱(chēng)為7-甲基鳥(niǎo)苷酸帽,縮寫(xiě)為m7G。這種結(jié)構(gòu)在RNA進(jìn)出細(xì)胞核起到識(shí)別作用;可以抗5’-核酸外切酶的截切;促進(jìn)5’端內(nèi)含子的切除;在翻譯過(guò)程中有助于核糖體對(duì)mRNA的識(shí)別和結(jié)合。
3’ PolyA tail
Poly A tail 由多個(gè)腺苷一磷酸組成 ,也就是說(shuō)它是一段僅含有腺嘌呤堿基的RNA 。這種結(jié)構(gòu)可以避免細(xì)胞質(zhì)中的酶促降解,并有助于轉(zhuǎn)錄終止,mRNA從細(xì)胞核中的輸出和翻譯。
CDS (coding dna sequence)
CDS 是基因中DNA或RNA為蛋白質(zhì)編碼區(qū)域,該區(qū)域通常開(kāi)始于5‘末端的起始密碼子并結(jié)束于3’端的終止密碼子。生物體基因組編碼區(qū)的總和稱(chēng)為外顯子組。
CDS與ORF的區(qū)別與聯(lián)系:
- CDS是Coding sequence的縮寫(xiě),是指編碼一段蛋白產(chǎn)物的序列,是與蛋白質(zhì)密碼子一一對(duì)應(yīng)的序列。
- ORF是open reading frame的縮寫(xiě),翻譯成開(kāi)放閱讀框,是指從一個(gè)起始密碼子開(kāi)始到一個(gè)終止密碼子結(jié)束的一段序列,但并不是所有讀碼框都能表達(dá)出蛋白產(chǎn)物(在我看來(lái)就是可能會(huì)包含內(nèi)含子,讀碼框本省無(wú)法翻譯為蛋白質(zhì),但是經(jīng)過(guò)剪切后就可以)
- CDS必定是一個(gè)ORF,但也可能包括多個(gè)ORF,相反,每個(gè)ORF不一定都是CDS。(真核與原核)
參考資料
基因結(jié)構(gòu):https://zhuanlan.zhihu.com/p/49601643
轉(zhuǎn)錄:https://blog.csdn.net/zea408497299/article/details/124464842?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522166081277516781432993626%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=166081277516781432993626&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2allfirst_rank_ecpm_v1~rank_v33_ecpm-3-124464842-null-null.142
總結(jié)