在基因表達(dá)研究中,研究者比較注意選擇合適的表達(dá)載體和宿主系統(tǒng),而往往忽視基因本身是否與載體和宿主系統(tǒng)為最佳匹配這樣一個(gè)實(shí)質(zhì)性問題;虻淖罴鸦磉_(dá)可以通過對基因的重新設(shè)計(jì)和合成來實(shí)現(xiàn),如消除稀有密碼子而利用最佳化密碼子,二級結(jié)構(gòu)最小化,調(diào)整GC含量等。以下就密碼子最佳化、翻譯終止效率和真核細(xì)胞中異源蛋白表達(dá)的問題加以說明。
密碼子最佳化(codon optimization)
遺傳密碼有64種,但是絕大多數(shù)生物傾向于利用這些密碼子中的一部分。那些被最頻繁利用的稱為最佳密碼子(optimal codons),那些不被經(jīng)常利用的稱為稀有或利用率低的密碼子(rare or low-usage codons)。實(shí)際上用做蛋白表達(dá)或生產(chǎn)的每種生物(包括大腸桿菌,酵母,哺乳動(dòng)物細(xì)胞,Pichia,植物細(xì)胞和昆蟲細(xì)胞)都表現(xiàn)出某種程度的密碼子利用的差異或偏愛。大腸桿菌、酵母、果蠅、靈長類等每種生物都有獨(dú)特的8個(gè)密碼子極少被利用。有趣的是,靈長類和酵母有6個(gè)同樣的利用率低的密碼子。大腸桿菌、酵母和果蠅中編碼豐度高的蛋白質(zhì)的基因明顯避免低利用率的密碼子。因此,重組蛋白的表達(dá)可能受密碼子利用的影響(尤其在異源表達(dá)系統(tǒng)中)的事實(shí)并不很奇怪。你的基因利用的密碼子可能不是你正在利用的蛋白生產(chǎn)系統(tǒng)進(jìn)行高水平表達(dá)所偏愛的密碼子,這種情況是可能的。利用偏愛密碼子(preferred codons)并避免利用率低的或稀有的密碼子可以合成基因,基因的這種重新設(shè)計(jì)叫密碼子最佳化。
在同源表達(dá)系統(tǒng)中,同較低水平表達(dá)的基因相比,較高表達(dá)的基因可能有很不同的密碼子偏愛。通過對密碼子利用的歸類分析,人們可以真正預(yù)測任何基因在酵母中的表達(dá)水平。在諸如Zea mays的其他生物中,大量高表達(dá)基因強(qiáng)烈偏愛以G或C結(jié)尾的密碼子。而且,在Dictyostelium中,同低水平表達(dá)的基因比較,高表達(dá)基因有較大數(shù)目的偏愛密碼子。
在大腸桿菌中表達(dá)哺乳動(dòng)物基因是不可預(yù)測和具有挑戰(zhàn)的。例如直到最近才實(shí)現(xiàn)了人血紅蛋白的過表達(dá)。為了達(dá)到血紅蛋白的好的表達(dá)水平,Alpha-球蛋白cDNA不得不用大腸桿菌偏愛的密碼子進(jìn)行重新合成。在異源宿主中實(shí)現(xiàn)象血紅蛋白這樣復(fù)雜的蛋白質(zhì)的過表達(dá)可能需要最佳化密碼子,這些研究者為此提供了令人信服的資料。成簇的低利用率的密碼子抑制了核糖體的運(yùn)動(dòng),這是基因不能以合適水平表達(dá)的一個(gè)明顯機(jī)制。核糖體翻譯由九個(gè)密碼子組成的信使(含幾個(gè)低利用率密碼子或全部為低利用率密碼子)時(shí)的運(yùn)動(dòng)速度要比翻譯不含低利用率密碼子的同樣長的信使的速度慢。即使低利用率密碼子簇位于3'端,信使最后也會(huì)被核糖體”擁擠”而損害,核糖體又回到5'端。3'端低利用率密碼子簇的抑制效應(yīng)可以和全部信使都由低利用率密碼子組成的抑制效應(yīng)一樣大。如果低利用率密碼子簇位于5'端,其效應(yīng)是起始核糖體數(shù)目的全面減少,導(dǎo)致蛋白合成中信使的低效率。散在分布的稀有密碼子對翻譯的效應(yīng)還未很好地研究,但是有證據(jù)表明這種情況的確對翻譯效率有負(fù)面效應(yīng)。
其他因素也可以影響蛋白表達(dá),包括使mRNA去穩(wěn)定的序列。重新設(shè)計(jì)合成基因可以去除或改變這些序列,導(dǎo)致高水平表達(dá)。消除稀有密碼子、去除任何去穩(wěn)定序列和利用最佳密碼子的基因的重新設(shè)計(jì)都可能增加蛋白產(chǎn)量,使的蛋白生產(chǎn)更有效和經(jīng)濟(jì)。
翻譯終止效率
蛋白表達(dá)水平受許多不同因素和過程影響。蛋白穩(wěn)定性、mRNA穩(wěn)定性和翻譯效率在蛋白生產(chǎn)和積累中起主要作用。翻譯過程分為起始、延伸和終止三個(gè)期。對于翻譯的起始,原核mRNA需要5'端非翻譯前導(dǎo)序列中有一段叫Shine-Dalgarno序列的特異核糖體結(jié)合序列。在真核細(xì)胞,有效的起始依賴于圍繞在起始密碼子ATG上下游的一段叫Kozak序列的序列。密碼子利用或偏愛對延伸有深刻的影響。例如,如果mRNA有很多成簇的稀有密碼子,這可能對核糖體的運(yùn)動(dòng)速度造成負(fù)面影響,大大減低了蛋白表達(dá)水平。翻譯終止是蛋白生產(chǎn)必須的一步,但其對蛋白表達(dá)水平的影響還沒有被研究清楚。但是最近的科學(xué)研究表明終止對蛋白表達(dá)水平有很大的影響?偟膩碚f,更有效的翻譯終止導(dǎo)致更好的蛋白表達(dá)。
絕大多數(shù)生物都有偏愛的圍繞終止密碼子的序列框架。酵母和哺乳動(dòng)物偏愛的終止密碼子分別是UAA和UGA。單子葉植物最常利用UGA,而昆蟲和大腸桿菌傾向于用UAA。翻譯終止效率可能受緊接著終止密碼子的下游堿基和緊靠終止密碼子的上游序列影響。在酵母中通過改變圍繞終止密碼子的局部序列框架,翻譯終止效率可能被減低幾個(gè)100倍。對于UGA和UAA,緊接著終止密碼子的下游堿基對有效終止的影響力大小次序?yàn)镚>U,A>C;對于UAG是U、A>C>G。
對于大腸桿菌,翻譯終止效率可因終止密碼子及臨近的下游堿基的不同而顯著不同,從80%(UAAU)到7%(UGAC)。對于UAAN和UAGN系列,終止密碼子下游堿基對翻譯的有效終止的影響力大小次序?yàn)閁>G>A、C。UAG極少被大腸桿菌利用,相比UAAN和UGAN,UAG表現(xiàn)了有效的終止,但其后的堿基對有效終止的影響力為G>U,A>C。對于哺乳動(dòng)物,偏愛的終止密碼子為UGA,其后的堿基可以對in vivo翻譯終止有8倍的影響(A、G>>C、U)。對于UAAN系列,in vivo終止效率可以有70倍的差別,UGAN系列為8倍。如果終止密碼子附近序列沒有最佳化,可能發(fā)生明顯增加的翻譯通讀,因此減少了蛋白表達(dá)。例如,在兔網(wǎng)狀細(xì)胞無細(xì)胞翻譯系統(tǒng)里,UGAC的翻譯通讀可以高達(dá)10%,而第四個(gè)堿基如果為A,G或C,翻譯通讀為<1%。
總的來說,翻譯起始框架、翻譯終止序列框架和密碼子利用應(yīng)該仔細(xì)選擇,以利于蛋白的最高水平表達(dá)。翻譯終止序列框架能幾倍地改變蛋白生產(chǎn)水平。
真核細(xì)胞中的異源蛋白表達(dá)
異源蛋白質(zhì)在細(xì)菌中表達(dá)是目前使用的主要的蛋白生產(chǎn)系統(tǒng)。大腸桿菌一直是最經(jīng)濟(jì)的系統(tǒng)之一。然而為了生產(chǎn)需要特異修飾、胞外分泌或有特異折疊需要的蛋白質(zhì),其他表達(dá)系統(tǒng)也是需要的。真核細(xì)胞在表達(dá)原核來源的基因、真核基因的cDNA拷貝或其他無內(nèi)含子的基因時(shí)可能表現(xiàn)很多特異問題。富含AT的基因在很多真核細(xì)胞中表達(dá)時(shí)會(huì)遭遇很劇烈的障礙。主要的真核信號序列如 加poly-A的位點(diǎn)、酵母轉(zhuǎn)錄終止位點(diǎn)和真核mRNA去穩(wěn)定序列都是富含AT的。內(nèi)含子序列也趨向于富含AT,盡管他們有參與剪切過程的很特異的識別序列。雖然絕大多數(shù)原核基因沒有剪切或聚腺苷過程,但這些真核過程需要的保守序列可能存在于原核基因中,因此當(dāng)這些基因在真核細(xì)胞中表達(dá)時(shí)可能引起特異的問題。而且諸如哺乳動(dòng)物和單子葉植物細(xì)胞的特異真核表達(dá)系統(tǒng)可能不能有效地表達(dá)無內(nèi)含子的基因。
真核mRNA在離開細(xì)胞核進(jìn)而在胞漿的核糖體上被翻譯前需要特異的處理和修飾。這些過程包括去除內(nèi)含子、5'端甲基化帽子形成和3'端加poly-A。內(nèi)含子去除需要5'剪切位點(diǎn)、G75/G100U100A65AG65U保守序列、3'剪切位點(diǎn)、富含密啶NC66A100G100/G56保守序列和C72T98R77A100Y75保守序列。有效的加poly-A和mRNA剪切需要一個(gè)由兩個(gè)部分組成的信號:加poly-A保守序列AAUAAA和在切割位點(diǎn)內(nèi)的50個(gè)堿基的富含GT的序列。酵母真核轉(zhuǎn)錄終止序列(幾個(gè)不同的富含AT序列,如含TTTTTATA,TATATA,TACATA,TAGTAGTA的一個(gè)38bp區(qū)域)被研究的最清楚。這些結(jié)果來自對酵母突變體CYCI mRNA的mRNA水平和相對長度的確定的實(shí)驗(yàn)。近期用in vivo質(zhì)粒穩(wěn)定性分析的研究結(jié)果證明:TATATA似乎和原始的38bp野生型區(qū)域一樣有效地終止轉(zhuǎn)錄,而TAGATATATATGTAA和TACATA效率差些,TTTTTTTATA幾乎沒有效率。所有這些序列在反方向時(shí)沒有終止轉(zhuǎn)錄功能。不幸的是幾乎沒有其他真核表達(dá)系統(tǒng)轉(zhuǎn)錄終止序列方面的信息。
內(nèi)含子對幾個(gè)哺乳動(dòng)物基因的正常表達(dá)是必需的,包括Beta-球蛋白、SV40 late mRNA和二氫葉酸還原酶基因。單子葉植物細(xì)胞充分表達(dá)乙醇脫氫酶的cDNA拷貝、報(bào)告基因氯霉素乙酰轉(zhuǎn)移酶、Beta葡萄糖苷酸酶和其他缺乏內(nèi)含子的基因時(shí)也依賴內(nèi)含子。轉(zhuǎn)錄區(qū)域內(nèi)引入內(nèi)含子可以通過未確定的轉(zhuǎn)錄后機(jī)制增強(qiáng)表達(dá)。(免疫球蛋白基因)內(nèi)含子可能也包含轉(zhuǎn)錄增強(qiáng)子,因此通過轉(zhuǎn)錄機(jī)制增強(qiáng)表達(dá)。
總的來講,如果存在某些DNA序列,真核異源蛋白表達(dá)可能是個(gè)難題。為避免劇烈的表達(dá)減少,需要對基因進(jìn)行掃描,確認(rèn)是否含上述提及的富含AT的序列。而且,在幾個(gè)真核系統(tǒng)表達(dá)無內(nèi)含子基因可能需要引入內(nèi)含子以實(shí)現(xiàn)外源蛋白的充分表達(dá)。