什么是生物信息學
生物信息學( B ioinformatics)是一門新興的交叉學科。很多人會認為:生物信息學既涉及生物又涉及物理,一定是一個內容十分廣泛的學科領域。其實它的內涵十分具體,范圍非常明確。生物信息學是伴隨基因組研究而產生的,因此它的研究內容就緊隨著基因組研究而發(fā)展。
廣義地說,生物信息學從事對基因組研究相關生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數據的收集、整理與服務,也就是管好這些數據;另一個是從中發(fā)現新的規(guī)律,也就是用好這些數據。
具體地說,生物信息學是把基因組 D NA序列信息分析作為源頭,找到基因組序列中代表蛋白質和 R NA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質,破譯隱藏在 D NA序列中的遺傳語言規(guī)律;在此基礎上,歸納、整理與基因組遺傳信息釋放及其調控相關的轉錄譜和蛋白質譜的數據,從而認識代謝、發(fā)育、分化、進化的規(guī)律。
生物信息學還利用基因組中編碼區(qū)的信息進行蛋白質空間結構的模擬和蛋白質功能的預測,并將此類信息與生物體和生命過程的生理生化信息相結合,闡明其分子機理,最終進行蛋白質、核酸的分子設計、藥物設計和個體化的醫(yī)療保健設計。
基因組信息學、蛋白質的結構計算與模擬以及藥物設計,這三者緊密地圍繞著遺傳信息傳遞的中心法則,因而必然有機地連接在一起。
為什么基因組研究需要依賴生物信息學呢?首先伴隨著基因組研究,相關信息出現了爆炸性增長,迫切需要對海量生物信息進行處理。自1995年科學家破譯了全長為180萬核苷酸的嗜血流感桿菌基因組以來,到目前已有大約60個微生物和若干真核生物,如:酵母、線蟲、果蠅、擬南芥的完整基因組完成測序。至2001年的春天,科學家又公布了人類基因組的絕大部分序列,即:人類基因組的工作草圖。這些成就意味著基因組的研究將全面進入信息提取和數據分析的嶄新階段。根據國際數據庫的統(tǒng)計,1999年12月DNA堿基數目為30億,2000年4月DNA堿基數目是60億,現在這一數目已達140億,大約每14個月翻一番。同時,電子計算機芯片對于數字處理能力的增長也相當于每18個月翻一番。因此,計算機能夠有效地管理和運行海量數據。
但是,更為本質的原因是基因組數據的復雜性。所謂某種生物的基因組就是指該生物所有遺傳物質的總和。生物的遺傳物質是一類稱為脫氧核糖核酸(DNA)的生物大分子,它是由4種核苷酸串接起來組成的,通常用字符 A、 T、 G、 C代表。通俗地說,生物的遺傳密碼就是這4個字符連接起來的線狀長鏈。這種鏈往往很長,比如:人的遺傳密碼就含有32億個字符,將它們堆起來就構成了一部100多萬頁、每頁有3000字符的“天書”。這本“天書”包含了人體的結構和功能以及生命活動過程的大量信息,卻僅僅由4個字符組成,既無詞法,又無句法,還沒有標點符號,看起來每一頁都是相似的。如何讀懂它是個極大的難題;蚪M研究最終是要把生物學問題轉化成對數字符號的處理問題。要解決這樣的問題就必須發(fā)展新的分析理論、方法、技術、工具,就必須依賴計算機的信息處理。
從事生物信息學研究應具備多方面的科學基礎。首先,它需要一定的計算能力,包括相應的軟、硬設備。要有各種數據庫或者能與國際、國內的數據庫系統(tǒng)進行有效的交流。要有發(fā)達、穩(wěn)定的互聯網絡系統(tǒng);同時,生物信息學需要強有力的創(chuàng)新算法和軟件。沒有算法創(chuàng)新,生物信息學就無法獲得持續(xù)的發(fā)展。最后,它要與實驗科學,特別是與自動化的大規(guī)模高通量的生物學研究方法與平臺技術建立廣泛、緊密的聯系。這些技術,既是產生生物信息數據的主要方法,又是驗證生物信息學研究結果的關鍵手段。因此,從事生物信息學研究的人員也必須具備多學科交叉的知識。
我國生物信息學的研究和應用有一定的基礎,因而有望取得突破性成果,這對于增強我國在基礎研究領域的實力,在某些方面占據國際領先地位是十分重要的。生物信息學成果的應用也會產生巨大的社會效益和經濟效益。
當前主要研究內容
一.獲取人和各種生物的完整基因組
基因組研究的首要目標是獲得人的整套遺傳密碼。人的遺傳密碼有32億個堿基,而現在的 D NA測序儀每個反應只能讀取幾百到上千個堿基。也就是說,要得到人的全部遺傳密碼首先要把人的基因組打碎,測完一個個小段的序列后再把它們重新拼接起來。
但是,我們很容易想象:如果把一本書撕成大小一樣的碎片,就再也無法把它們重新正確地拼接起來,這是因為撕的同時丟失了書的上下文聯系。這該如何辦呢?我們可以取兩本一樣的書,按照不同的撕法把它們分頭打碎。通過不同碎片互相參照,找到相同的單詞,就可以部分恢復書的上下文聯系。撕的書越多,恢復的上下文聯系也越多。因此要獲得人的整套遺傳密碼就不能把人的32億堿基只測一遍,往往要測很多遍。比如,今年初在《自然》、《科學》兩雜志上公布的人類基因組工作草圖報道,它含有約29億堿基,其物理圖譜覆蓋率為96%,序列覆蓋率為94%。有大于90%的連續(xù)序列群已大于10萬堿基;有約25%的連續(xù)序列群已等于或大于千萬堿基。在這些序列中發(fā)現了3-4萬個編碼蛋白質的基因。得到這樣的圖就是相當于把人類基因組測了大約5遍才實現的。要作到這一點就需要把幾千萬個小片段通過比對再連接起來,這就是常說的基因組序列數據的拼接和組裝。
在基因組大規(guī)模測序的每一個環(huán)節(jié)都與信息分析緊密相關。從測序儀的光密度采樣與分析、堿基讀出、載體標識與去除、拼接、填補序列間隙,到重復序列標識、讀框預測和基因標注,每一步都是緊密依賴生物信息學的軟件和數據庫的。其中,序列拼接和填補序列間隙是最為關鍵的首要難題。其困難不僅來自它巨大的海量數據,而且在于它含有高度重復的序列。為此,這一過程特別需要把實驗設計和信息分析時刻聯系在一起。另一方面,必須按照不同步驟的要求,發(fā)展適當的算法及相應的軟件,以應對各種復雜的問題。國際上很多著名的基因組研究中心,都有自己的拼接和組裝策略,并且這樣的工作都是在超級計算機上完成的。
有了完整基因組,人類對自身的認識就更為細致、更為精確。比如:發(fā)現在我們的基因組中真正編碼蛋白質(稱為外顯子)等的部分很少,只占1.1%;外顯子與外顯子之間的區(qū)域(稱為內含子)占了24%;而基因與基因之間的間隔序列卻占了75%,也就是說在人類基因組中不編碼蛋白質的區(qū)域占了絕大部分。發(fā)現人類編碼蛋白的基因較之其它生物體的基因更為復雜,有更為豐富的剪接方式。發(fā)現基因組中片段重復現象很普遍,這反映了人類復雜的進化歷史。發(fā)現人的第13號染色體比較穩(wěn)定,而男性的第12號染色體和女性的第16號染色體是易變的,等等。
二.發(fā)現新基因和新的單核苷酸多態(tài)性
發(fā)現新基因是當前國際上基因組研究的熱點,使用生物信息學的方法是發(fā)現新基因的重要手段。比如:啤酒酵母完整基因組所包含的約6000個基因,大約60%是通過信息分析得到的。(1)基因的電腦克隆
利用 E ST數據庫發(fā)現新基因也被稱為基因的電腦克隆。 E ST序列是基因表達的短 c DNA序列,它們攜帶著完整基因的某些片段的信息。到2001年10月,GenBank的EST數據庫中人類 E ST序列已超過380萬條,它大約覆蓋了人類基因的90%以上。
我國早在1996年就開始了通過電腦克隆尋找新基因的研究。它的原理非常簡單,就是找到屬于同一基因的所有 E ST片段,再把它們連接起來。由于 E ST序列是全世界很多實驗室隨機產生的,所以屬于同一基因的很多 E ST序列間必然有大量重復小片段,利用這些小片段作為標志就可以把不同的 E ST連起來,直到發(fā)現了它們的全長,這樣我們就可以說通過電腦克隆找到了一個基因。如果這個基因以前未曾發(fā)現過,那我們就找到了一個新基因。但是進行電腦克隆程序設計是復雜的,計算量是巨大的。
(2)從基因組 D NA序列中預測新基因
從基因組序列預測新基因,本質上是把基因組上編碼蛋白質的區(qū)域和非編碼蛋白質的區(qū)域區(qū)分開來。對于理論方法來講就是要找到在編碼區(qū)和非編碼區(qū)哪些數學、物理學特征是不一樣的。將這些序列與已知基因數據庫進行比較,就可以發(fā)現新的基因了。
發(fā)現了新基因就會使我們對生命活動的認識加深一步。據1999年12月2日《自然》雜志,人的第22號染色體數據已鑒定出679個基因,其中55%的基因是未知的。有35種疾病與該染色體突變相關,像免疫系統(tǒng)疾病、先天性心臟病和精神分裂癥。但是,要將人類的所有基因及其相應的蛋白質以及與它們相關的功能完整而正確地整合到一個索引中,依然是一個十分重要、十分艱巨的任務。國際人類基因組協作組正著手建立完整的“整合基因索引”及與之相關的“整合蛋白索引”。
(3)發(fā)現單核苷酸多態(tài)( S NP)
有的人吸煙喝酒卻長壽,也有人自幼就病痛纏身;同一種治療腫瘤的藥物對一些人非常有效,對另一些人則完全無效。這是為什么?答案是他們基因組中存在的差異。這種差異很多表現為單個堿基上的變異,也就是單核苷酸的多態(tài)性( S NP)。
現在普遍認為 S NP研究是人類基因組計劃走向應用的重要步驟。這主要是因為 S NP將提供一個強有力的工具,用于高危群體的發(fā)現、疾病相關基因的鑒定、藥物的設計和測試以及生物學的基礎研究等。 S NP在基因組中分布相當廣泛,近來的研究表明在人類基因組中每300堿基對就出現一次。大量存在的 S NP位點,使人們有機會發(fā)現與各種疾病,包括腫瘤相關的基因組突變;從實驗操作來看,通過 S NP發(fā)現疾病相關基因突變要比通過家系來得容易;有些 S NP并不直接導致疾病基因的表達,但由于它與某些疾病基因相鄰,而成為重要的標記。 S NP在基礎研究中也發(fā)揮了巨大的作用,近年來對 Y染色體 S NP的分析,使得在人類進化、人類種群的演化和遷徙領域取得了一系列重要成果。
三.基因組中非編碼蛋白質
區(qū)域的結構與功能研究
近年來的研究表明,在細菌這樣的微生物中,非編碼蛋白質的區(qū)域只占整個基因組序列的10%到20%。隨著生物的進化,非編碼區(qū)越來越多,在高等生物和人的基因組中非編碼序列已占到基因組序列的絕大部分。這表明:這些非編碼序列必定具有重要的生物功能。普遍的認識是,它們與基因的表達調控有關。
對人類基因組來說,迄今為止,人們真正掌握規(guī)律的只有 D NA上的編碼蛋白質的區(qū)域(基因),最新資料說明這部分序列只占基因組的1.1%。僅占人類基因組1.1%的編碼區(qū)的相關研究已經締造了數十名諾貝爾獎獲得者,98%非編碼區(qū)蘊含的成果數量將是十分可觀的,因此尋找這些區(qū)域的編碼特征、信息調節(jié)與表達規(guī)律是未來相當長時間內的熱點課題,是取得重要成果的源泉。
四.在基因組水平研究生物進化
近幾年來,隨著基因組序列數據的大量增加,對序列差異和進化關系的爭論也越來越激烈。首先發(fā)現同一種群基于不同分子序列所重構出的進化樹可能不同。同時,對“垂直進化”和“水平演化”之間關系的討論正逐漸引起人們的重視。也就是近年來發(fā)現了基因的“橫向遷移現象”。即:基因可以在同時存在的種群間遷移,其結果雖可導致序列差異,但這種差異與進化無關。甚至,對人類基因組的分析發(fā)現,有幾十個人的基因只與細菌基因相似,而在果蠅、線蟲中都不存在。如果以人的這些基因序列來研究進化將會得到荒謬的結論。所以在當前的分子進化研究中必須選擇垂直進化的分子作為樣本。特別是:在分子進化分析中,“相似性”和“同源性”是兩個不同的概念。相似性只反映兩者類似,并不包含任何與進化相關的暗示。同源性則是與共同祖先相關的相似性。
五.完整基因組的比較研究
在后基因組時代,完整基因組數據越來越多,有了這些資料人們就能對若干重大生物學問題進行分析研究,如:生命是從哪里起源的?生命是如何進化的?遺傳密碼是如何起源的?估計最小獨立生活的生物體至少需要多少基因?這些基因是如何使生物體活起來的?等等。這些重大的問題只有在基因組水平上才能回答。舉例來說,鼠和人的基因組大小相似,都含有約30億堿基對,基因的數目也類似,且大部同源?墒鞘蠛腿瞬町悈s如此之大,這是為什么?同樣,有的科學家估計不同人種間基因組的差別僅為0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。因此,這種差異不僅應從基因、 D NA序列找原因,也應考慮到整個基因組、考慮染色體組織上的差異。這一工作開創(chuàng)了比較基因組學。
科學家們發(fā)現:全部基因可以按照功能和系統(tǒng)發(fā)生分為若干類,其中包括與復制、轉錄、翻譯、分子伴娘、能量產生、離子轉運、各種代謝相關的基因。這一工作也為蛋白質分類提供了新的途徑。同時,科學家們通過幾個完整基因組的比較,統(tǒng)計出維持生命活動所需要的最少基因的個數為250個左右。同樣,當我們比較鼠和人的基因組就會發(fā)現,盡管兩者基因組大小和基因數目類似,但基因組的組織卻差別很大。例如存在于鼠1號染色體上的基因已分布到人的1、2、5、6、8、13、18號7個染色體上了。研究表明在同一界中,某些核糖體蛋白排列順序的差異能反映出物種間的親緣關系,親緣關系越近,基因排列順序越接近。這樣就可以通過比較基因的排列順序來研究物種間的系統(tǒng)發(fā)育關系。
我國從1998年開始就開展了微生物完整基因組的大規(guī)模測序和分析工作,F在正進行和已完成的有:我國自行鑒定的 T hermotogales科的高溫真細菌、泉生熱袍菌;福氏痢疾桿菌;鉤端螺旋體出血黃疸型賴株;表皮葡萄球菌;菊花黃單胞菌。我國科學家在完成人類基因組的1%測序工作的同時,最近又完成了具有4.3億堿基對的水稻基因組的“工作草圖”。這些數據將為我國在這一領域的研究提供最直接的素材。
六.從功能基因組到系統(tǒng)生物學
在不同的組織中表達基因的數目差別是很大的,腦中基因表達的數目最多,約有3-4萬個轉錄子,有的組織中只有幾十或幾百個基因表達。同一組織在不同的個體生長發(fā)育階段,表達基因的種類、數量也是不同的,有些基因是在幼年時期表達的,有些是中年階段表達的,有些要到老年時期才表達。我們不僅需要了解基因的序列,還要了解基因的功能,也就是要了解在不同的時間、不同的組織中基因的表達譜。這就是通常所說的功能基因組研究。
為了得到基因的表達譜,國際上在核酸和蛋白質兩個層次上都發(fā)展了新技術。這就是在核酸層次上的基因芯片(或稱 D NA芯片)技術和在蛋白質層次上的大規(guī)模蛋白質分離和序列鑒定技術,也稱蛋白質組技術。由于芯片上樣品點的密度很大,可以達到每片幾十萬,因此表達譜數據挖掘和知識發(fā)現就成了該研究成功與否的關鍵。無論是生物芯片還是蛋白質組技術的發(fā)展,都更強烈地依賴于生物信息學的理論、技術與數據庫。下一步,功能基因組研究將朝著復雜系統(tǒng)的方向發(fā)展,即:探討生物系統(tǒng)中各部分、各層次的相互作用,從而進入系統(tǒng)生物學的領域。
七.蛋白質結構模擬與藥物設計
蛋白的空間結構模擬和藥物設計已有二三十年的歷史。隨著人類基因組研究的飛速發(fā)展,這一領域面臨著新的態(tài)勢,即:找到人類3—4萬個基因的堿基序列是指日可待的事,因而確定它們表達產物的氨基酸順序也會逐漸實現,此時預測這些蛋白的空間結構,進而實現針對性的藥物設計,就成了迫在眉睫的任務。這也是大規(guī)模的計算問題。
八.生物信息學的應用與發(fā)展研究
生物信息學的研究結果不僅具有重要的理論價值,也可直接應用到工農業(yè)生產和醫(yī)療實踐當中去。因此,生物信息學相關的分析與應用算法、軟件和數據庫,都具有重要的經濟價值,最終都會形成商品,提供經濟和社會效益。
(1)疾病相關的基因信息及相關算法和軟件開發(fā)
很多疾病與基因突變或基因多態(tài)有關,有人估計與癌癥相關的原癌基因約有1000個,抑癌基因約有100個。約有6000種以上的人類疾患與各種人類基因的變化相關聯。更多的疾病是環(huán)境(包括致病微生物)與人類基因(基因產物)相互作用的結果。隨著人類基因組計劃的深入,當我們知道了人類全部基因在染色體上的位置、它們的序列特征(包括 S NPs)以及它們表達規(guī)律和產物( R NA和蛋白質)特征以后,人們就可以有效地判定各種疾患的分子機制,進而發(fā)展合適的診斷和治療手段。為此,有兩項生物信息學工作是重要的:一是構建與疾病相關的人類基因信息數據庫(包括 S NP數據庫),二是發(fā)展有效地分析基因分型數據的生物信息學算法,特別是將 S NP數據與疾病和致病因素相關的計算方法。
(2)建立與動、植物良種繁育相關的基因組數據庫,發(fā)展分子標記輔助育種技術
根據不同物種間的進化距離和功能基因的同源性,可以比較容易地找到各種家畜、經濟作物與其經濟效益相關的基因,并進一步認識它們發(fā)育、生長和抗逆的各種途徑和機制。在此基礎上,利用相關的基因組分子標記,可以加快育種的速度,對它們按照人們的愿望加以改造。
(3)研究與發(fā)展藥物設計軟件和基于生物信息的分子生物學技術
人類基因組信息為藥物發(fā)展提供了新的候選分子和新的候選藥靶基因。同時,分子生物學常用的表達載體、 P CR和雜交引物以及各種試劑盒(包括 D NA芯片)的設計必須依賴于核酸的序列信息;蚪M信息學提供的大量信息為這類技術的發(fā)展提供了廣闊的天地。
生物信息學( B ioinformatics)是一門新興的交叉學科。很多人會認為:生物信息學既涉及生物又涉及物理,一定是一個內容十分廣泛的學科領域。其實它的內涵十分具體,范圍非常明確。生物信息學是伴隨基因組研究而產生的,因此它的研究內容就緊隨著基因組研究而發(fā)展。
廣義地說,生物信息學從事對基因組研究相關生物信息的獲取、加工、儲存、分配、分析和解釋。這一定義包括了兩層含義,一是對海量數據的收集、整理與服務,也就是管好這些數據;另一個是從中發(fā)現新的規(guī)律,也就是用好這些數據。
具體地說,生物信息學是把基因組 D NA序列信息分析作為源頭,找到基因組序列中代表蛋白質和 R NA基因的編碼區(qū);同時,闡明基因組中大量存在的非編碼區(qū)的信息實質,破譯隱藏在 D NA序列中的遺傳語言規(guī)律;在此基礎上,歸納、整理與基因組遺傳信息釋放及其調控相關的轉錄譜和蛋白質譜的數據,從而認識代謝、發(fā)育、分化、進化的規(guī)律。
生物信息學還利用基因組中編碼區(qū)的信息進行蛋白質空間結構的模擬和蛋白質功能的預測,并將此類信息與生物體和生命過程的生理生化信息相結合,闡明其分子機理,最終進行蛋白質、核酸的分子設計、藥物設計和個體化的醫(yī)療保健設計。
基因組信息學、蛋白質的結構計算與模擬以及藥物設計,這三者緊密地圍繞著遺傳信息傳遞的中心法則,因而必然有機地連接在一起。
為什么基因組研究需要依賴生物信息學呢?首先伴隨著基因組研究,相關信息出現了爆炸性增長,迫切需要對海量生物信息進行處理。自1995年科學家破譯了全長為180萬核苷酸的嗜血流感桿菌基因組以來,到目前已有大約60個微生物和若干真核生物,如:酵母、線蟲、果蠅、擬南芥的完整基因組完成測序。至2001年的春天,科學家又公布了人類基因組的絕大部分序列,即:人類基因組的工作草圖。這些成就意味著基因組的研究將全面進入信息提取和數據分析的嶄新階段。根據國際數據庫的統(tǒng)計,1999年12月DNA堿基數目為30億,2000年4月DNA堿基數目是60億,現在這一數目已達140億,大約每14個月翻一番。同時,電子計算機芯片對于數字處理能力的增長也相當于每18個月翻一番。因此,計算機能夠有效地管理和運行海量數據。
但是,更為本質的原因是基因組數據的復雜性。所謂某種生物的基因組就是指該生物所有遺傳物質的總和。生物的遺傳物質是一類稱為脫氧核糖核酸(DNA)的生物大分子,它是由4種核苷酸串接起來組成的,通常用字符 A、 T、 G、 C代表。通俗地說,生物的遺傳密碼就是這4個字符連接起來的線狀長鏈。這種鏈往往很長,比如:人的遺傳密碼就含有32億個字符,將它們堆起來就構成了一部100多萬頁、每頁有3000字符的“天書”。這本“天書”包含了人體的結構和功能以及生命活動過程的大量信息,卻僅僅由4個字符組成,既無詞法,又無句法,還沒有標點符號,看起來每一頁都是相似的。如何讀懂它是個極大的難題;蚪M研究最終是要把生物學問題轉化成對數字符號的處理問題。要解決這樣的問題就必須發(fā)展新的分析理論、方法、技術、工具,就必須依賴計算機的信息處理。
從事生物信息學研究應具備多方面的科學基礎。首先,它需要一定的計算能力,包括相應的軟、硬設備。要有各種數據庫或者能與國際、國內的數據庫系統(tǒng)進行有效的交流。要有發(fā)達、穩(wěn)定的互聯網絡系統(tǒng);同時,生物信息學需要強有力的創(chuàng)新算法和軟件。沒有算法創(chuàng)新,生物信息學就無法獲得持續(xù)的發(fā)展。最后,它要與實驗科學,特別是與自動化的大規(guī)模高通量的生物學研究方法與平臺技術建立廣泛、緊密的聯系。這些技術,既是產生生物信息數據的主要方法,又是驗證生物信息學研究結果的關鍵手段。因此,從事生物信息學研究的人員也必須具備多學科交叉的知識。
我國生物信息學的研究和應用有一定的基礎,因而有望取得突破性成果,這對于增強我國在基礎研究領域的實力,在某些方面占據國際領先地位是十分重要的。生物信息學成果的應用也會產生巨大的社會效益和經濟效益。
當前主要研究內容
一.獲取人和各種生物的完整基因組
基因組研究的首要目標是獲得人的整套遺傳密碼。人的遺傳密碼有32億個堿基,而現在的 D NA測序儀每個反應只能讀取幾百到上千個堿基。也就是說,要得到人的全部遺傳密碼首先要把人的基因組打碎,測完一個個小段的序列后再把它們重新拼接起來。
但是,我們很容易想象:如果把一本書撕成大小一樣的碎片,就再也無法把它們重新正確地拼接起來,這是因為撕的同時丟失了書的上下文聯系。這該如何辦呢?我們可以取兩本一樣的書,按照不同的撕法把它們分頭打碎。通過不同碎片互相參照,找到相同的單詞,就可以部分恢復書的上下文聯系。撕的書越多,恢復的上下文聯系也越多。因此要獲得人的整套遺傳密碼就不能把人的32億堿基只測一遍,往往要測很多遍。比如,今年初在《自然》、《科學》兩雜志上公布的人類基因組工作草圖報道,它含有約29億堿基,其物理圖譜覆蓋率為96%,序列覆蓋率為94%。有大于90%的連續(xù)序列群已大于10萬堿基;有約25%的連續(xù)序列群已等于或大于千萬堿基。在這些序列中發(fā)現了3-4萬個編碼蛋白質的基因。得到這樣的圖就是相當于把人類基因組測了大約5遍才實現的。要作到這一點就需要把幾千萬個小片段通過比對再連接起來,這就是常說的基因組序列數據的拼接和組裝。
在基因組大規(guī)模測序的每一個環(huán)節(jié)都與信息分析緊密相關。從測序儀的光密度采樣與分析、堿基讀出、載體標識與去除、拼接、填補序列間隙,到重復序列標識、讀框預測和基因標注,每一步都是緊密依賴生物信息學的軟件和數據庫的。其中,序列拼接和填補序列間隙是最為關鍵的首要難題。其困難不僅來自它巨大的海量數據,而且在于它含有高度重復的序列。為此,這一過程特別需要把實驗設計和信息分析時刻聯系在一起。另一方面,必須按照不同步驟的要求,發(fā)展適當的算法及相應的軟件,以應對各種復雜的問題。國際上很多著名的基因組研究中心,都有自己的拼接和組裝策略,并且這樣的工作都是在超級計算機上完成的。
有了完整基因組,人類對自身的認識就更為細致、更為精確。比如:發(fā)現在我們的基因組中真正編碼蛋白質(稱為外顯子)等的部分很少,只占1.1%;外顯子與外顯子之間的區(qū)域(稱為內含子)占了24%;而基因與基因之間的間隔序列卻占了75%,也就是說在人類基因組中不編碼蛋白質的區(qū)域占了絕大部分。發(fā)現人類編碼蛋白的基因較之其它生物體的基因更為復雜,有更為豐富的剪接方式。發(fā)現基因組中片段重復現象很普遍,這反映了人類復雜的進化歷史。發(fā)現人的第13號染色體比較穩(wěn)定,而男性的第12號染色體和女性的第16號染色體是易變的,等等。
二.發(fā)現新基因和新的單核苷酸多態(tài)性
發(fā)現新基因是當前國際上基因組研究的熱點,使用生物信息學的方法是發(fā)現新基因的重要手段。比如:啤酒酵母完整基因組所包含的約6000個基因,大約60%是通過信息分析得到的。(1)基因的電腦克隆
利用 E ST數據庫發(fā)現新基因也被稱為基因的電腦克隆。 E ST序列是基因表達的短 c DNA序列,它們攜帶著完整基因的某些片段的信息。到2001年10月,GenBank的EST數據庫中人類 E ST序列已超過380萬條,它大約覆蓋了人類基因的90%以上。
我國早在1996年就開始了通過電腦克隆尋找新基因的研究。它的原理非常簡單,就是找到屬于同一基因的所有 E ST片段,再把它們連接起來。由于 E ST序列是全世界很多實驗室隨機產生的,所以屬于同一基因的很多 E ST序列間必然有大量重復小片段,利用這些小片段作為標志就可以把不同的 E ST連起來,直到發(fā)現了它們的全長,這樣我們就可以說通過電腦克隆找到了一個基因。如果這個基因以前未曾發(fā)現過,那我們就找到了一個新基因。但是進行電腦克隆程序設計是復雜的,計算量是巨大的。
(2)從基因組 D NA序列中預測新基因
從基因組序列預測新基因,本質上是把基因組上編碼蛋白質的區(qū)域和非編碼蛋白質的區(qū)域區(qū)分開來。對于理論方法來講就是要找到在編碼區(qū)和非編碼區(qū)哪些數學、物理學特征是不一樣的。將這些序列與已知基因數據庫進行比較,就可以發(fā)現新的基因了。
發(fā)現了新基因就會使我們對生命活動的認識加深一步。據1999年12月2日《自然》雜志,人的第22號染色體數據已鑒定出679個基因,其中55%的基因是未知的。有35種疾病與該染色體突變相關,像免疫系統(tǒng)疾病、先天性心臟病和精神分裂癥。但是,要將人類的所有基因及其相應的蛋白質以及與它們相關的功能完整而正確地整合到一個索引中,依然是一個十分重要、十分艱巨的任務。國際人類基因組協作組正著手建立完整的“整合基因索引”及與之相關的“整合蛋白索引”。
(3)發(fā)現單核苷酸多態(tài)( S NP)
有的人吸煙喝酒卻長壽,也有人自幼就病痛纏身;同一種治療腫瘤的藥物對一些人非常有效,對另一些人則完全無效。這是為什么?答案是他們基因組中存在的差異。這種差異很多表現為單個堿基上的變異,也就是單核苷酸的多態(tài)性( S NP)。
現在普遍認為 S NP研究是人類基因組計劃走向應用的重要步驟。這主要是因為 S NP將提供一個強有力的工具,用于高危群體的發(fā)現、疾病相關基因的鑒定、藥物的設計和測試以及生物學的基礎研究等。 S NP在基因組中分布相當廣泛,近來的研究表明在人類基因組中每300堿基對就出現一次。大量存在的 S NP位點,使人們有機會發(fā)現與各種疾病,包括腫瘤相關的基因組突變;從實驗操作來看,通過 S NP發(fā)現疾病相關基因突變要比通過家系來得容易;有些 S NP并不直接導致疾病基因的表達,但由于它與某些疾病基因相鄰,而成為重要的標記。 S NP在基礎研究中也發(fā)揮了巨大的作用,近年來對 Y染色體 S NP的分析,使得在人類進化、人類種群的演化和遷徙領域取得了一系列重要成果。
三.基因組中非編碼蛋白質
區(qū)域的結構與功能研究
近年來的研究表明,在細菌這樣的微生物中,非編碼蛋白質的區(qū)域只占整個基因組序列的10%到20%。隨著生物的進化,非編碼區(qū)越來越多,在高等生物和人的基因組中非編碼序列已占到基因組序列的絕大部分。這表明:這些非編碼序列必定具有重要的生物功能。普遍的認識是,它們與基因的表達調控有關。
對人類基因組來說,迄今為止,人們真正掌握規(guī)律的只有 D NA上的編碼蛋白質的區(qū)域(基因),最新資料說明這部分序列只占基因組的1.1%。僅占人類基因組1.1%的編碼區(qū)的相關研究已經締造了數十名諾貝爾獎獲得者,98%非編碼區(qū)蘊含的成果數量將是十分可觀的,因此尋找這些區(qū)域的編碼特征、信息調節(jié)與表達規(guī)律是未來相當長時間內的熱點課題,是取得重要成果的源泉。
四.在基因組水平研究生物進化
近幾年來,隨著基因組序列數據的大量增加,對序列差異和進化關系的爭論也越來越激烈。首先發(fā)現同一種群基于不同分子序列所重構出的進化樹可能不同。同時,對“垂直進化”和“水平演化”之間關系的討論正逐漸引起人們的重視。也就是近年來發(fā)現了基因的“橫向遷移現象”。即:基因可以在同時存在的種群間遷移,其結果雖可導致序列差異,但這種差異與進化無關。甚至,對人類基因組的分析發(fā)現,有幾十個人的基因只與細菌基因相似,而在果蠅、線蟲中都不存在。如果以人的這些基因序列來研究進化將會得到荒謬的結論。所以在當前的分子進化研究中必須選擇垂直進化的分子作為樣本。特別是:在分子進化分析中,“相似性”和“同源性”是兩個不同的概念。相似性只反映兩者類似,并不包含任何與進化相關的暗示。同源性則是與共同祖先相關的相似性。
五.完整基因組的比較研究
在后基因組時代,完整基因組數據越來越多,有了這些資料人們就能對若干重大生物學問題進行分析研究,如:生命是從哪里起源的?生命是如何進化的?遺傳密碼是如何起源的?估計最小獨立生活的生物體至少需要多少基因?這些基因是如何使生物體活起來的?等等。這些重大的問題只有在基因組水平上才能回答。舉例來說,鼠和人的基因組大小相似,都含有約30億堿基對,基因的數目也類似,且大部同源?墒鞘蠛腿瞬町悈s如此之大,這是為什么?同樣,有的科學家估計不同人種間基因組的差別僅為0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。因此,這種差異不僅應從基因、 D NA序列找原因,也應考慮到整個基因組、考慮染色體組織上的差異。這一工作開創(chuàng)了比較基因組學。
科學家們發(fā)現:全部基因可以按照功能和系統(tǒng)發(fā)生分為若干類,其中包括與復制、轉錄、翻譯、分子伴娘、能量產生、離子轉運、各種代謝相關的基因。這一工作也為蛋白質分類提供了新的途徑。同時,科學家們通過幾個完整基因組的比較,統(tǒng)計出維持生命活動所需要的最少基因的個數為250個左右。同樣,當我們比較鼠和人的基因組就會發(fā)現,盡管兩者基因組大小和基因數目類似,但基因組的組織卻差別很大。例如存在于鼠1號染色體上的基因已分布到人的1、2、5、6、8、13、18號7個染色體上了。研究表明在同一界中,某些核糖體蛋白排列順序的差異能反映出物種間的親緣關系,親緣關系越近,基因排列順序越接近。這樣就可以通過比較基因的排列順序來研究物種間的系統(tǒng)發(fā)育關系。
我國從1998年開始就開展了微生物完整基因組的大規(guī)模測序和分析工作,F在正進行和已完成的有:我國自行鑒定的 T hermotogales科的高溫真細菌、泉生熱袍菌;福氏痢疾桿菌;鉤端螺旋體出血黃疸型賴株;表皮葡萄球菌;菊花黃單胞菌。我國科學家在完成人類基因組的1%測序工作的同時,最近又完成了具有4.3億堿基對的水稻基因組的“工作草圖”。這些數據將為我國在這一領域的研究提供最直接的素材。
六.從功能基因組到系統(tǒng)生物學
在不同的組織中表達基因的數目差別是很大的,腦中基因表達的數目最多,約有3-4萬個轉錄子,有的組織中只有幾十或幾百個基因表達。同一組織在不同的個體生長發(fā)育階段,表達基因的種類、數量也是不同的,有些基因是在幼年時期表達的,有些是中年階段表達的,有些要到老年時期才表達。我們不僅需要了解基因的序列,還要了解基因的功能,也就是要了解在不同的時間、不同的組織中基因的表達譜。這就是通常所說的功能基因組研究。
為了得到基因的表達譜,國際上在核酸和蛋白質兩個層次上都發(fā)展了新技術。這就是在核酸層次上的基因芯片(或稱 D NA芯片)技術和在蛋白質層次上的大規(guī)模蛋白質分離和序列鑒定技術,也稱蛋白質組技術。由于芯片上樣品點的密度很大,可以達到每片幾十萬,因此表達譜數據挖掘和知識發(fā)現就成了該研究成功與否的關鍵。無論是生物芯片還是蛋白質組技術的發(fā)展,都更強烈地依賴于生物信息學的理論、技術與數據庫。下一步,功能基因組研究將朝著復雜系統(tǒng)的方向發(fā)展,即:探討生物系統(tǒng)中各部分、各層次的相互作用,從而進入系統(tǒng)生物學的領域。
七.蛋白質結構模擬與藥物設計
蛋白的空間結構模擬和藥物設計已有二三十年的歷史。隨著人類基因組研究的飛速發(fā)展,這一領域面臨著新的態(tài)勢,即:找到人類3—4萬個基因的堿基序列是指日可待的事,因而確定它們表達產物的氨基酸順序也會逐漸實現,此時預測這些蛋白的空間結構,進而實現針對性的藥物設計,就成了迫在眉睫的任務。這也是大規(guī)模的計算問題。
八.生物信息學的應用與發(fā)展研究
生物信息學的研究結果不僅具有重要的理論價值,也可直接應用到工農業(yè)生產和醫(yī)療實踐當中去。因此,生物信息學相關的分析與應用算法、軟件和數據庫,都具有重要的經濟價值,最終都會形成商品,提供經濟和社會效益。
(1)疾病相關的基因信息及相關算法和軟件開發(fā)
很多疾病與基因突變或基因多態(tài)有關,有人估計與癌癥相關的原癌基因約有1000個,抑癌基因約有100個。約有6000種以上的人類疾患與各種人類基因的變化相關聯。更多的疾病是環(huán)境(包括致病微生物)與人類基因(基因產物)相互作用的結果。隨著人類基因組計劃的深入,當我們知道了人類全部基因在染色體上的位置、它們的序列特征(包括 S NPs)以及它們表達規(guī)律和產物( R NA和蛋白質)特征以后,人們就可以有效地判定各種疾患的分子機制,進而發(fā)展合適的診斷和治療手段。為此,有兩項生物信息學工作是重要的:一是構建與疾病相關的人類基因信息數據庫(包括 S NP數據庫),二是發(fā)展有效地分析基因分型數據的生物信息學算法,特別是將 S NP數據與疾病和致病因素相關的計算方法。
(2)建立與動、植物良種繁育相關的基因組數據庫,發(fā)展分子標記輔助育種技術
根據不同物種間的進化距離和功能基因的同源性,可以比較容易地找到各種家畜、經濟作物與其經濟效益相關的基因,并進一步認識它們發(fā)育、生長和抗逆的各種途徑和機制。在此基礎上,利用相關的基因組分子標記,可以加快育種的速度,對它們按照人們的愿望加以改造。
(3)研究與發(fā)展藥物設計軟件和基于生物信息的分子生物學技術
人類基因組信息為藥物發(fā)展提供了新的候選分子和新的候選藥靶基因。同時,分子生物學常用的表達載體、 P CR和雜交引物以及各種試劑盒(包括 D NA芯片)的設計必須依賴于核酸的序列信息;蚪M信息學提供的大量信息為這類技術的發(fā)展提供了廣闊的天地。