LMSSitesePortfolioRegisterLogin
閒話基因體科學_11.從酵母菌看基因體複雜性的起源-生物演化過程中真的有Whole Genome Duplication嗎?
by 陳怡蓁, 2012-08-21 13:35, Views(1792)

從酵母菌看基因體複雜性的起源

生物演化過程中真的有

Whole Genome Duplication嗎?

 

臺大醫學院  謝豐舟教授

 

1970Susumu Ohno指出演化過程中,基因功能在具備多樣化之前,必需先發生基因複製(The diversification of gene functions during evolution requires prior gene duplication)。他也指出生物的演化過程中因複製的重要性可能超過突變與天擇。

根據相當粗糙的證據,如基因體大小及isoenzyme complexityOhno推測脊椎動物的基因體經歷過兩次全基因體複製(Whole genome duplication, WGD);第一次是在頭索類(cephalochordate)與脊椎類(vertebrate)分歧之前,另一次則在魚類(fish)與兩棲類(amphibian)分歧之前。稍後,Hox基因及Hox gene cluster的分析支持脊椎動物演化過程中確有大規模的基因複製。在protostome invertebrate以及deuterostome cephalochordate(如amphioxus)只有一組Hox cluster,但兩棲類、爬蟲類、鳥類、哺乳類及lobe-finned fish則有四組Hox gene cluster。此一觀察相當支持的二次(2R)基因複製學說。

當然,不少學者卻認為在脊椎類演化過程中只有一次基因複製,形成了多年來2R or not 2R的爭執。更有人認為根本沒有所謂的大規模基因複製,只有連續而漸進的小規模複製(continuous gene duplication)。近來,由於生物的基因體序列漸被揭露,新的證據支持Ohno2R學說。學者發現,河豚的基因複製有70%發生在500900myr(百萬年)之前,30%發生在250450myr,這提供了脊椎類演化過程中確有大規模基因複之的強力支持。

今年,三篇重要的論文更確切的指出,在酵母菌演化過程中,曾經發生全基因體複製(Whole genome duplication, WGD),為Ohno的假說提供一個有力的證據,甚至使WGD在演化的重要性及於無脊椎動物。

 

酵母菌Kluyveromyces waltii

Saccharomyces cerevisiae基因體之比較研究

MITKellisBirrenLander將最近定序完成的酵母菌K. waltii的基因體與已被研究多年的模式生物S. cerevisiae比對,發現兩者是現12 mapping的關係,亦即K. waltii基因體的每一區均對應於S. cerevisiae的兩區,此一觀察強烈支持酵母菌演化過程中的存在(圖一)

K. waltii的基因體全長10.7Mb,共有5,230個可能的protein-coding gene,比S. cerevisiae5,714稍少,240 tRNA gene, 60 Ty elementsK. waltiiprotein-coding gene7%在S. cerevisiae找不到有關的proteinsKellis等人在K. waltiiS. cerevisiae的基因體中找尋所謂”doubly conserved synteny”(DCS) block;亦即在K. waltiiS. cerevisiae基因體呈現12synteny block;而所謂synteny block乃指具有相同gene contentgene order的區段。結果他們找到253DCS block,涵蓋了K. waltii全部基因的75%以及S. cerevisiae全部基因的81%。K. waltii的染色體有85%的區段是由DCS block組成,符合WGD的理論。每個DCS block平均含有27個基因,最多達81個基因。二個DCS block之間通常隔以一小段序列(平均含3個基因),但此一小段序列在S. cerevisiae只有一個對應區域而非二個,就同一個DCS block來看,無論在K. waltii或在S. cerevisiae,高達90%的基因是相同的,甚至基因的順序(order)與方向(orientation)也相同。更有趣的是S. cerevisiae16個中心體(centromere),而K. waltii8個中心體,正好也是21

如前所述,每一K. waltii的基因體區段,在S. cerevisiae均有兩個對應區段,則S. cerevisiae的基因體大小應為K. waltii兩倍而基因數目也應為兩倍。事實上兩者基因體的大小相去不遠(S. cerevisiae12.1MbK. waltii10.7Mb),基因數目也相若(S. cerevisiae 5807K. waltii 5470。這個差距怎麼解釋呢?事實上這個差距是源由大量的基因流失(gene loss or deletion)。仔細分析每一個DCS block,我們發現88%的paralogous gene不見了,只剩下12 paralogous gene pair仍存留於DCS block。基本上,這個基因缺口是許多小規模基因流失(每次2個左右)累積的結果。而這種基因流失大部分是(57%~43%)是對稱的;意即兩個paralogous gene都流失。

Kellis等人更對457個由WGD所產生的gene pairs研究他們如何演化。Ohno曾預計,複製的兩個基因,一個會保留原來的功能,另一個則會自由地變身。在457 gene pairs中,76個(17%)在S. cerevisiaeprotein evolution比在K. waltii為快(accelerated protein evolution)。這些快速演化的基因集中在protein kinase以及regulatory protein,功能上,則偏向屬於metabolismcell growth。令人矚目的是,這演化的現象只見於兩個paralogous gene之一,正符合於Ohno的假說。在本研究中,確實也可以見證到,加速演化的一個發展出新的功能,例如,職司telomere功能與MATSir3是由職司origin-of-duplication binding functionOrc1衍生出來,而職司translation-elongation functionHbs1則衍生具有antiviral functionSki7,通常這些衍生的新功能都與cellular localizationtemporal expression有關。

進一步以rich medium利用deletion mutant來研究這些衍生種的功能時,Kellis等人發現:ancestral paraloguedeletion mutant 18%是lethal,但derived paraloguedeletion mutant則不會lethal。我們由此推論derived paralogue已不具備其原有的基本功能,因此也不能補救其ancestral paralogue的流失。

另外,在這457 gene pair中有32對呈現nucleotide的加速演化(但不及於protein)。可能在WGD之後,有一個paralogue可以擺脫天擇上的約束而加速演化,而這種nucleotide的變異可能使細胞能偵測metabolic state的變化。

WGD所致的457 gene pair中,60對呈現減慢的蛋白質演化(decelerated protein evolution)。這60對均屬被高約束(highly constrained的蛋白質,如ribosomal protein (25)histone protein2)translation initiation/elongation factors(4)。絕大部分,兩個paralogue gene一起呈現演化減緩的現象,不同於前述加速演化的gene pair,只有一個paralogue演化較快,此種現象暗示同期性gene conversion的存在。S. cerevisiae的兩個paralogue其鹼基系列的相似性高於後來分歧出去的S. bayanus顯示gene conversion是發生於S. cerevisiaeS. bayanus分歧之後,也就是屬於較新的變化。這類演化緩慢的gene pair可能是的溫床,藉由gene conversion來抵消一對gene pair中的一個成員發生不利的突變,從而也提供演化上的利益。

扣除加速與減速演化者,還有321gene pair的演化是不快不慢的。這些中規中矩的gene pair可能用來增加gene dosage,也有可能還有其他微妙的變化,非我們所能瞭解,例如對gene regulation的影響。

總結而言,S. cerevisiae的基因體確實是源於古早的一次whole genome duplication,加上後來大規模的基因流失(gene loss以及基因功能的特化(specialization而成。這已證明在真核細胞eukaryote的演化中有其重要的角色。因為它可能比單純的突變mutation和天擇selection提供基因體演化更好的溫床。

 

Ashbya gossypii之基因體推斷

Saccharomyces cerevisiae先祖之基因體

Dietrich等人完成一種filamentous ascomyceteAshby gossypii基因體之定序並定義其所含的基因。A. gossypii之基因體大小為9.2Mb,共有4718protein-coding genes,它是迄今已知最小的自由生活真核類free-living eukaryote。此外還有199 tRNA genes49 small nuclear RNAsnRNA,以及40 copiesribosomal RNAA. gossypii基因體沒有transposon以及subtelomeric gene repeats,至於gene duplication則極罕見。A. gossypii4718protein-coding gene接近S. pombe4824個基因,顯示此一數目一4718個基因可能是自由生活所需的最低基因數,每一個基因平均僅1.9kb,比S. cerevisiae2.1kbS. pombe2.5kb以及Neurospora crassa3.7kb為小,整個只有221 intron個,許多的intron均與其S. cerevisiaehomologue屬於相同位置。

雖然兩者的GC content有別A. gossypii 52%S. cerevisiae 38%,但A. gossypii 95%protein coding gene均可在S. cerevisiae找到homologue且多數4281/4718位於syntenic location175個基因可找到homology但非syntenic,而262個基因則找不到homolog其中卻有幾個可見於S. pombe,顯示其為真正的基因。

S. cerevisiaeA. gossypiisyntenic homologamino acid相似性變異甚大(20%~100%),由於sequence conservation程度不高,因此常需藉synteny的關係來尋找paralog,整個A. gossypiigenomeS. cerevisiae相較,並無保留度特別高的區段。利用與前述相同的double synteny的觀念,A. gossypii genome90%可以在S. cerevisiae上找到對應區段,而且A. gossypii的一個區段相當於S. cerevisiae的兩個區段,正如前述S. cerevisiaeK. waltii的關係;而兩個S. cerevisiae的區段合併起來,其gene contentgene orderA. gossypii的對應區段完全相符。(S. cerevisiae chromosome  XVIinversion區段需加以反轉),從而產生S. cerevisiaeA. gossypii的各別先祖。其後,S. cerevisiae發生whole genome duplication,提供了A. gossypii所無的演化可能性。此一WGD產生了將近5000twin ORFs,但目前僅496gene pairs仍可辨認。由基因體的比對,在共祖至A. gossypii形成之間,大概發生了120rearrangement;在共祖與S. cerevisiae之間也發生60rearrangement,而在S. cerevisiae發生WGD之後再發生的120次的rearrangement而造成今天我們所見基因體(圖二)

 

綜合這二個研究,我們可以列出下列的演化樹

經由比對S. cerevisiaeA. gossypii的所有double synteny,我們可以組合出兩者共同祖先的gene order,並推定S. cerevisiaeWGD之後所經歷的rearrangementgene lossA. gossypiigene order可以指示曾發生的inversion,因為A. gossypiigene order反映出common ancestorgene order。一般而言,double strand break大部分與single strand breakWGD並不一致,而double strand break代表A. gossypii或之前的S. cerevisiae所發生的inversiontranslocation。值得注意的是的A. gossypiidouble strand break的邊緣通常是tRNA gene或是non syntenic homolog,此乃因A. gossypii缺乏interspersed repeated DNA elements,而必須以tRNA做為homology-guided rearrangement。比對這兩個yeastgenome,可以發現328 double strand break168 single strand break

總結而言:由A. gossypiiS. cerevisiaedouble synteny,我們可以推斷兩者有一個帶有7個或8個染色體的共同先祖。其後發生了一個speciation event。此event可能包含translocation的發生而且改變乃染色體的數目。

 

比較hemiascomycetes內四種yeast

genome並與S. cerevisiae對照

Dujon等人選擇了hemiascomycetes這個單一phylum內的四種yeast,定序其基因體序列及定義其基因,並與S. cerevisiae相比較,以研究yeast的演化過程。

Dujon等人選擇了演化過程長達500myr的四種yeast species,包括了:

1. Candida glabrata:這是人類candidiasis第二位的病原,僅次於Candida albican,演化上它比Candida albican更接近S. cerevisiae

2. Kluyveromycetes lactis:常用於遺傳研究,在hemiascomycetes中具有獨特的地位。

3. Deberyomycetes hansenii:是一種halotolerant yeast,與C. albican等病原黴菌相關,常見於魚類或加鹽乳製品。

4. Yarriwua lipolytica:一種常用於遺傳研究的alkane-using yeast,與前述yeast關係遙遠,較接近filamentous fungi

定序工作使用的是這四種yeast specieshaploid-type strain

連同S. cerevisiae,這五種yeast species共有30028個蛋白質,可以歸屬為4721 protein family。其中2014familySCKDY”,而1208family維持1111的關係,其餘的806family則至少在一個species有一個paralogous pairSckdy之後,依序為Sck-, -dy, sckd-。整體而言,這四種yeast species在分子層面的分歧度幾乎大於整個chordate phylum

仔細比對分析其基因體序列,我們可以推測在這長達500myr的演化過程,whole genome duplication僅發生於S. cerevisiae這個lineage,其他的化過程則由其他不同的機制推動;包括tandem gene repeat formationsegmental duplicationextensive gene loss等等,茲將可能的演化機制及演化樹列表如下:

總結而言,這四種yeast species屬於單一phylum,但演化上涵蓋500 myr,其分子分歧度大於chordate phylum。藉由比這四個yeast species,我們可以探究演化的機轉。

Y. lipolytica的基因體最大(49.0Mb; S. cerevisiae 12.1Mb; C. glabrata 12.3Mb; K. lactis 10.6Mb; D. hansenii 12.2Mb),且有高度的重疊性(redundancy),顯示其基因體具有map dispersion的傾向。此一傾向可見於許多層面,包括:

1.      a near complete absence of duplicated blocks despite a high number of paralogous genes

2.      a higher number number of tRNA genes

3.      a higher number of rRNA loci

4.      a dispersion of 5S rRNA genes

5.      the specific duplication of other non-coding RNA

至於其他四種yeast species其基因體大小似乎受到相當的約束significant constraint而侷限在10-12Mb,這可能由於他們可以有次序地進行基因複製ordered gene duplication,因此他們的基因體可以看到Y. lipolytica所沒有的duplicated gene blockstandem gene repeat。此一現象在D. hansenii最為明顯,在S. cerevisiae, C. glabrataK. lactis亦均存在。後三者更呈現了一個新的特色,也就是開始有MAT的三倍複製triplication及短的中心粒centromere

與具有最小基因體,基因體重疊性最低的K.lactis相較,S. cerevisiaeC. glabrata在分歧前應該有一次大規模的基因複製,同時C. glabrata lineagegene loss rate應該高於S. cerevisiaeC. glabrata的減縮性演化(reductive evolution可能與其成為人類病原有關。

綜合以上所述,我們可以拼湊出hemiascomycetes演化的故事(圖三)

Node 1,與Y. lipolytica分歧之後的yeast species,失去了DNA transposon,保留retrotransposon,經由減少intron的數目的制其基因體的大小。在此種情境之下,循序漸進的基因複製(large chromosome segment duplication or tandem repeat成為產生往後演化所需paralogous copy的主要途徑,在node 2分歧點之後,一支保持低度的segmental duplication,進行廣泛的tandem gene repeats形成D. hansenii,另一支則出現新的中心體,這些中心體有助於染色體的分離segregation,此外也進行segmental duplication形成三個MAT cassettes,藉由這些新的cassettes改進了生殖能力,也改變了在演化進程上的表現。在node 3,一支承襲前述特性,演化成K. lactis,另一支則發生whole genome duplication。在node 4則因為gene loss程度的不同,分歧成S. cerevisiaeC. glabrata兩支,C. glabrata這一支所發生的reductive evolution相當廣泛,使其基因體重疊度redundancy接近於K. lactis

現在已知的yeast species超過700種,今後更多的yeast species會完成基因體定序,屆時,整個的演化進程將更為清楚,為生物的演化機制提供較完整的面貌。

 

基因複製對genetic robustness的重要性

到底gene duplication對生物的fitness有無好處?Wagner等人完全否定gene duplicationgenetic robustness的正面功能。後來,Gu等人則發現duplicated copy的存在確實有助於生物的genetic robustness。據估計,在S. cerevisiae不會引起phenotype改變的gene deletion中,至少有四分之一歸因於duplicated copy的補償作用。Kamath等人在C. elegansRNAi研究也顯示在C. elegans中只有單一copygene發生RNAi phenotype的機率為具有duplicate的基因的2.6倍。Kamath也發現C. elegans的染色體上,靠近中心體的基因比靠近染色體arm的基因,較易出現RNAi phenotypeKamath等人認為這是因為染色體的arm上,發生recombination的機率比中心體附近高出五倍,當然gene duplication的機率也較為提高,從而,其上的基因出現RNAi phenotype的機率也降低。總而言之,一個具有duplication copy的基因比較不易受到gene deletion的影響。因此,生物演化過程中發生gene duplication,不僅可以提供產生新基因功能的溫床,也提升了生物的genetic robustness。因此,Nei早在1969年即指出“There are likely to be many duplicate gene which……

最近,李文雄等分析人類基因體上的segmental duplication。他們發現以size1Kb, sequence similarity90%為標準,人類基因體的4%是segmental duplication,而24個染色體之中,segmental duplication所涵蓋的比率為114%。在15個染色體,intrachromosomal duplicationinterchromosomal普遍,而pericentromericsubtelomeric區域的duplication比率高於基因體整體的平均值,達34倍。

就個別染色體而言,除了7號及Y之外,segmental duplication的多少與gene densityrepeat densityrecombination rateGC content均無顯著相關性。但就整個基因體而言,duplication的頻率與上述因子皆有關連。根據已知基因及ensemble gene,所有的segmental duplication3.4%及10.7%含有完整基因。Intrachromosomal duplication含有完整基因的機率高於interchromosomal duplication。更進一步來看,含有基因的duplication,比未含基因者,其segmental similarity較高,且長度較長。作者的推論是:基因體中含有基因的許多segmental duplication在演化上受到選擇性的保存。

人類基因體的4%是segmental duplication,而其中3.410.7%含有基因。這個初步觀察有待進一步深究,以了解在人類gene duplication的演化進程及其功能性意義。

目前,眾多學者紛紛在研究基因功能,然而,在生物體中基因的功能是受到其duplicated copy以及gene network所產生的gene buffering的影響。在研究其功能時,我們必需考量這兩個背景因素。尤其是對看不到phenotypenull mutation,更需考量它是否有受到duplicated copy的補償作用或gene buffering的影響。

在前述yeast演化過程中,在與Y. lipolytica分歧之後,yeast的演化受到genome size的約制constrain。該文作者並未明言,何為genome size constraintLynchConery2003年推論population sizegenome size互為因果。他們並指出prokaryotes龐大的population size長期而言,阻礙了演化出更複雜的基因體及形態的可能性。因此,所謂的genome size constrain也許就是population sizeLynchConery也顯示生物的genome size愈大,其基因體中duplicated genes存留的半衰期也愈長,當然,衍生出新基因功能的機率也較大。不過,最令人困惑的是,為什麼經過500myr的演化,yeast還是yeast,為何沒有speciation event出現?

 

 

取材文獻

1.  Dietrich FS et al The Ashbya gossypii genome as a tool for mapping the ancient Saccharomyces cerevisiae genome. Science 304:304, 9 April, 2004.

2.  Kellis M et al Proof and evolutionary analysis of ancient genome duplication in the yeast Saccharomyces cerevisiae. Nature 428: 617, 8 April, 2004.

3.  Dujon B et al Genome evolution in yeasts. Nature 430: 35, 1 July, 2004.

4.  Van de Peer YComputational approaches to unveiling ancient genome duplications. Nat Rev Genet 5: 752, October, 2004.

5.  Gu XEvolution of duplicate genes versus genetic robustness against null mutations. Trends Genet 19: 354, July, 2003.

6.  Zhang L et atPatterns of Segmental Duplication in the Human Genome.Mol Biol Evol 2004 Sept 15 (E publish)

7.  Lynch M et atThe origins of genome complexity. Science 302: 1401, 21 November, 2003.