LMSSitesePortfolioRegisterLogin
閒話基因體科學_2.基因舞者-談基因體上的跳躍單元Dancers in Geneme-Mobile Elements
by 陳怡蓁, 2012-08-15 17:38, Views(1281)

基因舞者

談基因體上的跳躍單元

Dancers in the GenomeMobile elements

 


臺大醫學院 謝豐舟教授

人類的基因體已知具有3X109鹼基對,其中屬於獨特序列(unique or single copy DNA意即整個基因體上只有一個copy)的部分約佔45%,另外55%則是反覆序列(repetitive sequence)。基因體中的主角當然是基因,因此這些佔了基因體一半以上的反覆序列,一向被視為垃圾(JunkDNA

然而,這些垃圾真是如此不堪嗎?近來對基因體的研究,學者慢慢瞭解這些反覆序列不僅是建構基因體的重要成分,更是形塑基因體性狀和功能的基因體工匠(genome artisan)。

 

反覆序列的分類

反覆序列可以分為兩大類,其一為串聯反覆序列(tandem repeat(1)。這是一些單位序列反覆地再現,缺乏具體的組織結構它包括(1)微衛星(microsatellite):由210個鹼基的基本序列組成反覆數次到數十次,如(CA)n2)迷你衛星(minisatellite):由20100個鹼基的基本序列反覆組成,可達50020,000個鹼基的長度(3)端粒序列(telomere)位於各染色體的遠端,其一般結構為(T/A)1-4 (G)1-8

串聯反覆序列約佔人類基因體的1015%,它們通常聚集在染色體上的某些區段,例如染色體1號、9號、16號的長臂近端以及Y染色體的長臂。在每一個染色體的中心粒都有稱為α衛星(αsatellite)的反覆序列,這是以171個鹼基為基本單位的反覆序列,據信α衛星與細胞分裂時染色體的分離(segregation)有關。串聯反覆序列有人將之統稱為衛星(satelliteDNA,原因是早期在研究DNA時,使用Cesium chloride density gradient進行離心,大部分的DNA(含前述的獨特序列DNA)自成一區,而這些串聯反覆序列DNA較輕,所以另外集合成較小的三區,恰似行星旁邊的衛星,因此習慣上以衛星來稱呼這些串聯反覆序列(圖2)。讀者要注意,此一衛星acrocentric染色體(13,14,15,21,22號)上的衛星不同,後者是型態上像染色體頭上長出兩粒,性質上則是好幾百個copyribosomal RNA gene,與前述串聯反覆序列的衛星完全不同,不可混淆。

 

散落性反覆序列(Interspersed repetitive sequence)

反覆序列的另一大類是散落性反覆序列Interspersed repetitive sequence(圖3。與前述聚合在某些染色體區段的串聯反覆序列不同的是,這些散落性反覆序列在染色體上到處分佈,因此稱之為散落性反覆序列。它包括兩大類,一類是DNA跳躍子(DNA transposon),另一類則為反轉錄單元(retroelement)。前者類似果蠅的跳躍子(transposon),在人類基因體較不重要倒是反轉錄單元(retroelement),在哺乳類基因體結構上扮演相當重要的角色。它們都能藉由中介RNARNA intermediate)進行擴增amplification),並且移動到基因體上的新位置,因此被稱為反轉錄單元(retroelement)或反轉錄跳躍子(retrotransposon),因為它們能在基因組上移動,也有人稱之為移動單元(mobile element),據估計人類基因體的50 是由反轉錄單元衍生而來。

反轉錄單元(retroelement)又可分為自主性反轉錄單元(autonomous)及非自主性反轉錄單元(non autonomous)。自主性反轉錄單元雖然需要許多細胞內蛋白質協助其擴增,但其本身確實具有一些擴增所需的活性,相反地,非自主性反轉錄單元則必須藉助其他的自主性反轉錄單元提供協助,才能達到其擴增的目的。

自主性反轉錄單元以LTRlong terminal repeat)最為知名,它的結構與反轉錄病毒(retrovirus)相類似。頭尾兩端是long terminal repeats,中間則為數個開放轉錄區(open reading frame)以轉譯反轉錄移位(retrotransposition)所需的蛋白質包括endonuclease,以切入欲結合的基因體位置,還有reverse transcriptase俾將RNA轉錄成DNA。在第一個LTR正下游則有能提供反轉錄起始點的特別部位(priming site)。與反轉錄病毒不同的是,LTR缺少合成病毒套膜及製造功能性病毒基因的基因組。有時候LTR也會缺少某些ORF以致不能自行擴增,而成為非自主性反轉錄單元。它們通常是來自古老的反轉錄單位,失去部分功能後變成不活動的假基因(pseudogene)。

非自主性反轉錄單元主要有SINEshort interspersed repetitive element)及LINElong interspersed repetitive element)。SINE長度約90300個鹼基,其中最重要的是AluLINE長度約6,000個鹼基,最著名的是L1

 

L1 retroelement

人類的基因體上有近50萬個不活動的L1單元5´truncatedinverted or mutated),但仍有5,000個全長6KbL1存在而其中60100個具有retrotransposition的能力。完整的L1,全長6,000Kb,含有(1未轉譯區(5´UTR)(內含1 promoter),(21Kb之開放轉錄序列(ORF1),能產生具RNA結合能力的蛋白質(34Kb之開放轉錄序列(ORF2),能產生具endonucleasereverse transcriptase能力的蛋白質(4)短的3´UTR5poly(A)tail3L1插入染色體DNA是藉由所謂target primed reverse transcription TPRT)的過程,其ORF2endonuclease先切斷一處單鏈DNA,以切斷處之3´OH作為引子,並以L1 RNA作為模板(template)進行反轉錄。

L1在基因體上的retrotransposition可經由下列四種機轉改變基因結構

1Insertional mutagenesiscis

L1產生的蛋白質會作用於L1本身轉錄出來的RNA以產生新的retrotransposition event。新形成的L1可以是full lengthtruncation或是truncation加上inversion

2Insertional mutagenesistrans

L1產生的蛋白質偶爾會作用於其他非L1RNA,造成processed pseudogene(佔genome1%)或Alu這類nonautonomous retrotransposon(佔人類genome10%,約共五十萬copy)的散佈於基因體上。所謂processed pseudogene就是一個spliced mRNAL1reverse transcriptase反轉錄成DNA,再插入基因體。

3Endonuclease independent insertion

在極稀少的情況下,L1也能直接插入到一處DNAdouble-strand break,不過插入後之L1常常是truncated並且缺少TSDtarget site duplication)。

4Transduction

L1在進行retrotransposition時,會涉及(較少見)之flanking DNA,並將之帶到基因體上新的位置,也就是L1  會扮演"exon shuffling"的工作。位於基因intronL1,當它進行retrotransposition時,會把其上游或下游的exon帶到基因體上的新位置,可能就把這個exon加到一個新的基因內,造成基因體重要的改變。

5Rearrangement

學者細胞培養的情況下發現L1插入處發生large-scale deletioninversion ,故L1可能引起rearrangement改變基因體結構

總之,L1大概直接或間接與人類基因體的三分之一脫不了關係。

 

Alu retroelement

人類基因體上另一個重要的retroelement就是Alu,總共有50copy,佔人類基因體的1015%。完整的Alu長度約300bp,因為它具有一處Alu I restriction enzyme的切點,因此被冠上Alu這個奇怪的名稱。Alu常見於intron,基因的3´UTR以及intergenic genome region 。雖然AluSINE中最主要的成員,但Alu較多見於基因組上基因豐富(gene-rich)的區域,而非隨意散落各處。

演化上,Alu出現的時間正是65百萬年前靈長類誕生的時候。仔細分析Alu的鹼基序列,我們可以推定它源於7SL RNA基因,而此基因是ribosomal complex的一部分。Alu可能源起於靈長類演化早期的一次gene duplication,繼而發生不斷的amplication,而達到今日龐大的數目。事實上,所有的SINEshort interspersed repetitive element)均源於各種小型且具高度結構性的RNAtRNAtransfer RNA),其轉錄則有賴於RNA polymeraseIII

Alu是由二個monomer組成,二個monomer之間夾著一段富含A的序列(A2TACA6)。在的第一monomer,具有兩個RNA polymerase IIIpromoter,在的第二monomer則帶有一個31bpinsertion第二monomer的末端則是不同長度polyA tail。在整個Alu的頭尾兩端則是源於插入處的short intact direct repeatsAlu 會經由retrotransposition 擴增其數量,此過程是由Alu上的RNA polymeraseIII promoter啟動反轉錄,由於Alu並不具有使RNA polymeraseIII 停止轉錄的訊號因此轉錄常延伸到鄰接的獨特序列 (unique sequence) ,直到出現TTTT序列才停止下來。因此,AluRNA轉錄稿在3´常有UUU的序列。目前推測Aluretrotransposition可能要先由前述的L1endonuclease對插入處的DNA,在TTAAAAconsensus site上先予以切斷(first nick) ,然後Alupoly A tail與切斷處3´TTTT結合,再以Alu為模板進行反轉錄,目前另一接合處(second nick)的機轉尚待釐清,不過,反轉錄及插入完成後新的Alu兩端會帶有新的direct repeats

需要強調的是,L1Aluretrotransposition扮演重要的角色。由於Alu本身不具有ORF,而只有RNA polymeraseIIIpromotor,所以需要借助於能產生RNA polymeraseendonucleaseL1。在結構上L1Alu均具有3´poly A tail,表示他們可以利用同樣的酵素機轉以達成在基因體上移動的目的。當然,對於first nick3´TTTTL1Alu也都有接合的可能性。從演化的時間表來看,在哺乳類的基因體上,AluL1都是在過去150百萬年同時大量增加,這也暗示兩者的關係可能是彼此依存的。

Alu雖然為數眾多,但真正具有retrotransposition能力的卻只有少數的master gene or source geneAlu雖然具有RNA polymeraseIII promotor,但本身卻不足以啟動RNA polymerase而需要有合適的鄰接序列(franking sequence) 。因此,一個Alu能夠進行retrotranspostition其實相當偶然,端視它能否幸運地有個好鄰居。事實上,這個好運並不常有,因此絕大部分的Alu其實只是基因體上古老retrotransposition留下來毫無作用的遺跡(relics)。對Alu更不利的是,Alu具有24個或更多的CpG.dinucleotide,而這些CpG極容易突變,導致Alu失去再進行retrotransposition的能力。此外,Alu 3´ poly A tail也很容易質變,這也不利於Aluretrotransposition。因此,大部分的Alu終將成為單純而不活動的反覆序列。

Alu中少數具有retrotransposition能力的sourcegene也會發生突變。這些突變帶愛傳衍下去,導致人類基因體上的Alu可以分成幾個不同的家族(subfamily) ,起源於不同的年代,也各自帶有一些代代相傳的突變(hierarchical series of mutation) 。較古老的Alu家族一般帶有較少的家族特定突變 (diagnostic subfamily – specific mutation) 而有較多的隨機突變 (random mutation) 相反地,較年輕的Alu家族則帶有較多的家族特定突變和較少的隨機突變。

大部分Alu數目擴增的時間是在40百萬年前。在靈長類演化的早期,每一個個體誕生就有一個新的Alu插入基因體。但目前大概每200個個體出生才增加一個Alu,也就是Alu的活動力大大減少(兩個order) ,推測其原因可能有三:(1)Alu進行retrotransposition的潛力降低,(2)基因體上可以容納新的Alu的空間減少,(3)人類基因體的演化趨向限制Alu的擴增,在果蠅也可以觀察到對mobile element擴增的限制。

在人類基因體上的Alu,約有0.5%是比較新的,也就是在4-6百萬年前人與非洲人猿(African Ape)分開以後,才出現在人類的基因體上。這約5,000個幼齒Alu (young Alu)多數在人類走出非洲之前即已存在,其中的1,200Alu由於進入人類基因體時間相當短,因此到目前為止,在個人的基因體上仍處於一個有或無(dimorphic)的狀態,也因此這個Alu插入多形性(Alu insertion polymorphism)就成為相當有用的基因體多形性的指標。

這類幼齒的Alu均屬於數個相關聯的Alu家族—YYc1Yc2Ya5Ya5a2Yb8Yb9家族。在演化上出現的順序為YYb8Ya5Yb9Ya5a2Yc1Y Alu (200,000 copy)出現於25百萬年前,也就是長臂猿(Orangutan)與綠猴(green monkey)分歧之後。Yb8(1,852 copy)Ya5(2,640 copy)出現在約10百萬年前,也就是大猩猩(Gorilla)與黑猩猩(Chimpanzee)出現前。人類獨有的Yb9 (79 copy) Ya5a2 (35 copy)Yc1 (381 copy)則出現在46百萬年前。這些Alu的進入基因體,一般沒什麼明顯的負面影響,基本上只是中性的新突變。一個新的Alu進入基因體之後,他的存在就受到遺傳漂移(genetic drift)的影響。在大的族群中,一個新的Alu比較容易消失。不過在短期間內來看,他在族群中出現的頻率是會增加的。總結來看,一個新的Alu在剛進入基因體的初期,消失的機會相當高,消失與否,端視該族群的大小。隨著插入時間的早晚,以及遺傳飄移的影響,一個Alu可以在不同的種屬 (species) ,不同的族群 (population) ,不同的家族 (family),甚至不同的個體(individual)呈現的多形性,這就是所謂的Alu insertion polymorphism

Alu作為一個遺傳標記(genetic marker)是有其特色的。不同個體上相同的Alu鐵定是來自一個相同的祖先(identical by descent) ,而一般常用的遺傳標記,如VNTRRFLPSNP則不一定來自相同的祖先,而只是在某一階段呈現相同的變化(identical by state)。因此,使用Alu來進行遺傳研究較單純,因為不需要加入太多的推論(assumption) Alu此一identical by descent的特色是由於(1)目前人類基因體的狀態,容許兩個個別的Alu插入同一地點的機會幾乎是零,(2)沒有能將一個Alu從基因體上移除的機轉存在。

由於Alu是人類基因體上最大的基因家族,因此他們也可是能homologous recombination的核心。Homologous recombination的結果可以導致序列的duplicationdeletion 以及translocation,進而造成人類基因體的多元性(diversity) 。靈長類演化過程中tropoelastin基因的多元化可能就是Alu導致的homologous recombination所致。目前所知的幾個Alu密度高的基因,發生homologous recombination的機率並非特別提高,如thymidine kinase或β-tubulin基因均是如此。學者已知染色體內recombination發生的機率與相同序列的長度有關(length of untinterrupted regions of nucleotide identity)。相同序列愈長,發生recombination 的機率愈高;反之,則愈低。年代較老的Alupairwise divergence較高(~15~20%),亦即相同序列的比率較低。當然,較年輕的Alu,其pairwise divergence較低(1%),發生recombination的機率也較高。此外,Alu上面24CpG dinucleotide迅速的突變,也會增加pairwise divergence 而不利於homologous recombination的發生。目前已知,約有0.3%的人類遺傳疾病是因Alu中介的unequal homologous recombination所致,包括Insulin resistant diabetes type IILesch-Nyham syndrome, Tay-Sachs diseaseComplement component C3 deficiency, Familial hypercholesterolaemia,αthalassmia 以及數種癌症Ewing sarcoma, Breast cancer以及 Acute myelegenous leukemia。目前有證據顯示Alu假若以反方向插入時較容易產生不利的recombination,但此種情況很難確認,因此Alu所致的recombination對人類基因體的負面影響可能大於目前所知。Alu 中介recombination的發生機率其實也因人而異,例如TP53基因(P53之基因)突變者較易發生Aluinverted recombination。因此,當腫瘤已發生TP53突變之後,Alu中介的recombination更容易發生,進一步導致loss of heterozygositygenome rearrangement 而更促進腫瘤的生長。學者注意到當mobile element插入後,其附近序列發生recombination 的機率有降低的趨勢,進一步影響了附近相關序列的haplotype 改變的機率,從而加速種屬分化(speciation)的速度。在基因體上Alu較喜分布於gene-rich 的區段,但年輕的Alu則無分佈的偏頗,這意味著Alu插入後會產生改變較老Alu分佈的天擇壓力(selective pressure)

最近研究顯示,在人類基因體上Alu的分佈與simple sequence repeats頗多重疊。事實上Alu 本身就是simple sequence repeats的來源。這包含Alu中間的A豐富區域(A5TACA6)以及Poly A tails(可達100A)Alu頭尾兩端的(A+T) rich direct repeated sequence (插入時 L1 derived reverse transcriptaseendonucleolytic activity所致)也是simple sequence repeat的來源。Alu衍生的這些sequence repeat 在經由各種的突變,如point mutationinter and intrastrand cross over replication slippage都會再增加這些repeats的長度以及複雜性。據推測,靈長類的基因體上25%simple sequence repeat(包括mcirosatellite)Alu有關。近來的研究也顯示Alu上的A-rich序列是靈長類microsatellite的來源,據估計人類基因體上的Alu總共可以提供高達220萬個microsatellite形成的空間。Friedreich ataxia之發生可能與frataxin基因上一個Alu中間的A-rich 區發生triplet-repeat expansion有關。

 

AluSNP的關連

年輕的Alu,一般SNP較少。經由對α-fetoprotein gene cluster, albuminglobin gene的分析顯示Alu插入基因體之後,以中性速度進行突變。不過由於Alu上具有豐富的CpG dinucleotide,因此其突變速度高達10倍,年輕AluSNP有一半是位於這些CpG dinucleotides

Alu 也有相當高度的gene conversionAlugene conversion 似乎牽涉 50-100bp 的小區域,結果會改變 Alu 1~2個具特性的突變。整個 Alu 發生 gene conversion 的情況也被報告過。不同 Alu 家族的 gene conversion rate 也不同。以最近插入的 Ya5而言,其 conversion 的頻率約為數百萬年中有 20%,而另一較老的 Alu 家族其 conversion之速率為1%/5-10百萬年。截至目前為止Alugene conversion如何發生,尚不清楚。不過Alugene conversion確實對人類基因體的結構影響深遠。此外,gene conversion也是Alu在基因體上移動的另一方式,例如酵母菌的 Tf2 mobile element可藉由此機制移動。Alu gene conversion 對基因體上的 SNP亦有影響,因此在使用 SNP 作為 identical by descent markers 也要考慮可能的 gene conversion

 

Alu gene expression

人類所有CpG的三分之一是存在於Alu序列裡。

這些CpG突變的速率為其他non-CpG 區域的10倍。在真核生物cytosine會被甲基化成5-methylcytosine,當DNA複製時,易導致5-methylcytosine轉變成thymidine而對基因體會產生很大的改變。此一改變更透過對DNA methylation的修飾,進一步影響gene expression,這也許是使Alu上的 CpG 能存在的天擇壓力。

生物發育過程中,不少Alu序列上methylation的程度隨著時間及地點而變,進而影響其表現。此外Alumethylated CpG轉變成TpG也會增加Alupairwise divergence而降低其recombination的機會,因此AluCpGmethylation不但對個別基因的表現有所影響,甚至也可以造成whole genome imprinting種種研究顯示Alu透過自身methylation狀態的改變廣泛地影響基因的表現。

Alu RNA的表現在細胞遭受壓力(cellular stress)病毒及轉譯抑制時都會增加。在實驗中,Alu RNA也會刺激reporter gene 的表現,因此,Alu RNA對轉譯工作(translation)可能具有維持及調控的作用,不過其作用因時空及環境之不同而異。

總而言之,Alu持續地經由下列方式增加基因體的多元性 (genome diversity)

1. 引起突變
2.     Alu
Alu之間的recombination
3.
對於gene expression之影響
4.
對於translation的影響
5.
經由gene conversion 影響 SNP的累積

更重要的是,由於Alu具有identical by descent的特性,也就是源於common ancestor,而非VNTRRFLPSNP之屬於identical by state,因此Alu對於population geneticscomparative genomic study將會扮演重要的角色。

最近對transformed cell line的研究,發現L1 insertion10%會伴隨相當程度的deletion而導致genome instabiligy。這顯示retroelementcancer的形成可能有一定的影響,值得繼續探討。

其實,基因體上的跳躍單元(mobile element)早在1930年代即由McClintock女士由玉米的觀察預測它的存在。在一九五三年DNA雙螺旋被發現之前二十年,她就提出跳躍基因(Jumping gene)的觀念,令人不得不佩服這位玉米田裡的先知在七十年後的今天,臺灣大學尚無任何遺傳研究機構,不覺令人吒異何以遺傳學這麼重要的領域,多年來在臺大全然不被重視看來臺大離世界一流大學的境界還有很長的一段路要走。

 

 

推薦讀物

1.   Kazazian H et alLINE DriveRetrotransposition and genome instability.

Cell 110:227-280,2002.

2.   Gilbert N, et alGenomic deletion created upon LINE-1 retrotrans- position.

Cell 110:315-325, 2002.

3.  Symer DE et alHuman L1 retrotransposition is associated with genetic   instability in vivo. Cell 110:327-338, 2002.

4.  Batzer MA et alAlu repeats and human genome diversity. Nature Review  Genetics. 3:370-378, 2003.

5.  Deininger PL et alMammalian retroelement.

Genome Research 12:1455-1465, 2002.

6. Hagan CR et alHuman Alu element retrotransposition induced by genotoxic stress. Nature Genetics 35:219-220, 2003.

7. 唐嘉慧譯:玉米田裡的先知,天下文化(Evelyn Foxkeller: A feeling for the organism. The life and work of Barbara McClintock)

8. Read AP et alHuman Molecular Genetics, London, Garland Science, 3rd ed, P240, 2003.