LMSSitesePortfolioRegisterLogin
閒話基因體科學_1.人類基因體大觀
by 陳怡蓁, 2012-08-15 17:19, Views(2023)

人類基因體大觀

 

臺大醫學院 謝豐舟教授

 

人類基因體序列於2001215日完成初稿,使我們能一窺控制人類傳承繁衍的遺傳密碼,且讓筆者引領您對它做個鳥瞰式的瀏覽。

人類的基因體(Human genome)可以分為細胞核基因體(Nuclear genome)及粒線體基因體(Mitochondrial genome)兩個部分。細胞核基因體就是位於細胞核內的DNA。它共長3,200Mbmegabase,百萬鹼基),有30,000~35,000個基因。3,200MbDNA中只有1.5%具有轉錄功能(coding DNA)。細胞核基因體是由23個(女性)或24個(男性)的DNA分子組成。細胞核基因體中反覆性DNA repetitive DNA)高達50%。細胞核基因體的遺傳方式基本上是循孟德爾模式,不過Y染色體是父系遺傳(paternal inheritance)。粒線體基因體大小只有16.6Kbkilobase,千個鹼基),具有37個基因。粒線體基因體的16.6Kb DNA是由單一個DNA分子構成,其93%具有轉錄功能,而反覆性DNA極少。粒線體基因體是母系遺傳(maternal inheritance)。

人類基因體到底有幾個基因?這個問題並未因人類基因體的解碼完成而獲得答案。國際人類基因體定序集團(International Human Genome Sequencing Consortium)估計人類有30,000~40,000個基因,而美國的Venter的估計是26,000~38,000個基因。當然確切的數目尚無定論,不過有共識的是較低的數目可能較為接近真正的數目,因此有前述30,000~35,000個基因的推定。一般無脊椎動物具有14,000~20,000個基因。例如微不足道的線蟲(<1mm),居然有19,099個蛋白質基因外加6,000個以上的RNA基因。人類作為生物的複雜性遠遠大過線蟲,居然只比線蟲多了10,000個基因,真是出人意表。因此我們可以說生物的複雜性 biological complexity)不是經由基因數目的眾多來達成,變化萬千的轉錄複雜性(transcriptional complexity)以及多樣切割(alternative splicing)才是生物複雜性的來源。當然,生物學家觀察到當基因數目超過20,000時,生物複雜性還是會有顯著的增加。

人類基因體確切的基因數目所以無法確定,基本上是因為學者還不能確定「什麼是基因?」。不過至少目前同意基因應該具有三個基本條件:

1. 必須有產出(product),不管是蛋白質或RNA

2. 必須有功能(function)。

3. 必須包含轉錄單位及調控單位(transcriptional and regulatory units)。

實際運作上則必須依靠下列標準來決定一個DNA序列是否基因:

1. open reading frame的有無。

2. Sequence features(如G+C的比例)。

3. Sequence conservation(其他生物是否有類似序列)。

4. Evidence of transcription(有無RNA轉錄功能)。

5. Gene inactivation(使其失效,是否有表現型的變化)。

除了這五個操作標準外,還要考慮:

1. 基因重疊(overlapping),

2. 多樣切割(alternative spicing)以及3、假基因(pseudogene)的存在。

 

粒線體基因體

人類的粒線體共有16,569個鹼基,其G+C的比例為44%,分為富含GHeavyHchain以及富含CLightLchain。人類粒線體基因體是雙股(double strandsDNA,但有一小段是三股(triple strands)。人類細胞中粒線體基因體的數目因組織而異,但通常高達幾千個copy。人類粒線體基因體極為精簡,93%具有轉錄功能,所有基因均無intron,基因密度極高(1 gene/ 0.45kb),基因之間彼此相連,甚至重疊。有些基因缺少UAAstop codon。值得注意的是粒線體基因體有一段三股DNA,稱為displacement (D) loop region,它是由DNAH chain7sDNA)複製而來,它不具有轉錄功能,但它卻是粒線體基因體上所有37個基因共同的promotor

人類粒線體37個基因中有28個是以H chainsense strand7個則是以L chainsense strand37個基因中有24個轉錄成熟的RNA,包括22mt tRNA2mt rRNA23S+16S),另13個基因則會轉譯蛋白質。這些蛋白質都是粒線體中執行oxidative phosphorylation以產生ATPrespiratory complex的結構次單元(subunits)。這個功能總共需要上百個蛋白質,除了粒線體自製的13個之外,其餘均在細胞核基因體製造,再傳送至粒線體執行功能。

 

人類細胞核基因體

人類細胞核基因體共有3,200Mb,其中3,000Mb為真染色質(euchromatin)而其餘200Mb為異染色質(heterochromatin)。值得強調的是,目前完成的基因體定序工作尚未包括這200Mb的異染色質。所謂異染色質是永久密集排列(permanently compacted)且不具轉錄功能(transcriptionally inactive)。它的位置是1、所有染色體的中心粒(centromere)。2Acrocentric chromosome1314152122)之短臂。3、染色體1916Y之長臂。人類細胞核基因體的G+C比例為41%;可以高到49%19號染色體),低到38%4號及13號染色體)。在我們最常見的染色體帶狀染色法(Giemsa bandingG-banding)所呈現的染色體黑色帶(dark band)及白色帶(light band)中,白色帶之G+C比例較高,而且富含基因(gene-rich),相反地,黑色帶則G+C比例較低,基因也較少(gene-poor)。基因體鹼基序列中值得特別注意的是所謂CpG dinucleotidesCpGCcytosineGguanine,而p就是連接兩者的phosphodiester bond,所以CpG其實就是CG dinucleotideCpG的重要性在於CpG集中的地方通常是基因所在的位置。人類基因體中的CpG dinucleotide3%cytosine5’ carbon是被甲基化(methylated)。這種5-methyl cytosine經由deamination會變成thymine,而後在DNA複製的時候和G配對,形成mismatch。由於DNA repair system不太容易偵測到這個從CàG變成CàTmismatch,所以這個從CàG變成CàT的配對改變,就會造成DNA複製時的序列變化,而改變了基因體的組成,甚至造成基因的突變。在演化過程中以上的機轉會使CpG變成TpG,因此脊椎動物基因體中CpG的比例相當低,例如人類只有預期比例的五分之一。不過基因體中還是有一些區段具有豐富的unmethylated CpG dinucleotide群聚(即CpG island),其G+C比例大於50%,通常可長達數百個nucleotides,此區常常就是基因的5’端,因此CpG island也是尋找基因的一個指標。

 

人類基因中的RNA基因

        RNA基因就是以RNA為最終產品的基因。人類大約有3,000RNA基因,佔人類基因總數的十分之一。此外還有許多相關的假基因(pseudogene)及基因片段(gene fragment)。這些RNA基因的功能是協助基因表現的一般過程(general process of gene expression)。例如rRNAtRNA均在協助mRNA的轉譯,snRNA則在協助基因的splicingsnoRNA協助其他RNA的修飾,miRNA則對其他RNA有調控功能。

        在人類的RNA gene中,antisense RNA約有1,500個,tRNA500個,rRNA800個,miRNA200個,snRNA100個,而snoRNA200個。

 

rRNAribosomal RNA

基因總數約700~800個,呈串聯反覆叢集狀態(tandemly repeat cluster)且有許多相關假基因。在粒線體中有16S23S兩種,在細胞質中則有5S18S28S5.8S四類。5S rRNA基因約200~300個,最大的叢集是在1q41~q4218S28S5.8S則形成五大叢集(各有30~40反覆單元),分布於染色體1314152122之短臂。基本上rRNA基因的copy number極高,以應付細胞質中核糖體合成蛋白質的需求。

 

tRNA(transfer RNA)基因

粒線體基因體上有22tRNA基因,而細胞核則有497tRNA基因,另外還有324tRNA演變而來的假基因。tRNA基因的copy number因不同組織以及不同發育階段而異,例如Xenopus laevis的卵細胞有高達40ngtRNA,也就是有幾千個tRNA基因。

        tRNA基因分成49個基因家族,具有anticodon specificity,但是有所謂的third base wobble的現象,也就是專一性是由前兩個base決定。tRNA基因分散於各染色體,但22號及Y則無。最大的tRNA cluster是在染色體6p2497tRNA基因中有280個在此,基因密度高達140 gene/ 4Mb,另外1號染色體上則有AsnGlu tRNA基因的叢集。

 

snRNA(small nuclear RNA)基因

        snRNA基因以富含uridine著稱,這些基因依其uridine含量的多寡排名,例如U3uridine含量第三位。snRNA基因位於majorminor spliceosome,協助基因的splicingsnRNA基因總數在80以上,其中70個用於major spliceosome,包括44U616U1。例如17q21~q226.1Kb)的RNU2 locusU2 RNA基因,而1p36.1RNU1 locus則有U1 RNA基因。snRNA也有許多相關的假基因,例如U6 snRNA基因就有高達1,135個相關假基因。

 

snoRNA(small nucleolar RNA)基因

        snRNA基因位於核仁內,其功能在對rRNAsite-specific base modification,以及對其他穩定的RNA進行base modification(如U6 snRNA)。例如C/D60X基因可引導site specific pseudouridylationsnRNA基因通常位於其他基因的intron,一般呈分散分佈,另外也有叢集分佈者,如15q上的SNURF-SNRPN轉錄單位,它是父方印記且表現於腦部,在著名的Prader-Willi syndrome扮演重要角色。

 

miRNA(microRNA)基因

novel small regulatory RNA molecules

        這類長僅22nucleotidesmiRNA是最近生物科學上的明星,因為它能經由調控mRNA而影響其他基因的功能。最先是在線蟲發現,包括lin4let7基因。miRNA的前身是所謂hairpin RNA precursor,經由RNA polymerase (即dicer)的裂解而成。miRNA可與標的基因mRNA3’UTR上的complementary sequence結合,從而抑制此mRNA的轉譯而達成調控其他基因功能的作用。在植物上也證明miRNA有調控發育的功能。

 

多胜肽基因(polypeptide genes)

        人類基因體上的基因有十分之九會轉譯出蛋白質或多胜肽。這些基因是執行生理功能的主要角色。它們的大小相差甚鉅,可以小於1Kb到大於2.4Mb,而大小相去甚遠的基因其最終產品卻可能是尺寸相近的蛋白質,例如45KbapoB基因其產品是4,563個氨基酸的Apoprotein B,而人體最大的基因—2.4Mbdystrophin基因,其產品僅有3,685個氨基酸。

        基因通常有exonintron。人類的exon一般小於200bpexon的大小與整個基因的長度無關,但是越大的基因,其exon所佔的比例越低。至於intron的長度則變化甚大,一般而言,愈大的基因,其個別intron的長度可能愈長。

        舉例而言,基因大小在1Kb以下的tRNATyr基因、histone基因及α-interferon基因的exon比例均高達100%,亦即沒有intron3.5KbclassHLA基因exon46%。在100Kb以下的基因中,30Kbα1collagen基因exon20%42KbApolipoproteinβ則為33%。在100Kb以上的大基因中,近200KbFactor 基因exon3%230KbCFTP2.4%350KbNF1則為4%,至於最大的2.4Mb dystrophin基因exon只佔0.6%

個別的基因中含有不同比例的反覆DNArepetitive DNA)。通常是以micro satellite為主,分布於intronexonflanking sequence中。

基因的分布並無固定的原則,功能相似的基因偶而會聚集在一塊,但通常分散於不同的染色體。例如人類基因體上86histone基因分布於10個不同的染色體,但是在6p上有兩個叢集(cluster)。ubiquitine基因也分布在不同的染色體上。

基因彼此之間通常有所區隔,但也有重疊基因(overlapping genes),基因中的基因(genes within genes)以及多重功能轉錄單位(polycistronic transcription unit)的存在,例如HLA complexclass 區的基因在0.9Mb的長度就有70個基因,明顯可以看到基因序列重疊的現象,而NF1基因的第26intronantisense strand有三個反向轉錄的內含基因(internal genes),分別是2.2KbOGMP10KbEU12B,以及4KbEU12A。它們都各有兩個exons。多重轉錄單位是指一個序列能轉錄出兩個或以上的基因,例如insulin基因序列可以轉錄出A subunitB subunit再組合成insulin

基因也以家族方式存在(gene family)。通常分為下列數類:
1.
典型的基因家族(classical gene family):

  家族中的基因通常有相當高度的序列相同性(sequence homology),至少  coding DNA的部分可見此序列相同性,例如histone基因家族,α-globin家族及β-globin家族。

2. 基因產品有大而高度保留的區域(large, highly conserved domain):

Homeobox基因家族的38Hox基因及214orphan homeobox gene

均有homeobox區,其內有高度保留的60個氨基酸組成的homeodomain

3. 基因產品有短而保留的氨基酸序列(motif):

這些基因具有相近的一般功能,並且具有極短的共同氨基酸序列,如DEAD boxAsp-Glu-Ala-Asp)或是WD repeatTryptophan-aspartate)。

4. 超級基因家族(gene superfamily):

這些家族並無sequence homology,也無conserved amino acid motif,不過它們之間有廣義上的功能及結構相似性。例如Immunoglobin superfamily:包括Immunoglobin geneT-cell receptor genesHLA genes…它們的產品均執行免疫功能且結構上均有類似Ig的區域。其他還有globin superfamilyG-protein-coupled receptor superfamily

基因家族中的成員可以叢集在一起,也可以分散各處,或者兩者兼具,例如α-globin基因即呈單一叢集(a single cluster),Hox基因家族、histone基因家族、olfactory receptor gene family則呈多處叢集(multiple cluster),而PAXNF1基因家族則屬interspersed gene family

 

假基因(pseudogene)

在基因體尚有為數不少的假基因,尤其是在多種基因組成的基因家族(multigene families)。假基因可分為四類:

1. 基因叢集中未經處理的假基因(Nonprocessed pseudogene in a gene cluster):
這些假基因源於基因之串聯複製(tandem duplication),但其未具stop codon以致功能不全,例如α-globin gene clusterβ-globin gene cluster均有此類假基因。

2. 基因叢集中之殘缺基因或基因片段(Truncated gene or internal gene fragment in a gene cluster):
這類假基因之5’3’殘缺,甚至只剩原來基因的片段,例如6p21.3上面的class I HLA heavy chain gene中即有這類假基因。

3. 分散的多胜肽基因家族衍生的經過處理的假基因(Processed pseudogene in a dispersed polypeptide encoding gene family):
具有oligo dA/dT 序列的功能基因之exon,經過反轉錄移位(retrotransposition)至其他位置而成的假基因。

4.  RNA基因家族衍生的經過處理的假基因(Processed pseudogene in a RNA-coding gene families):
這類假基因是源自反轉錄單元(retroelement),經反轉錄移位(retrotransposition)至其他位置而成。

 

反覆性(repetitive) DNA

人類基因體上除了前述的RNA genespolypeptide genes以及pseudogenes之外,剩下的就是佔人類基因體達55%的反覆性DNArepetitive DNA)。這些反覆性DNA可大別為以下各類:

串聯反覆DNA(tandem repetitive DNA)
.衛星(SatelliteDNA

 1. SatelliteⅠ、Ⅱ、Ⅲ

 2. Alphoid DNAα-satellite

 3. β-satellite

. Minisatellite

 1. Hypervariable DNA

 2. Telomeric DNA

. Microsatellite DNA

 

散落性反覆DNA(Interspersed repetitive DNA)

. DNA跳躍子(DNA transposon

. 反轉錄單元(retroelement

1. 自主性反轉錄單元(autonomous retroelement):如LTP(long terminal   repeat)

  2. 非自主性反轉錄單元(non-autonomous retroelement

a. SINEshort interspersed nuclear elements):如Alu

b. LINElong interspersed nuclear elements):如L1L2L3

 

關於repetitive DNA的細節,請閱閒話基因體科學(2)基因舞者一文。

人類基因體計畫(Human genome project)始於1990年,本來計畫15年完成人類基因體的定序,但在2001年提前完成。這項計畫本身共耗費3億美元,不過連相關的研發經費一起計算,總計花費高達30億美元。這項龐大的工作由世界上15個機構合作完成,主要為美國的Whitehead Institute, Department of Energy Joint Genome InstituteUniversity of Washington Genome Sequencing CenterSt. Louis),University of Washington Genome CenterSeattle),Baylor Collage of Medicine,英國的The Sanger Center,日本的Keio University School of MedicineRIKEN Genome Sciences Center,德國的Max Planck Institute for Molecular Genetics,法國的Genoscope and CNRS UMR-8030…等。出資單位則以美國的NIHDOE(能源部),英國的Wellcome Trust以及UK Medical Research Council為大宗。

臺灣的陽明大學在染色體4p有千萬鹼基的定序,雖然規模微小,但也累積一些經驗以供後續較小基因體的定序工作,較諸臺灣大學的「全然放棄」,也算勇氣可嘉。

 

 The genome cost US$3 billion and gave us three billion letters: one dollar a letter, quite a deal!

Genome. Bought the book, hard to read.

Eric Lander,

geneticist

 

人類基因體的30億鹼基包括粒線體基因體(Mitochondrial genome)及細胞核基因體(nuclear genome),其中41%G+C59%A+T。基因體中獨特(uniqueDNA45%8%heterochromatin30%為基因,其中1.5%Protein coding DNA。反覆(repetitiveDNA55%21%LINE13%SINE8%Retrovirus-like elementsLTR)。3%DNA transposon fossils3%single sequence repeats5%segmented duplication。這就是人類基因體的大觀。

        誠如Lander所說“Genome. Bought the book, hard to read.”基因體序列是一本30億個字母的「有字天書」,一切的一切才要開始。

莎士比亞有言:

What’s past was prologue.

過去的一切只是開始

Shakespeare, Tempest

 

正是今日基因體研究者最好的定位。

 

 

取材文獻

1.      International Human Genome Sequencing ConsortiumInitial sequencing and analysis of the human genome. Nature  409:860, 2001