LMSSitesePortfolioRegisterLogin
閒話基因體科學_3.什麼是「基因」?—後基因體時代如何定義「基因」?
by 陳怡蓁, 2012-08-21 13:23, Views(3347)

什麼是「基因」?

後基因體時代如何定義「基因」?

 

臺大醫學院 謝豐舟教授

 

在這基因體時代,基因這兩個字已不再是學者的專利,不分男女老幼,口中也時常蹦出這兩個字。到底什麼是基因呢?

生物的性狀是經由遺傳單位傳遞給下一代,這個概念在1900年由孟德爾(Gregor Mendel)提出,1909年約翰生(Wilhelm Johanssen)將這個遺傳單位的概念冠上gene的名字,漢文將之翻譯成基因,日本人則將之翻譯成遺傳子,更為直接。

基因這兩個字雖然大家耳熟能詳,但基因的真正性質至今連科學家也爭議不休。最早的觀念中,基因是前述的遺傳單位unit of inheritance)。這是一個比較功能性的概念,它是一個自主單位(autonomous unit),能把性狀遺傳給後代。相對地,有人認為基因是一個有形的物體(physical entity),它是染色體上面一段固定的序列。這兩派看法多年來,各執一詞,不相上下。1920年代及1930年代早期Alfred H SturtevantHermann Muller在果蠅研究上,發現基因在染色體上的位置改變時,儘管基因結構本身不變,其功能卻會變化而造成果蠅性狀的突變。實驗中,他們將一個基因挪近所謂異染色質區(heterochromatin)時,果蠅會產生所謂雜色(variegated)的表現型,也就是一個基因在某些細胞會表現,卻在某些細胞不會表現,而造成雜色,例如複眼中有些部分呈現白色,有些部分則呈現紅色。由於基因的功能似乎會因應其所在位置而改變,以致有人甚至認為基因根本不是一個固定而具體的單位(particulate gene),然而,在實務上卻又不能完全否定基因做為遺傳單位的概念。

在最新版的Thompson & Thompson "Genetics in Medicine"2001),基因的定義是A sequence of chromosome DNA that is required for production of a functional productbe it a polypeptide or a functional RNA molecule。因此當代對基因的定義除了被轉譯的DNA序列本身之外,調控此一轉譯工作的DNA序列也應包含在內。那麼基因的範疇到底何在?

假若基因是一個比較固定而具體的單位particulate gene)則我們應該可以找出界定基因的區隔barrier or insulator)。然而學者費盡心力卻遍尋不著能夠區別個別基因的結構。因此,從學者無法找到能夠區隔個別基因的barrier or insulator來看,基因可能是一個相當具有伸縮性的結構。另外一個觀察是,一個基因的功能取決於它對某些轉錄因子(transcriptional factor)的反應,而非本身在染色體上的位置,這個現象是Frank Grosveld在人類β-globin locus control region首先觀察到。因此基因應該是包含被轉錄的DNA序列以及轉錄因子的結合區。這些轉錄因子的結合區可以延伸幾百個Kilobase。最近的研究顯示人類的DACH基因,其enhancer甚至在遠達1Mb的基因沙漠(gene desert)中。這個基因包含轉錄因子結合區的概念,使基因變成一個功能性而且可以彼此重疊的概念。意即,一段DNA序列,可以因對轉錄因子反應的不同,可以有一種以上的基因功能,而一個基因的轉錄序列,可能是另一個基因的轉錄調控區。

時至今日,基因的定義已經不再是一段具有明顯邊界的固定DNA序列(particulate gene),而是一個具有伸縮性(flexible)的功能性組合,它的範圍是以其(1)空間結構與位置(2)對特定調控因子的反應(3)對最終表現型的效果來決定。

根據以上的論述,基因的基本條件有三:1、必須要有產出(product2、必須要有功能3、包含轉錄區及調控區。根據這三個條件,實務上我們如何去從漫長的DNA序列中找出基因呢?以下是五種常用的標準。

1. Open reading framesORF

ORF是指位於start codonstop codon之間的DNA序列。以ORF尋找基因較適用於原核生物或其他intron稀少的生物。當生物的exon被隱藏在大段的intron時,ORF常常不易被找到。

2. Sequence features

找出ORF之後,利用基因通常GCAT多的特徵,再加以驗證。另外找尋splice siteAGGT)可能也有助於基因的辨識。不過使用這些辨識原則的電腦軟體只能預測50%的exon20%的基因。

3. Sequence conservation

比對不同生物的鹼基序列也是辨識基因的利器,理論上,在不同生物均有的序列(conserved sequence)應該有其功能上的重要性,本身是基因的機會較大。利用不同生物來比對基因序列,必須這些生物間有相當的演化距離(evolutionary distance),例如最近人類六號染色體的基因辨識是利用五種其他生物-大鼠、小鼠、河豚、綠色斑點河豚以及斑馬魚來進行比對。當然隨著所用生物的不同,比對出來的基因數目也會有所差異。

4. Evidence of transcription

藉由尋找基因產物-RNA或蛋白質也有助於基因的辨識,其常用方法有microarray hybridizationserial analysis of gene expressionSAGE),cDNA mappingsequencing of expressed sequence tag。最近利用transposon 來進行大規模的gene tagging,結果從yeast的基因體上找出許多能轉錄蛋白質的新區段,利用帶有標記的cDNA與含有人類染色體序列的microarray雜交,也找出人類染色體上以前未知的許多轉錄區段,但如果迄今尚未找到gene product就無法運用此法來反推基因。 

5. Gene inactivation

藉由減消一個gene product的功能也是辨識基因的一個方法。通常可以用Knock out或用RNAi來執行此一工作。不過很多基因的gene product減消之後往往還是看不到表現型,以致難以確定該基因的功能。這現象的主要原因是生物都有很大的功能重疊性(functional redundancy),此外基因功能檢測的方法也會影響其結果。

除了以五個檢測標準之外,還有以下三種情況必須考慮:

1. 基因的重疊(overlapping

2. 多樣切割(alternative splicing

3. 偽基因(pseudogenes

目前已知有不少基因的轉譯區(包括基因本體及調控區域)是重疊的,一個基因的exon可以在別的基因的intron之間,此一觀念在前面基因的定義以加以闡述。

alternative splicing使基因的辨識工作更形複雜,因為人類基因體中,至少一半的基因有spliced isoform,事實上沒人知道基因到底會產生多少的spliced isoform因此要從mRNA去反推基因,有其潛在的困難。

所謂偽基因的存在也連帶影響基因的定義。偽基因的序列與正常基因相同但卻帶有明顯的frame shiftstop codon,以致缺乏具有功能的gene product當然也看不到對phenotype的影響。偽基因廣見於動物、植物、黴菌以及細菌,通常為數不少,例如人類80ribosomal protein gene就有2000以上相關的偽基因。更令人迷惑的是同一種生物中一個基因在某一品系是真正的基因,在另外的品系卻是偽基因,例如酵母菌的FLO8就是一個例子,雖說偽基因不能轉錄,但近來有發現有些偽基因有轉錄現象。甚至有些偽基因根本沒有frame shiftstop codon,基本無法轉錄的原因可能是缺少我們未知的調控單位。

且讓我們以酵母菌的基因體序列來嘗試計算基因的數目,若以>100 codon的所有ORF來推算則有6274可能基因。後來藉由比對基因資料庫以及有無轉錄的現象,增加一些較小的基因,而283個基因也因全無轉錄及功能表現而被剔除,迄今最新的估算是酵母菌有6128基因。

人類的基因體比酵母菌複雜許多,人類的exon不大(平均140 base pair)因此可能存在的ORF數目龐大,再加上mRNA alternative splicing使問題更加龐雜。因此學者以為最好的基因辨識方法還是回歸基因的原始定義-a sequence coding a functional product ,也就是從功能上去辨認基因(functional polypeptide or functional RNA),再配合不同生物基因體序列的對比,尋找演化上高度保留的區段,才是辨識人類基因最好的方法。

 

 

推薦讀物

1.   Dillon N: Positions please. Nature 425457, 2003.

2.   Nobrega MA et al: Scanning human gene deserts for long-range enhancers.

  Science 302413, 2003.

3.   Snyder M et al: Defining genes in the genomics era Science 300258, 2003.

4.  Thompson & Thompson: Genetics in Medicine, Philadelphia W.B. Saunders , 5th ed, p21, 2001.