Nature:十年探索,編寫人類的百科全書
日期:2012-09-07 08:02:19
Ewan Birney想將他與他的合作者們在過去五年來作為ENCODE(ENCODE(DNA元件百科全書,Encyclopedia of DNA Elements)的項目部分所收集基因組數(shù)據(jù)構(gòu)建出一份打印件。然而找到一個地方放置它將是一個挑戰(zhàn),即便每個平方厘米能夠容納1000個堿基對,這份打印件也將延展達到16米高,至少30公里長。
ENCODE是在人類基因組計劃停止的地方有意地展開的接力。盡管人類付出了巨大的努力揭示了人類生物學的藍圖,人們很快就清楚地認識到對于讀取這一藍圖的指令手冊至多還是粗略的。研究人員在30個堿基中發(fā)現(xiàn)了許多的蛋白質(zhì)編碼區(qū)域,但這些僅構(gòu)成了不到1%的基因組,包含在大約2萬個基因中——在一張光禿禿的無法辨識的圖譜中僅有少數(shù)熟悉的物體。許多的生物學家質(zhì)疑導致人類令人驚嘆的復雜性的信息存在于基因間的“沙漠”中。ENCODE,自2003年啟動以來,這一龐大的數(shù)據(jù)收集工作旨在填充這一領(lǐng)域。其目的是將潛伏在那里的“功能性”DNA序列編撰目錄,了解何時及在何種細胞中它們處于活性狀態(tài),并追蹤它們對于基因組包裝、調(diào)控和讀取的影響。
經(jīng)過最初的試驗性階段后,2007年ENCODE的科學家們開始將他們的方法應用到整個基因組?,F(xiàn)在這一階段以發(fā)表在Nature、 Genome Research和Genome Biology等雜志上的30篇論文作為標志宣告結(jié)束。該聯(lián)盟將某一類的功能賦予了大約80%的基因組,包括超過7萬個“啟動子區(qū)域(基因上游,蛋白質(zhì)結(jié)合控制基因表達的位點)以及近40個”增強子“區(qū)域(調(diào)控遠端基因表達)。然而英國歐洲分子生物學實驗室歐洲生物信息學研究所計算機生物學家Birney表示工作還遠遠沒有結(jié)束,其負責協(xié)調(diào)ENCODE的數(shù)據(jù)分析。Birney說一些繪圖工作大約完成了一半,更深入地確定基因組所做的每件事物的特征有可能還只完成了10%。第三階段現(xiàn)在正在進行,將填補人類的指令手冊,提供更多的細節(jié)。
許多接觸到這一龐大數(shù)據(jù)流的人對于其遠景感到非常興奮。ENCODE已經(jīng)闡明了基因組的一些黑暗角落,創(chuàng)造了了解遺傳變異如何影響人類性狀和疾病的機會。探索借助這一計劃揭示的無數(shù)的調(diào)控元件,將他們的序列與來自其他哺乳動物的進行比較有希望重新改編科學家們對于人類進化的理解。
然而一些研究人員想知道到哪一點才算是夠了。“我看不見失控的列車很快地停下來,”英國牛津大學計算機生物學家Chris Ponting說。盡管Ponting對這一計劃的目標持支持態(tài)度,但他卻質(zhì)疑ENCODE的某些方面是否將為預計超過1.85億美元的投資提供回報。然而,麻省大學醫(yī)學院ENCODE團隊的負責人Job Dekker卻表示實現(xiàn)ENCODE的潛能將需要一些耐心?!坝袝r候需要一段很長的時間才能知道你能從所有給定的數(shù)據(jù)集中學習到多少,”他說。
即便在人類基因組序列完成前,國家人類基因組研究所(NHGRI), 美國基因組科學的主要資金管理機構(gòu),就已經(jīng)主張用一種系統(tǒng)性的方法來鑒別DNA中的功能性片段。在2003年,它邀請科學家們提出了只在1%的基因組上獲得這樣的信息的試點項目,幫助確定哪些實驗技術(shù)有可能對整個事情起最好的作用。
上一篇: 2篇Nature文章解析肺癌致病基因
下一篇: 人類的后基因組時代