Science最新成果:利用宏基因組序列來確定蛋白質(zhì)結(jié)構(gòu)
日期:2017-02-03 09:16:28
對于蛋白質(zhì)而言,外觀很重要。當(dāng)然,這并不是指顏值,而是三維結(jié)構(gòu)。蛋白質(zhì)是由長的氨基酸鏈組成的,但一維的氨基酸序列似乎沒有意義。只有了解三維結(jié)構(gòu),研究人員才能弄清蛋白質(zhì)的結(jié)構(gòu)如何決定它的功能。
在蛋白質(zhì)家族數(shù)據(jù)庫Pfam中有接近15,000個蛋白質(zhì)家族。對于近三分之一(4,752)的家族,每個家族中至少有一種已通過實驗確定其結(jié)構(gòu)的蛋白質(zhì)。對于另三分之一(4,886)的家族,可根據(jù)一定程度的置信度建立比較模型。然而,對于另外5,211個蛋白家族,目前沒有任何結(jié)構(gòu)信息。
近日,美國華盛頓大學(xué)David Baker領(lǐng)導(dǎo)的團(tuán)隊與美國能源部聯(lián)合基因組研究所(JGI)合作,在《Science》雜志上報道了614個蛋白家族的結(jié)構(gòu)模型,而它們之前沒有結(jié)構(gòu)信息。在這項研究中,Baker實驗室的蛋白質(zhì)結(jié)構(gòu)預(yù)測服務(wù)器Rosetta分析了JGI集成微生物基因組(IMG)系統(tǒng)上的宏基因組序列。
文章的第一作者Sergey Ovchinnikov表示:“大量的蛋白質(zhì)家族有著很少的序列。這導(dǎo)致沒有人關(guān)心這些家族,且不能應(yīng)用協(xié)同進(jìn)化的方法來研究它們。有了宏基因組學(xué),我們發(fā)現(xiàn)一些被忽略的家族也有著豐富內(nèi)容。另外,我們提供這些家族代表性序列的3D模型。我們希望這能激發(fā)大家的一些興趣。”
有了基因組序列,Baker等研究人員能夠鑒定出同時進(jìn)化的氨基酸,即時它們在未折疊的鏈上彼此不相鄰。這些事件表明,這些氨基酸在折疊蛋白質(zhì)中是鄰居,為研究人員研究蛋白結(jié)構(gòu)提供了線索。結(jié)構(gòu)上的接近可以提示功能關(guān)系,以及自然選擇在功能上的作用。
JGI的Nikos Kyrpides表示,Baker實驗室與JGI之間的合作讓團(tuán)隊提出了一個強(qiáng)大的方法來預(yù)測結(jié)構(gòu)和結(jié)構(gòu)比對。“正如預(yù)期的那樣,當(dāng)我們增加了宏基因組學(xué)數(shù)據(jù),利用我們數(shù)據(jù)庫中50億個組裝好的宏基因組序列,我們能夠明顯增加許多已知蛋白家族的覆蓋。”
研究人員確定了建模所需的序列數(shù)量,開發(fā)出模型質(zhì)量的標(biāo)準(zhǔn),并且在可能的情況下,將預(yù)測的接觸與已知結(jié)構(gòu)進(jìn)行匹配來改進(jìn)建模。這種方法預(yù)測出614個蛋白質(zhì)家族的優(yōu)質(zhì)結(jié)構(gòu)模型,其中約140個帶有PDB中未出現(xiàn)的折疊。這種方法提供了大蛋白家族的代表性模型,向著蛋白質(zhì)結(jié)構(gòu)計劃的目標(biāo)邁進(jìn)了一大步。