表觀基因組和轉(zhuǎn)錄組數(shù)據(jù)分析新平臺(tái)
日期:2015-08-11 09:02:26
高通量測(cè)序,可提高我們進(jìn)行全基因組研究的能力,從而徹底改變了生物學(xué)研究。然而,由于缺乏生物信息學(xué)專(zhuān)業(yè)知識(shí),現(xiàn)代技術(shù)仍然超出了許多實(shí)驗(yàn)室的能力范圍。八月七日在國(guó)際著名學(xué)術(shù)雜志《Genome Biology》發(fā)表的一項(xiàng)研究中,來(lái)自美國(guó)辛辛那提大學(xué)醫(yī)學(xué)院的研究人員,提出了一種BioWardrobe平臺(tái),可讓用戶(hù)使用一種方便生物學(xué)家的Web界面,存儲(chǔ)、可視化和分析表觀基因組學(xué)和轉(zhuǎn)錄組學(xué)數(shù)據(jù),而不需要專(zhuān)業(yè)的編程知識(shí)。
以新一代測(cè)序(NGS)為基礎(chǔ),分析基因表達(dá)、染色質(zhì)結(jié)構(gòu)和蛋白質(zhì)–DNA相互作用的方法飛速發(fā)展,為分子生物學(xué)打開(kāi)了新的視野。這些方法包括RNA測(cè)序(RNA-seq)、染色質(zhì)免疫沉淀測(cè)序(ChIP-seq)、DNase I測(cè)序(DNase-Seq)、微球菌核酸酶測(cè)序(MNase-SEQ)、易接近轉(zhuǎn)座酶染色質(zhì)測(cè)序法(ATAC-Seq)等等。
在“濕實(shí)驗(yàn)室(wet lab)”的一面,這些方法在很大程度上已被很好地確定,可以由有經(jīng)驗(yàn)的分子生物學(xué)家執(zhí)行;但是,分析測(cè)序數(shù)據(jù)需要生物信息學(xué)專(zhuān)業(yè)知識(shí),許多分子生物學(xué)家并不具備。重新利用已公布的數(shù)據(jù)集也具有挑戰(zhàn)性:雖然作者通常符合長(zhǎng)期需求,將原始數(shù)據(jù)文件存放到數(shù)據(jù)庫(kù),如Sequence Read Archive (SRA)或Gene Expression Omnibus (GEO),但是,如果沒(méi)有專(zhuān)業(yè)知識(shí),就不可能分析這些數(shù)據(jù)。
即使處理后的數(shù)據(jù)文件(例如,基因表達(dá)值)是可用的,但是,直接在數(shù)據(jù)集之間進(jìn)行比較也是不明智的,因?yàn)椴煌膶?shí)驗(yàn)室使用不同的方法(或不同的軟件版本)。這意味著,甚至連最簡(jiǎn)單的任務(wù),生物學(xué)家都需要生物信息學(xué)家的幫助,例如在一個(gè)基因組瀏覽器上查看自己的數(shù)據(jù),從而讓許多實(shí)驗(yàn)室難以企及這些令人興奮的技術(shù)。即使生物信息學(xué)家參與,但是合作優(yōu)先權(quán)的差異,可能會(huì)導(dǎo)致誤解,不利于研究工作。為了減輕這些問(wèn)題,一個(gè)最佳途徑是,開(kāi)發(fā)容易使用的數(shù)據(jù)分析軟件,使生物學(xué)家即使沒(méi)有生物信息學(xué)家的幫助,也能執(zhí)行最基本的基本任務(wù)。
多個(gè)獨(dú)立的程序和Web服務(wù),可用于NGS數(shù)據(jù)分析。然而,大多數(shù)現(xiàn)有的可用工具都有一個(gè)命令行界面,執(zhí)行一個(gè)特定的任務(wù),并且通常需要它們之間的文件轉(zhuǎn)換。一些流行的軟件包,如HOMER或Tuxedo,被組織在一起,并包括能夠執(zhí)行多個(gè)任務(wù)的組件,從而解決了互操作性問(wèn)題。然而,這種優(yōu)秀的工具仍然需要使用命令行,并具有有限的可視化選項(xiàng)。
商業(yè)程序GeneSpring、Partek和Golden Helix,可以在普通的臺(tái)式電腦上運(yùn)行,并可分析基因表達(dá)或基因變異。然而,用戶(hù)必須手動(dòng)加載數(shù)據(jù)并將其存儲(chǔ)在他們的臺(tái)式電腦中;考慮到NGS數(shù)據(jù)的數(shù)量龐大,這種設(shè)置使得數(shù)據(jù)分析變得復(fù)雜。
此外,這些工具不允許多個(gè)已發(fā)布或本地產(chǎn)生的數(shù)據(jù)集進(jìn)行無(wú)縫整合。Illumina Basespace和Galaxy服務(wù)器,可對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和分析,并有完整的查看工具。然而,它們需要外部機(jī)構(gòu)的數(shù)據(jù)傳輸,只能為用戶(hù)數(shù)據(jù)提供有限的存儲(chǔ)空間。雖然Galaxy提供了不使用命令行界面運(yùn)行工具的機(jī)會(huì),但是用戶(hù)仍然需要管理文件類(lèi)型轉(zhuǎn)換,并且每次都要選擇詳細(xì)的參數(shù),這需要深入了解每種工具和文件格式。沒(méi)有穩(wěn)定的流程,可能會(huì)導(dǎo)致沒(méi)有經(jīng)驗(yàn)的用戶(hù)比較“蘋(píng)果和桔子”??傊?,很少有可用的工具能夠?yàn)樯飳W(xué)家提供一個(gè)友好的界面,并且,沒(méi)有一種工具,能夠?qū)⑦@樣的界面與數(shù)據(jù)存儲(chǔ)、顯示和分析整合起來(lái)。
基于此,該研究小組開(kāi)發(fā)了BioWardrobe,一種方便生物學(xué)家使用的平臺(tái),將NGS數(shù)據(jù)采集、存儲(chǔ)、顯示和分析整合起來(lái),主要旨在用于基因組學(xué)領(lǐng)域的研究。BioWardrobe功能包括:從核心設(shè)施或在線(xiàn)數(shù)據(jù)庫(kù)(例如,GEO)下載原始數(shù)據(jù),讀取顯示在加利福尼亞大學(xué)本地實(shí)體、UCSC基因組瀏覽器上的映射和數(shù)據(jù),質(zhì)量控制和基本、先進(jìn)的數(shù)據(jù)分析。
在基本分析中,自動(dòng)化程序用于處理每個(gè)實(shí)驗(yàn)。程序的選擇是基于生物學(xué)家友好的實(shí)驗(yàn)參數(shù)(例如,RNA / ChIP-seq、雙/單、基因組、抗體)和其他研究機(jī)構(gòu)開(kāi)發(fā)的工具,結(jié)合自行開(kāi)發(fā)的工具(例如,Bowtie、STAR、FASTX和MACS2),通過(guò)提供額外的信息提高原有軟件的輸出,提供有意義的質(zhì)量控制,并在Web界面顯示結(jié)果。
在基本分析過(guò)程中產(chǎn)生的質(zhì)量控制,被選擇來(lái)幫助進(jìn)行實(shí)驗(yàn)程序的故障排除??啥ㄖ频南冗M(jìn)分析可以結(jié)合多個(gè)實(shí)驗(yàn),并包括比較基因表達(dá)(DESeq1 / 2)和基因組占有(MAnorm)的工具,使用圖形用戶(hù)界面分析樣品或樣品組,并產(chǎn)生主成分分析圖、基因列表、平均標(biāo)記密度分布和熱圖。
R編程語(yǔ)言的一個(gè)內(nèi)置接口,可促進(jìn)額外的自定義腳本合并。所有的預(yù)計(jì)算數(shù)據(jù)都存儲(chǔ)在一個(gè)SQL數(shù)據(jù)庫(kù)中,并可以通過(guò)一個(gè)方便的Web界面讓生物學(xué)家訪問(wèn)。另一方面,生物信息學(xué)家可以使用一個(gè)提供的R庫(kù)或使用其他編程語(yǔ)言,訪問(wèn)數(shù)據(jù)。BioWardrobe可以在Linux或MacOSX系統(tǒng)上運(yùn)行。安裝包和說(shuō)明可在GNU GPL v.2下使用。