快速獲得完美裝配細(xì)菌基因組
日期:2012-08-02 08:24:25
精確的基因組參照序列對(duì)微生物研究者來(lái)說具有很高的價(jià)值。因此,研究人員進(jìn)行了經(jīng)年累月的繁復(fù)實(shí)驗(yàn)和復(fù)雜的計(jì)算,迄今已完成了約1800種細(xì)菌的基因組裝配。日前,美國(guó)哈佛-麻省理工博德研究所的研究人員應(yīng)用新方法,結(jié)合了shotgun鳥槍法全基因組測(cè)序、單分子測(cè)序和自動(dòng)化計(jì)算軟件,對(duì)16個(gè)細(xì)菌樣本進(jìn)行了高質(zhì)量的基因組裝配,得到了品質(zhì)卓越的完成基因組。這一方法極大的減少了完成基因組裝配所花費(fèi)的時(shí)間和經(jīng)費(fèi)。該文章發(fā)表在Genome Research雜志上。
盡可能精確的了解基因組信息對(duì)于微生物學(xué)研究有著基礎(chǔ)性的意義。使用大規(guī)模平行測(cè)序的短讀序數(shù)據(jù)進(jìn)行de novo從頭裝配,這在過去曾被認(rèn)為是不可能完成的任務(wù),而現(xiàn)在終于可以借助新興技術(shù)得以實(shí)現(xiàn)。自動(dòng)化標(biāo)準(zhǔn)測(cè)序方法所生成的基因組裝配具有優(yōu)良的品質(zhì),在某些情況下輔以少量的人工實(shí)驗(yàn),就能夠得到近乎完成的基因組。然而不論是在Sanger測(cè)序的年代還是在目前的短讀序時(shí)代,大多數(shù)基因組裝配都存在諸多錯(cuò)誤和缺口。重要的是,基因組裝配最困難(快速進(jìn)化)的區(qū)域常常缺失或者產(chǎn)生錯(cuò)誤。幸運(yùn)的是,細(xì)菌的基因組很?。ㄒ话?/SPAN>2-6Mb),因此在許多情況下都能夠通過額外的工作進(jìn)行校正。目前,通過測(cè)序結(jié)合人工實(shí)驗(yàn)和計(jì)算程序,有1800種細(xì)菌的基因組裝配已經(jīng)完成。不過此前的方法即繁復(fù)耗時(shí)又很昂貴,對(duì)快速經(jīng)濟(jì)的新基因組裝配方法的需求依然很大。
為此,博德研究所開發(fā)了應(yīng)用特殊算法的ALLPATHS-LG軟件,對(duì)shotgun全基因組測(cè)序數(shù)據(jù)進(jìn)行裝配。該方法結(jié)合了Illumina和Pacific Biosciences測(cè)序儀各自的技術(shù)優(yōu)勢(shì),將其生成的三種數(shù)據(jù)類型進(jìn)行了混合。這些數(shù)據(jù)具有互補(bǔ)性,在理論上具有精確裝配整個(gè)基因組的能力。并且這一方法和數(shù)據(jù)處理基本都是自動(dòng)化的,最大程度的減少了時(shí)間和經(jīng)費(fèi)的消耗。
該方法采用的數(shù)據(jù)是Illumina生成的短讀序片段、Pacific Biosciences生成的長(zhǎng)讀序和Illumina生成的jumping pairs數(shù)據(jù)。這些數(shù)據(jù)可以互相取長(zhǎng)補(bǔ)短,Illumina技術(shù)在測(cè)序時(shí)由于樣品制備環(huán)節(jié)的擴(kuò)增偏好會(huì)導(dǎo)致某些區(qū)域的覆蓋度不足或缺失,而Pacific Biosciences的單分子測(cè)序技術(shù)不需要進(jìn)行擴(kuò)增,可以很好的覆蓋上述區(qū)域。同時(shí)堿基讀取精確度高的Illumina數(shù)據(jù)也彌補(bǔ)了Pacific Biosciences數(shù)據(jù)的不足。研究中用于生成jumping pairs的片段大小范圍很廣,能夠覆蓋相當(dāng)長(zhǎng)的距離(5 kb以上),這樣做犧牲了一定的精確度。不過,Pacific Biosciences單分子測(cè)序的讀取對(duì)于中等距離很有效,彌補(bǔ)了這一缺陷。
研究人員充分利用了三種數(shù)據(jù)的優(yōu)勢(shì),結(jié)合精確度、偏好性和分辨率開發(fā)了新的裝配算法。他們首先將短讀序進(jìn)行校正,應(yīng)用精確度高的短讀序進(jìn)行裝配,隨后再用長(zhǎng)讀序和jumping pairs填補(bǔ)其中的缺口。這一過程的算法被整合入ALLPATHS-LG軟件,輸入長(zhǎng)讀序數(shù)據(jù)后該模塊會(huì)自動(dòng)啟動(dòng)。
這種方法產(chǎn)生的裝配能夠兼容位點(diǎn)模糊性local ambiguities,允許裝配的位點(diǎn)中存在兩種或兩種以上的可能。這種模糊性可能是測(cè)序的系統(tǒng)性誤差產(chǎn)生的,也有可能是由裝配難以區(qū)分的重復(fù)拷貝引起的,或者是因?yàn)?/SPAN>DNA樣本中確實(shí)存在混合性位點(diǎn)。原核生物在培養(yǎng)過程中的突變,以及真核細(xì)胞基因組中的等位基因多態(tài)性都可能造成這一現(xiàn)象。
研究人員應(yīng)用這一新方法,對(duì)16種細(xì)菌樣本進(jìn)行了基因組裝配,其中有三種細(xì)菌的基因組是已完成的,可作為研究的參照序列。作為參考序列的三種細(xì)菌分別是大腸桿菌E. coli、肺炎鏈球菌S. pneumoniae和類球紅細(xì)菌R. sphaeroides。這些菌種基因組的GC含量范圍很廣,從27%到69%,可以反映不同GC含量下裝配策略的有效性。
研究人員發(fā)現(xiàn)裝配的結(jié)果與參照序列存在差異,要正確評(píng)價(jià)裝配的質(zhì)量就必須解讀這些差異。在早前發(fā)表的文章中,研究人員曾對(duì)E. coli參照序列進(jìn)行了6處校正,對(duì)R.sphaeroides參照序列進(jìn)行了374處校正。在本研究中,研究人員通過PCR、Sanger測(cè)序等方法進(jìn)行驗(yàn)證,進(jìn)一步校正了參照序列,其中E. coli校正1處,R. sphaeroides校正32處。研究人員還獲取了生成S. pneumoniae參照序列的原始讀序數(shù)據(jù),使他們得以對(duì)參照序列的原始測(cè)序數(shù)據(jù)和新讀序數(shù)據(jù)進(jìn)行綜合性的差異分析,當(dāng)然這種差異也可能是由兩個(gè)樣品真實(shí)序列的不同所引起的。因?yàn)闊o(wú)法得到生成參考序列的原始DNA樣本,研究人員還不能完全解釋這種差異,不過他們?cè)u(píng)估了參考序列的錯(cuò)誤率。S. pneumoniae參考序列和新數(shù)據(jù)中存在63處差異,研究人員經(jīng)過驗(yàn)證發(fā)現(xiàn),其中60處都是新方法的檢出正確。其余的三處,新舊兩種結(jié)果都可以說是正確的,這可能是樣品自身帶來(lái)的差異。
利用新方法, E. coli參考基因組的裝配生成了一個(gè)環(huán)形重疊群contig,基本確定了所有堿基(除一個(gè)堿基以外)。R. sphaeroides基因組裝配成兩個(gè)染色體,五個(gè)質(zhì)粒,形成11個(gè)重疊群。而S. pneumoniae的基因組裝配也形成了一個(gè)環(huán)形重疊群,其中存在6個(gè)模糊微點(diǎn),沒有錯(cuò)誤。這樣的裝配結(jié)果非常完美,首先三種參照樣本的基因組裝配結(jié)果都沒有缺口,其次形成的重疊群都是基本完整的染色體(或質(zhì)粒),此外裝配結(jié)果的總體精確度比參考序列高。
研究人員隨后很自然的想到,所用到的三種數(shù)據(jù)類型是否還可以進(jìn)行精簡(jiǎn)。他們進(jìn)行了相應(yīng)的研究,發(fā)現(xiàn)對(duì)算法進(jìn)行充分改進(jìn)后,可以不用到短讀序數(shù)據(jù),因?yàn)?/SPAN>jumping讀取就能提供高質(zhì)量的覆蓋度。但去除長(zhǎng)片段讀序數(shù)據(jù)則會(huì)對(duì)裝配結(jié)果造成嚴(yán)重的影響,因此長(zhǎng)讀序數(shù)據(jù)不可或缺。
除了生成更長(zhǎng)讀序之外,改進(jìn)實(shí)驗(yàn)技術(shù)也能夠提高基因組裝配的質(zhì)量,例如進(jìn)一步減少擴(kuò)增偏好。這對(duì)于一些GC含量特別高或特別低的病原體尤為重要,例如結(jié)合分支桿菌Mycobacterium tuberculosis (高GC) 和惡性瘧原蟲Plasmodium falciparum (低GC)。通過優(yōu)化DNA提取方案和jumping文庫(kù)建立步驟,也可以提高jumping文庫(kù)銜接長(zhǎng)重復(fù)片段的能力。
研究人員還強(qiáng)調(diào),本文中的方法是為可培養(yǎng)菌株DNA設(shè)計(jì)的,細(xì)菌可以從單個(gè)細(xì)胞繁殖成為一個(gè)菌落,這對(duì)于基因組裝配是一個(gè)挑戰(zhàn)。博德研究所的這種全自動(dòng)化一鍵式新方法,對(duì)所有細(xì)菌樣品都適用默認(rèn)參數(shù),并且能達(dá)到極高的精確度。目前該方法僅用于細(xì)菌基因組,要裝配更大的基因組需要對(duì)算法進(jìn)行相應(yīng)變動(dòng)。
完美的細(xì)菌基因組裝配非常重要,因?yàn)榛蛉笔А⒀b配錯(cuò)誤或者堿基錯(cuò)誤等會(huì)導(dǎo)致人們對(duì)測(cè)序生物得出錯(cuò)誤的生物學(xué)和進(jìn)化史結(jié)論。早期對(duì)細(xì)菌基因組進(jìn)行測(cè)序,需要耗費(fèi)極大的精力和資源才能得到完整的環(huán)形基因組。隨著越來(lái)越快的新測(cè)序技術(shù)的出現(xiàn),人們?yōu)榱俗非笏俣群偷统杀?,往往犧牲了基因組裝配的完美性?,F(xiàn)在人們的確可以很快裝配出基因組草圖,但這離完美的基因組裝配還差的很遠(yuǎn)。博德研究所開發(fā)的新方法基于快速測(cè)序技術(shù)和新的裝配方式,得出的裝配結(jié)果比已完成的參考基因組序列更好,這種方法即低廉又快速,費(fèi)用比從前降低了一個(gè)數(shù)量級(jí)。
博德研究所的研究人員以相對(duì)較低的成本,快速裝配出了近乎完美的細(xì)菌完成基因組。通過這一新方法,任何有測(cè)序數(shù)據(jù)和計(jì)算機(jī)的研究者都能生成高質(zhì)量的基因組裝配,這對(duì)于細(xì)菌基因組研究非常關(guān)鍵。舉例來(lái)說,這一技術(shù)可以應(yīng)用于細(xì)菌傳染病學(xué),為人們提供精確的信息,來(lái)追蹤致病菌的毒力和抗性在細(xì)菌群體中的出現(xiàn)和傳播。研究人員總結(jié)道,基因組裝配的完美化對(duì)許多領(lǐng)域都非常重要,隨著未來(lái)技術(shù)的發(fā)展,長(zhǎng)讀序錯(cuò)誤率的減少會(huì)使基因組裝配更加容易。
編者按:此前2012年7月1日的Nature Biotechnology雜志上曾刊登了冷泉港實(shí)驗(yàn)室(CSHL)研究人員的文章,他們開發(fā)了混合錯(cuò)誤校正方法,先將短讀序定位到Pacific Biosciences的長(zhǎng)讀序上,再進(jìn)行裝配。這種方法不僅極大地提高了準(zhǔn)確性,同樣也能用于裝配高質(zhì)量的完成基因組。(見:基因組裝配新前沿:長(zhǎng)片段完成完整的基因組,新技術(shù)攻克單分子測(cè)序大問題