Nature子刊：新技術(shù)攻克單分子測(cè)序大問(wèn)題

日期：2012-07-03 08:23:14

來(lái)自冷泉港實(shí)驗(yàn)室（CSHL）的一位定量生物學(xué)家及同事們開(kāi)發(fā)出了一種混合錯(cuò)誤校正新方法攻克了單分子測(cè)序的重大問(wèn)題，可將長(zhǎng)讀（long reads）的準(zhǔn)確度提高到99.9%。這一研究成果發(fā)布在7月1日的《自然生物技術(shù)》（Nature Biotechnology）雜志上。

領(lǐng)導(dǎo)這一研究的是冷泉港實(shí)驗(yàn)室助理教授Michael Schatz以及馬里蘭大學(xué)國(guó)家生物防衛(wèi)分析和反制中心的Adam Phillippy 和 Sergey Koren。

在這篇文章中，研究小組開(kāi)發(fā)了一個(gè)軟件包可校正單分子測(cè)序新技術(shù)中的一個(gè)嚴(yán)重的問(wèn)題：它生成的每五個(gè)或六個(gè)DNA“堿基”就有一個(gè)錯(cuò)誤。高錯(cuò)誤率是這一新技術(shù)主要優(yōu)點(diǎn)的另一面：它生成了更長(zhǎng)的基因組reads，相比于當(dāng)前使用的其他技術(shù)要長(zhǎng)100倍，因此可以提供相比當(dāng)前第二代技術(shù)獲得的更為完整的基因組結(jié)構(gòu)圖譜。

利用數(shù)學(xué)算法，Schatz及研究團(tuán)隊(duì)保留了第三代技術(shù)的巨大優(yōu)勢(shì)，消除了它的主要缺點(diǎn)。他們將錯(cuò)誤率從大約15%或以上減少到不到千分之一。這一數(shù)學(xué)計(jì)算以開(kāi)放源代碼發(fā)布到萬(wàn)維網(wǎng)上，大大提高了第三代測(cè)序在整個(gè)生物醫(yī)學(xué)研究界的實(shí)用價(jià)值。

研究小組通過(guò)將他們的算法應(yīng)用到從在難度規(guī)模一端的微小噬菌體病毒到另一端的巨大的更為復(fù)雜的鸚鵡基因組的測(cè)序任務(wù)中，證實(shí)了單分子測(cè)序潛在應(yīng)用的寬度。鸚鵡基因組的大小超過(guò)人類基因組的三分之一。“鸚鵡基因組遠(yuǎn)遠(yuǎn)優(yōu)于從前測(cè)序的所有鳥(niǎo)類基因組，”Schatz說(shuō)。

了解它更好的原因是為了正確評(píng)估第三代測(cè)序的優(yōu)勢(shì)。主要的優(yōu)勢(shì)與每個(gè)read（例如測(cè)序儀生成的基因組片段read）的平均長(zhǎng)度有關(guān)。個(gè)體序列被組裝成contigs（重疊群），以拼圖的方式組裝片段。在當(dāng)前使用的第二代技術(shù)中，contigs非常小，且有大量冗余。每個(gè)片段的“共有序列”（ consensus），代表了許多分層reads的結(jié)果，往往非常準(zhǔn)確。而小拼圖片段（puzzle pieces）則阻礙了某些基因部分，如包含長(zhǎng)重復(fù)序列部分的準(zhǔn)確裝配。

兼?zhèn)鋬纱膬?yōu)勢(shì)

用單分子測(cè)序，組裝的contigs更長(zhǎng)，提供了對(duì)相對(duì)較大基因組片段，包括那些包含冗長(zhǎng)重復(fù)的片段的更好的圖譜。這是Schatz和研究團(tuán)隊(duì)希望保留的，同時(shí)他們提高了無(wú)錯(cuò)誤率。通過(guò)有效地利用了第二代和第三代技術(shù)的最佳方面做到了這一點(diǎn)。

“我們稱我們的做法為‘混合錯(cuò)誤校正’（hybrid error correction），”Schatz解釋說(shuō)。

研究小組的主要觀點(diǎn)是利用他們實(shí)驗(yàn)中所利用的第三代測(cè)序儀Pacific Biosciences RS sequencer提供的長(zhǎng)讀數(shù)據(jù)，混合到另一臺(tái)第二代測(cè)序儀獲得的高度精確短讀中。通過(guò)一種稱為Celera Assembler的開(kāi)放源基因組組裝程序運(yùn)行兩種數(shù)據(jù)類型生成的最終的序列裝配證實(shí)為99.9%的無(wú)錯(cuò)率，其中contigs的中位數(shù)大小是第二代“短讀”測(cè)序儀的兩倍。在隨后重復(fù)的混合方法中Contig大小被預(yù)計(jì)隨單分子長(zhǎng)讀測(cè)序改善略微增多。

高質(zhì)量的基因組組裝對(duì)于基因組注釋和比較基因組分析尤為重要。許多微生物基因組分析取決于完成的基因組，但利用舊技術(shù)它們的成本高昂。高質(zhì)量分析更高等生物的基因組依賴連續(xù)序列捕獲拼讀基因的長(zhǎng)DNA片段。近年來(lái)發(fā)現(xiàn)基因組中自發(fā)性發(fā)生的結(jié)構(gòu)改變，即拷貝數(shù)變異表明了能夠獲得疾病受累個(gè)體干凈準(zhǔn)確的全基因組圖譜的重要性。

利用混合錯(cuò)誤校正，Schatz和他的同事們證實(shí)與長(zhǎng)度相關(guān)的高錯(cuò)誤率不會(huì)是基因組組裝的障礙。高錯(cuò)誤的長(zhǎng)讀可有效組裝與互補(bǔ)的短讀結(jié)合生成從前不可能獲得的組裝。