BioTechniques:大數(shù)據(jù)的可視化工具
日期:2016-09-20 09:06:09
如今,面對(duì)海量的生物數(shù)據(jù)集,人們往往感到束手無(wú)策。然而,這些TB級(jí)的數(shù)據(jù)有望帶來(lái)新的假說(shuō)、新的藥物靶點(diǎn),以及對(duì)生物系統(tǒng)的更徹底了解。數(shù)據(jù)可視化在其中扮演著至關(guān)重要的作用。在這一期的《BioTechniques》雜志上,Sarah Webb博士探討了數(shù)據(jù)可視化的挑戰(zhàn)和能力。
大數(shù)據(jù)是一個(gè)美好的概念。不過(guò)隨著生物數(shù)據(jù)集的增長(zhǎng)和變化,可視化研究人員正面臨持續(xù)的挑戰(zhàn)。哈佛醫(yī)學(xué)院的Nils Gehlenborg表示,問(wèn)題在于數(shù)據(jù)的規(guī)模和異質(zhì)性。人類基因組包含數(shù)十億個(gè)堿基,研究人員希望從染色體、基因甚至堿基對(duì)水平來(lái)查看。此外,還有其他類型的關(guān)聯(lián)數(shù)據(jù),比如癌癥患者的性別、年齡、腫瘤類型等。
瀏覽基因組
在線的基因組瀏覽器可以幫助研究人員探索數(shù)據(jù)、尋找模型,并建立假說(shuō)。目前有許多這樣的工具,每個(gè)在功能上稍有不同。加州大學(xué)圣克魯茲分校分校(UCSC)的Genome Browser自2000年上線,是探索人類基因組、各種脊椎動(dòng)物的基因組以及其他模式生物基因組的工具。
在Genome Browser中,染色體上的單個(gè)基因顯示為分散的刻度線。當(dāng)用戶放大基因,他們可看到不同的異構(gòu)體,了解它是如何剪接的。較深的顏色表示這些異構(gòu)體獲得更多實(shí)驗(yàn)證據(jù)的支持,框代表外顯子,而箭頭表示轉(zhuǎn)錄方向。再進(jìn)一步放大,深色和淺色的條紋顯示特定密碼子的位置。
此外,基于UCSC的Genome Browser,人們也開發(fā)出更多的工具。比如,Ting Wang在UCSC攻讀博士后時(shí)領(lǐng)導(dǎo)了一個(gè)拆分項(xiàng)目,最終開發(fā)出UCSC Cancer Genomics Browser (http://genome-cancer.ucsc.edu/proj/site/hgHeatmap/)。之后他來(lái)到華盛頓大學(xué),開始構(gòu)建表觀基因組瀏覽器VizHub(http://epigenomegateway.wustl.edu)。它目前擁有大約25,000個(gè)表觀遺傳學(xué)數(shù)據(jù)集。
探索蛋白質(zhì)組
據(jù)比利時(shí)根特大學(xué)的Lennart Martens介紹,蛋白質(zhì)組學(xué)也面臨可視化的挑戰(zhàn)。與基因組學(xué)數(shù)據(jù)庫(kù)類似,質(zhì)譜數(shù)據(jù)庫(kù)是一個(gè)潛在的寶庫(kù),有望發(fā)現(xiàn)新的相互作用,并產(chǎn)生新的假說(shuō)。他估計(jì),歐洲生物信息學(xué)研究所的PRIDE數(shù)據(jù)庫(kù)(www.ebi.ac.uk/pride/archive/)大約包含10億個(gè)質(zhì)譜數(shù)據(jù),其中70%是未確定的。
Martens是一名生物信息學(xué)家,他的工作主要集中在蛋白質(zhì)組學(xué),最近也在代謝組學(xué)。他試圖找到更好的方法,來(lái)表示新生成的質(zhì)譜數(shù)據(jù),以及那些公開的數(shù)據(jù)。他承認(rèn),以直觀的方式濃縮分子碎片的各種組合是比較困難的。“我們也不總是成功,”他說(shuō),“你不能無(wú)限濃縮這一信息。”
可視化工具的開發(fā)可能需要很長(zhǎng)的時(shí)間。研究人員必須了解用戶及其需求,還需要了解數(shù)據(jù)集以及數(shù)據(jù)的潛在關(guān)系。有時(shí),相互理解就需要許多回合的討論。對(duì)于計(jì)算機(jī)背景的研究人員來(lái)說(shuō),生物學(xué)可能太過(guò)混亂。
此外,盡管數(shù)據(jù)可視化相當(dāng)重要,但大多數(shù)研究人員沒有接受過(guò)這一方面的培訓(xùn)。他們可能無(wú)法理解某些類型的圖像,如氣泡圖和雷達(dá)圖。Martens認(rèn)為,這個(gè)問(wèn)題只能通過(guò)培訓(xùn)來(lái)解決。在這篇文章中,加拿大基因組科學(xué)中心的Martin Krzywinski就數(shù)據(jù)可視化提出了幾點(diǎn)建議,可幫助大家美化論文。