Science公布數(shù)據(jù)處理新工具:MINE
日期:2011-12-19 08:55:58
來自哈佛大學,Broad研究院的研究人員發(fā)表了題為“Detecting novel associations in large data sets Science”的文章,介紹了一種強大的在龐大數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關系的統(tǒng)計方法,這種方法能快速通過給不同類型關聯(lián)進行評估,從而發(fā)現(xiàn)廣泛范圍的關系類型,這將有助于生物學,及其它學科的研究,相關成果公布在Science雜志上。
文章的第一作者是哈佛大學,麻省理工健康科學與技術組的David N. Reshef,以及Yakir A. Reshef,前者表示,“標準的方法只能通過一種模式觀察一種信號,而把其它作為了背景”,“但是關系數(shù)據(jù)集中存在許多不同類型的關聯(lián),我們的這種方法令人激動之處在于它能尋找任何類型數(shù)據(jù)清楚結構,并嘗試發(fā)現(xiàn)它們?!?SPAN lang=EN-US>
現(xiàn)代社會充斥著各種各樣的信息,生命科學領域尤其是在測序技術飛速發(fā)展以來,獲得了大量的DNA基因組信息,比如國內(nèi)的華大基因,據(jù)稱其167臺DNA組序器每天制造著相當于2000人的基因組,如此多的基因組使測序機構常常很難通過互聯(lián)網(wǎng)或其他通訊線路將這些結果傳送給客戶或是合作伙伴,因為這需要幾周時間,因此出現(xiàn)了通過快遞郵寄包含了這些數(shù)據(jù)的電腦磁盤的現(xiàn)象。
而且如果需要從這些龐大的數(shù)據(jù)集里找到其中的關聯(lián),更加是令人感到頭疼,在這篇文章中,研究人員提出了一種在龐大的數(shù)據(jù)集中發(fā)現(xiàn)潛在重要關系的強有力的統(tǒng)計方法。
利用這種方法——被稱為MINE,研究人員無需事前對其尋找的關系類型有所了解,就檢測由多種因素驅動的復雜模式。MINE基于最大信息系數(shù)(MIC),其依據(jù)的理念是,如果2個變量之間存在著一種關系,那么就應該有一種方法在那些變量的散點圖上畫一個網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點集中在該網(wǎng)格的幾個單元格中。通過搜尋這種“最適合”的網(wǎng)格,計算機可以計算MIC及一族可用來發(fā)現(xiàn)并描繪關系的相關的統(tǒng)計數(shù)據(jù)。
研究人員將MINE方法與其它的方法進行了比較,結果發(fā)現(xiàn)MINE更適合于作快速的數(shù)據(jù)探索。他們利用這一方法,揭示了4例真正的數(shù)據(jù)集中的熟悉的和先前未知的關系:世界衛(wèi)生數(shù)據(jù)、棒球統(tǒng)計數(shù)據(jù)、酵母菌基因表達數(shù)據(jù)及一組人類腸道中細菌豐度的數(shù)據(jù)。
同期Science觀點欄目也對這一研究進行了討論,并回顧了相關系數(shù)的歷史,該歷史以1888年由查爾斯-達爾文的半表親Francis Galton所發(fā)明的相關系數(shù)開始。
近期值得關注的還有,由中國科學家主導的研究完成了50個水稻基因組重測序及遺傳變異數(shù)據(jù)庫構建等,這首次對栽培稻和野生稻基因組進行了大規(guī)模的遺傳變異分析,為科學家深入挖掘水稻重要農(nóng)藝性狀基因及促進水稻分子育種改良等研究提供了寶貴的基因資源。