資源|基礎(chǔ)研究常用數(shù)據(jù)庫(kù)匯總
日期:2019-09-03 10:32:20
分子生物學(xué)是生物學(xué)的一個(gè)分支,在分子水平上研究生命現(xiàn)象的科學(xué)。通過(guò)研 究生物大分子(核酸、蛋白質(zhì))的結(jié)構(gòu)、功能和生物合成等方面來(lái)闡明各種生命現(xiàn)象的本質(zhì) 。分子生物學(xué)的分子基礎(chǔ)是中心法則,如圖1所示。在21世紀(jì)大數(shù)據(jù)時(shí)代,分子生物學(xué)基礎(chǔ)研 究也飛速發(fā)展,這當(dāng)然離不開(kāi)強(qiáng)大的數(shù)據(jù)庫(kù)。本文中,我們收集了目前認(rèn)可度較高的分子生 物學(xué)研究相關(guān)數(shù)據(jù)庫(kù),涉及基因信息、基因表達(dá)信息、基因功能分析、轉(zhuǎn)錄因子、miRNA分析 和預(yù)測(cè)等幾個(gè)方面。

Figure 1. The brief diagram of genetic central dogma
1. 基因信息
基因,又稱遺傳因子,是產(chǎn)生一條多肽鏈或功能RNA所需的全部核苷酸序列。 基因支持著生命的基本構(gòu)造和性能,儲(chǔ)存著生命的種族、血型、孕育、生長(zhǎng)、凋亡等過(guò)程的 全部信息。常有人將基因與DNA混淆,DNA含有大量不編碼任何蛋白質(zhì)序列,換句話說(shuō),DNA比 基因大?;蚴菐в羞z傳訊息的DNA片段?;蛟谵D(zhuǎn)錄和翻譯中至關(guān)重要,是轉(zhuǎn)錄翻譯的核心 。這里,我們列出了查找基因信息的三大數(shù)據(jù)庫(kù)。
1.1 GeneCards
GeneCards(https://www.genecards.org/)是一個(gè)綜合性的人類基因數(shù)據(jù)庫(kù),全面提供有關(guān)所有注 釋和預(yù)測(cè)的人類基因信息。此外,它自動(dòng)整合約150個(gè)在線基因中心數(shù)據(jù),包括基因組、轉(zhuǎn)錄 子、別名、結(jié)構(gòu)域、藥物、表達(dá)和定位等信息。

1.2 BioGPS
BioGPS(http://biogps.org/)是一個(gè)基于現(xiàn)有的遺傳和基因組資 源,可自由拓展和定制的基因注釋網(wǎng)站。BioGPS可為用戶提供一個(gè)探索感興趣基因間聯(lián)系的 場(chǎng)所。目前,BioGPS主要包含了人類、小鼠和大鼠的基因。

1.3 UCSC Genome Browser
UCSC Genome Browser(http://genome.ucsc.edu/)是一種可在線下載的基 因組瀏覽器,由加州大學(xué)圣克魯茲分校(UCSC)主辦。 它是一個(gè)交互式網(wǎng)站,提供了多種脊 椎動(dòng)物、無(wú)脊椎動(dòng)物和主要模式生物的基因組序列數(shù)據(jù)訪問(wèn)鏈接。瀏覽器是一個(gè)優(yōu)化的圖形 查看器,支持快速交互性能,是一個(gè)基于Web的開(kāi)源工具,建立在MySQL數(shù)據(jù)庫(kù)之上,可以在 多個(gè)級(jí)別快速查詢數(shù)據(jù)的網(wǎng)站。

2. 基因表達(dá)信息
基因表達(dá)是將來(lái)自基因的信息用于功能性基因產(chǎn)物合成的過(guò)程。這些產(chǎn)物 通常是蛋白質(zhì),例如,酶、激素和受體。但在非蛋白質(zhì)編碼基因如tRNA或snRNA基因中,表達(dá) 的產(chǎn)物是功能性RNA。
2.1 Gene Expression Omnibusr
Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/) ,也稱為GEO,是一個(gè)公共功能基因組數(shù)據(jù)庫(kù),支持符合MIAME標(biāo)準(zhǔn)的數(shù)據(jù)提交,也可接受以 數(shù)組和序列為基礎(chǔ)的數(shù)據(jù)。 另外,該數(shù)據(jù)庫(kù)還提供幫助用戶查詢和下載實(shí)驗(yàn)并設(shè)計(jì)基因表達(dá) 譜的工具。

2.2 ArrayExpress
ArrayExpress(https://www.ebi.ac.uk/arrayexpress/)是科學(xué)期刊主推的軟件庫(kù)之 一,旨在歸檔芯片和測(cè)序平臺(tái)的功能基因組學(xué)數(shù)據(jù)來(lái)支持可重復(fù)的研究。為了支持可重復(fù)的 研究,他們根據(jù)芯片實(shí)驗(yàn)的最低信息(MIAME)和測(cè)序?qū)嶒?yàn)的最低信息(MINSEQE)指南來(lái)審 核數(shù)據(jù)提交。

2.3 The Cancer Genome Atlas
癌癥基因組圖譜(https://www.cusabio.com/c- 20839.html),也稱為TCGA,是由美國(guó)癌癥研究所(NCI)和美國(guó)人類基因組研究所 (NHGRI)共同監(jiān)管。目前,該網(wǎng)站已經(jīng)繪制出33種癌癥關(guān)鍵基因組變化的綜合多維圖譜。它 旨在應(yīng)用高通量基因組分析技術(shù),幫助人們更好地了解癌癥,從而改善癌癥的預(yù)防,診斷和 治療。

3. 基因功能分析
基因功能分析是基于基因組研究分析一系列未知基因功能的重要方法。
3.1 DAVID
DAVID(https://david.ncifcrf.gov/)現(xiàn)在可提供一套全面的功能注釋工具, 供研究人員了解大量基因背后的生物學(xué)意義。對(duì)于任何給定的基因列表DAVID工具能夠做到以 下幾點(diǎn):確定生物學(xué)主題,特別是GO術(shù)語(yǔ);發(fā)現(xiàn)功能相關(guān)基因組;群集冗余注釋術(shù)語(yǔ);在 BioCarta和KEGG信號(hào)通路圖上實(shí)現(xiàn)基因可視化;在二維視圖上顯示相關(guān)的多個(gè)基因。

3.2 MetascapeD
Metascape(http://metascape.org/)是一個(gè)免費(fèi)的基因注釋和分析資源庫(kù),可幫 助生物學(xué)家理解一個(gè)或多個(gè)基因列表。Metascape提供自動(dòng)化分析工具,旨在了解一組正交蛋 白來(lái)發(fā)現(xiàn)研究中的常見(jiàn)或獨(dú)特途徑和蛋白質(zhì)網(wǎng)絡(luò)。該資源庫(kù)所有的分析結(jié)果都顯示在Web報(bào)告 中,包括Excel注釋、富集表、PowerPoint幻燈片和自定義分析文件,以便進(jìn)一步進(jìn)行離線分 析或處理。

3.3 XTalkDB
XTalkDB(http://www.xtalkdb.org/home)是研究信號(hào)通路間相互作用的數(shù)據(jù)庫(kù) 。眾所周知,信號(hào)通路及通路間的相關(guān)作用的分析是系統(tǒng)生物學(xué)研究的基石。未開(kāi)發(fā)XTalkDB 之前,幾乎沒(méi)有數(shù)據(jù)庫(kù)明確地匯總特定信號(hào)通路及其互相影響的通路。XTalkDB從1600多種期 刊中提取出了650條信號(hào)通路,并對(duì)他們之間的相互作用進(jìn)行了分析。

4. 轉(zhuǎn)錄因子
轉(zhuǎn)錄因子,也稱為序列特異性DNA結(jié)合因子,是一群能與基因5`端上游特 定序列專一性結(jié)合,從而保證目的基因以特定的強(qiáng)度在特定的時(shí)間與空間表達(dá)的蛋白質(zhì)分子 。真核生物在轉(zhuǎn)錄時(shí)往往需要多種蛋白質(zhì)因子的協(xié)助。一種蛋白質(zhì)是不是轉(zhuǎn)錄機(jī)構(gòu)的一部分 往往是通過(guò)體外系統(tǒng)看它是否是轉(zhuǎn)錄起始所必須的。
4.1 iRegulon
iRegulon(http://iregulon.aertslab.org/)包含轉(zhuǎn)錄因子(TF)及其直接轉(zhuǎn)錄 DNA序列組成,在轉(zhuǎn)錄序列的順式作用元件處包含與TF結(jié)合位點(diǎn)。另外,iRegulon插件可以讓 您用一組共同調(diào)節(jié)基因中的基序來(lái)識(shí)別調(diào)節(jié)子。

4.2 TFcheckpoint
TFcheckpoint(http://www.tfcheckpoint.org/)是人類、小鼠和大鼠轉(zhuǎn)錄因子數(shù)據(jù)庫(kù) 。手動(dòng)檢索TFcheckpoint中的轉(zhuǎn)錄因子可以獲得其在RNA聚合酶II調(diào)節(jié)和特異性DNA結(jié)合活性 實(shí)驗(yàn)中的數(shù)據(jù)。

5. miRNA 分析和預(yù)測(cè)
miRNA(又稱為microRNA)是在動(dòng)植物和一些病毒中發(fā)現(xiàn)的長(zhǎng)度18~25個(gè) 核苷酸的小單鏈RNA,由DNA轉(zhuǎn)錄產(chǎn)生,不翻譯成蛋白質(zhì),通過(guò)堿基互補(bǔ)配對(duì)的方式與靶基因 的3’UTR區(qū)部分或完全互補(bǔ),剪切靶基因的轉(zhuǎn)錄產(chǎn)物或者抑制轉(zhuǎn)錄產(chǎn)物的翻譯,從而起到轉(zhuǎn) 錄后凋控靶基因的表達(dá)的作用,是基礎(chǔ)研究中下調(diào)靶基因表達(dá)的常用方法。
5.1 starBase
starBase(http://starbase.sysu.edu.cn/)是一個(gè)開(kāi)源平臺(tái),用于研究CLIP中的 miRNA-ncRNA、miRNA-mRNA、ncRNA-RNA、RNA-RNA、RBP-ncRNA和RBP-mRNA相互作用。目前, starBase已從多維測(cè)序數(shù)據(jù)中鑒定了超過(guò)110萬(wàn)個(gè)miRNA-ncRNA,250萬(wàn)個(gè)miRNA-mRNA,210萬(wàn) 個(gè)RBP-RNA和150萬(wàn)個(gè)RNA-RNA的相互作用。

5.2 miRTarBase
miRTarBase(http://mirtarbase.mbc.nctu.edu.tw/php/index.php)是經(jīng)過(guò)實(shí)驗(yàn)驗(yàn) 證的microRNA-target相互作用數(shù)據(jù)庫(kù)。目前為止,miRTarBase的miRNA-target相互作用 (MTIs)數(shù)已經(jīng)累計(jì)超過(guò)三十六萬(wàn)。

5.3 miRWalk
miRWalk(http://mirwalk.umm.uni-heidelberg.de/)是一個(gè)綜合性數(shù)據(jù)庫(kù),可 提供已驗(yàn)證和預(yù)測(cè)的miRNA結(jié)合位點(diǎn)信息,涉及種屬包括人類、小鼠和大鼠。另外,miRWalk 還整理了miRNA相關(guān)靶標(biāo)的所有信息。

5.4 miRBase
miRBase(http://www.mirbase.org/)是已發(fā)表的miRNA序列和注釋的數(shù)據(jù)庫(kù)。 miRBase數(shù)據(jù)庫(kù)中的每個(gè)條目代表miRNA轉(zhuǎn)錄物的預(yù)測(cè)發(fā)夾結(jié)構(gòu)(在數(shù)據(jù)庫(kù)中稱為mir),其具 有關(guān)于成熟miRNA序列(稱為miR)的位置和序列的信息。發(fā)夾結(jié)構(gòu)和成熟序列都可用于搜索 和瀏覽,并且還可以通過(guò)名、關(guān)鍵字、引用和注釋來(lái)檢索條目。所有序列和注釋數(shù)據(jù)也可以 下載。

5.5 TargetScan
TargetScan(http://www.targetscan.org/vert_72/)通過(guò)搜索是否存在與每個(gè) miRNA的種子區(qū)域匹配的保守8聚體、7聚體和6聚體位點(diǎn)來(lái)預(yù)測(cè)miRNA的靶點(diǎn)。

5.6 TargetScan
DIANA(http://diana.imis.athena- innovation.gr/DianaTools/index.php)是miRNA研究工具的集錦。這個(gè)數(shù)據(jù)庫(kù)有四個(gè)功 能特色:microT-CDS預(yù)測(cè)microRNA靶基因;LncBase v.2是基于miRNA預(yù)測(cè)lncRNA;miRGen v.3是預(yù)測(cè)miRNA啟動(dòng)子和調(diào)節(jié)因子,如轉(zhuǎn)錄因子;Mirpub是miRNA相關(guān)文章。

6. 其他
除了跟基因相關(guān)的基礎(chǔ)研究數(shù)據(jù)庫(kù),咱們的研發(fā)同志還建議附上兩個(gè)權(quán)威 性比較強(qiáng)的與藥物研發(fā)和疾病研究的數(shù)據(jù)庫(kù),說(shuō)不定咱們一不小心就從基礎(chǔ)走上了臨床,然 后越走越遠(yuǎn)……
6.1 L1000FWD
L1000FWD(http://amp.pharm.mssm.edu/L1000FWD/)是一個(gè)網(wǎng)絡(luò)應(yīng)用程序,擁有 超過(guò)16,000種藥物和小分子誘導(dǎo)的基因表達(dá)特征。另外L1000FWD可以通過(guò)不同的屬性(如細(xì) 胞類型、時(shí)間點(diǎn)、濃度)以及藥物屬性(如MOA和臨床階段)對(duì)特征進(jìn)行著色,進(jìn)一步實(shí)現(xiàn)直 觀化與可視化。

6.2 MalaCards
MalaCards(https://www.malacards.org/)是人類疾病綜合性數(shù)據(jù)庫(kù),參考 GeneCards數(shù)據(jù)庫(kù)的架構(gòu),整合了專業(yè)和一般疾病,包括罕見(jiàn)疾病、遺傳疾病、復(fù)雜疾病等。
