表觀基因組和轉(zhuǎn)錄組數(shù)據(jù)分析新平臺
日期:2015-08-11 09:02:26
高通量測序,可提高我們進(jìn)行全基因組研究的能力,從而徹底改變了生物學(xué)研究。然而,由于缺乏生物信息學(xué)專業(yè)知識,現(xiàn)代技術(shù)仍然超出了許多實驗室的能力范圍。八月七日在國際著名學(xué)術(shù)雜志《Genome Biology》發(fā)表的一項研究中,來自美國辛辛那提大學(xué)醫(yī)學(xué)院的研究人員,提出了一種BioWardrobe平臺,可讓用戶使用一種方便生物學(xué)家的Web界面,存儲、可視化和分析表觀基因組學(xué)和轉(zhuǎn)錄組學(xué)數(shù)據(jù),而不需要專業(yè)的編程知識。
以新一代測序(NGS)為基礎(chǔ),分析基因表達(dá)、染色質(zhì)結(jié)構(gòu)和蛋白質(zhì)–DNA相互作用的方法飛速發(fā)展,為分子生物學(xué)打開了新的視野。這些方法包括RNA測序(RNA-seq)、染色質(zhì)免疫沉淀測序(ChIP-seq)、DNase I測序(DNase-Seq)、微球菌核酸酶測序(MNase-SEQ)、易接近轉(zhuǎn)座酶染色質(zhì)測序法(ATAC-Seq)等等。
在“濕實驗室(wet lab)”的一面,這些方法在很大程度上已被很好地確定,可以由有經(jīng)驗的分子生物學(xué)家執(zhí)行;但是,分析測序數(shù)據(jù)需要生物信息學(xué)專業(yè)知識,許多分子生物學(xué)家并不具備。重新利用已公布的數(shù)據(jù)集也具有挑戰(zhàn)性:雖然作者通常符合長期需求,將原始數(shù)據(jù)文件存放到數(shù)據(jù)庫,如Sequence Read Archive (SRA)或Gene Expression Omnibus (GEO),但是,如果沒有專業(yè)知識,就不可能分析這些數(shù)據(jù)。
即使處理后的數(shù)據(jù)文件(例如,基因表達(dá)值)是可用的,但是,直接在數(shù)據(jù)集之間進(jìn)行比較也是不明智的,因為不同的實驗室使用不同的方法(或不同的軟件版本)。這意味著,甚至連最簡單的任務(wù),生物學(xué)家都需要生物信息學(xué)家的幫助,例如在一個基因組瀏覽器上查看自己的數(shù)據(jù),從而讓許多實驗室難以企及這些令人興奮的技術(shù)。即使生物信息學(xué)家參與,但是合作優(yōu)先權(quán)的差異,可能會導(dǎo)致誤解,不利于研究工作。為了減輕這些問題,一個最佳途徑是,開發(fā)容易使用的數(shù)據(jù)分析軟件,使生物學(xué)家即使沒有生物信息學(xué)家的幫助,也能執(zhí)行最基本的基本任務(wù)。
多個獨立的程序和Web服務(wù),可用于NGS數(shù)據(jù)分析。然而,大多數(shù)現(xiàn)有的可用工具都有一個命令行界面,執(zhí)行一個特定的任務(wù),并且通常需要它們之間的文件轉(zhuǎn)換。一些流行的軟件包,如HOMER或Tuxedo,被組織在一起,并包括能夠執(zhí)行多個任務(wù)的組件,從而解決了互操作性問題。然而,這種優(yōu)秀的工具仍然需要使用命令行,并具有有限的可視化選項。
商業(yè)程序GeneSpring、Partek和Golden Helix,可以在普通的臺式電腦上運行,并可分析基因表達(dá)或基因變異。然而,用戶必須手動加載數(shù)據(jù)并將其存儲在他們的臺式電腦中;考慮到NGS數(shù)據(jù)的數(shù)量龐大,這種設(shè)置使得數(shù)據(jù)分析變得復(fù)雜。
此外,這些工具不允許多個已發(fā)布或本地產(chǎn)生的數(shù)據(jù)集進(jìn)行無縫整合。Illumina Basespace和Galaxy服務(wù)器,可對數(shù)據(jù)進(jìn)行存儲和分析,并有完整的查看工具。然而,它們需要外部機(jī)構(gòu)的數(shù)據(jù)傳輸,只能為用戶數(shù)據(jù)提供有限的存儲空間。雖然Galaxy提供了不使用命令行界面運行工具的機(jī)會,但是用戶仍然需要管理文件類型轉(zhuǎn)換,并且每次都要選擇詳細(xì)的參數(shù),這需要深入了解每種工具和文件格式。沒有穩(wěn)定的流程,可能會導(dǎo)致沒有經(jīng)驗的用戶比較“蘋果和桔子”。總之,很少有可用的工具能夠為生物學(xué)家提供一個友好的界面,并且,沒有一種工具,能夠?qū)⑦@樣的界面與數(shù)據(jù)存儲、顯示和分析整合起來。
基于此,該研究小組開發(fā)了BioWardrobe,一種方便生物學(xué)家使用的平臺,將NGS數(shù)據(jù)采集、存儲、顯示和分析整合起來,主要旨在用于基因組學(xué)領(lǐng)域的研究。BioWardrobe功能包括:從核心設(shè)施或在線數(shù)據(jù)庫(例如,GEO)下載原始數(shù)據(jù),讀取顯示在加利福尼亞大學(xué)本地實體、UCSC基因組瀏覽器上的映射和數(shù)據(jù),質(zhì)量控制和基本、先進(jìn)的數(shù)據(jù)分析。
在基本分析中,自動化程序用于處理每個實驗。程序的選擇是基于生物學(xué)家友好的實驗參數(shù)(例如,RNA / ChIP-seq、雙/單、基因組、抗體)和其他研究機(jī)構(gòu)開發(fā)的工具,結(jié)合自行開發(fā)的工具(例如,Bowtie、STAR、FASTX和MACS2),通過提供額外的信息提高原有軟件的輸出,提供有意義的質(zhì)量控制,并在Web界面顯示結(jié)果。
在基本分析過程中產(chǎn)生的質(zhì)量控制,被選擇來幫助進(jìn)行實驗程序的故障排除。可定制的先進(jìn)分析可以結(jié)合多個實驗,并包括比較基因表達(dá)(DESeq1 / 2)和基因組占有(MAnorm)的工具,使用圖形用戶界面分析樣品或樣品組,并產(chǎn)生主成分分析圖、基因列表、平均標(biāo)記密度分布和熱圖。
R編程語言的一個內(nèi)置接口,可促進(jìn)額外的自定義腳本合并。所有的預(yù)計算數(shù)據(jù)都存儲在一個SQL數(shù)據(jù)庫中,并可以通過一個方便的Web界面讓生物學(xué)家訪問。另一方面,生物信息學(xué)家可以使用一個提供的R庫或使用其他編程語言,訪問數(shù)據(jù)。BioWardrobe可以在Linux或MacOSX系統(tǒng)上運行。安裝包和說明可在GNU GPL v.2下使用。






