復旦大學最新綜述:基因功能富集分析研究
日期:2016-06-22 08:54:23
基因功能的富集分析已成為高通量組學數據分析的常規手段, 對于揭示生物醫學分子機制具有重要意義. 目前已有上百種基因功能富集分析的方法和工具. 根據所解決的問題和算法的原理, 這些方法可大體分為過代表分析、功能集打分、基于通路拓撲結構和基于網絡拓撲結構4大類。
來自復旦大學生命科學學院等處的幾位學者對這4大類方法的原理及其中的典型方法進行了綜述, 并討論了基因功能富集分析結果的冗余性問題及建立標準數據集的必要性。
隨著高通量測序技術的飛速發展及相關技術的廣泛應用, 生物醫學相關研究領域已進入了大規模組學數據呈指數增長的后基因組時代。一方面, 這使得生物醫學研究得以從單個基因的分析轉變為系統水平上的研究, 對于揭示生物醫學的基本分子機制具有重要推動作用. 但另一方面, 如此龐大的數據量也給信息的有效提取和分析帶來了巨大的挑戰。
為了從龐雜的組學數據中發掘規律, 研究者通常會對基因功能進行富集分析, 期望發現在生物學過程中起關鍵作用的生物通路, 從而揭示和理解生物學過程的基本分子機制. 現在, 基因功能的富集分析已成為功能組學數據分析的常規手段, 并隨著高通量組學數據的發展, 如從基因芯片數據到RNA-seq數據的轉變, 開發出了一系列相應的分析方法, 最早開發的過代表分析(over-representation analysis, ORA)僅針對一組基因, 而高通量組學數據的發展使得功能集打分(functional class scoring, FCS)應運而生, 隨著對于生物學通路及復雜網絡的深入完善和了解, 又相繼開發了基于通路拓撲結構(pathway topology, PT)和基于網絡拓撲結構(network topology, NT)的方法。
這篇文章對現有的基因功能富集分析方法進行簡要的總結評述, 以方便研究者了解相關領域, 并選擇適合的研究工具。
作者指出,高通量實驗手段的廣泛應用可以得到全基因組范圍內的各種組學數據, 通過統計分析方法, 根據基因所參與的生物通路的功能注釋信息, 發現其中顯著富集的生物學功能可從數據中揭示生物學分子機制問題, 從而服務于基礎生物醫學研究、應用臨床醫學、藥物開發及個性化精準醫療等方面. 本文對基因功能富集分析方法進行了分類評述. 需要注意的是, 任何方法都沒有絕對的“好壞”之分, 每個方法都有自己的優點和一定適用范圍, 研究者應在對富集分析方法有一定了解的基礎上, 根據研究目的和需求, 選擇最為合理的方法. 此外, 本文還探討了功能富集分析結果的冗余性問題及建立標準數據集的必要性。
上一篇: 清華大學發表Nature Immunology新文章
下一篇: 解開HIV研究的一個長期謎團






