GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析是生物信息学中常用的两种方法,用于解读高通量实验(如转录组测序、蛋白质组学)产生的基因或蛋白质列表背后的生物学意义。它们的核心目的是从大量差异表达的基因中,识别出显著富集的生物学功能、通路或机制,帮助研究者聚焦关键生物学过程。
1. GO富集分析(Gene Ontology Enrichment Analysis)
概念
GO是一个国际标准化的基因功能分类系统,将基因的功能分为三大类:
-
BP(Biological Process):生物学过程(如细胞分化、DNA修复)。
-
***(Cellular ***ponent):细胞组分(如线粒体、细胞膜)。
-
MF(Molecular Function):分子功能(如ATP结合、激酶活性)
结果解读
-
显著性指标:通常用p值(或校正后的p值,如FDR)判断富集显著性,阈值一般设为p<0.05。
-
可视化:柱状图、气泡图展示富集GO术语及其显著性。
2. KEGG富集分析(KEGG Pathway Enrichment Analysis)
概念
KEGG是一个整合基因组、化学和系统功能信息的数据库,核心是代谢和信号通路图(如“细胞周期”“癌症通路”)。KEGG富集分析旨在发现输入基因显著富集的生物学通路。
结果解读
-
通路图:富集的通路会以彩色高亮显示输入基因,直观展示其位置和相互作用。
-
显著性指标:同样依赖p值/FDR,通常结合富集因子(Enrichment Factor,富集基因数/预期基因数)评估通路激活程度。
3.使用David数据库进行通路分析
首先需要准备所需要分析的交集基因,然后将其导入到David数据库DAVID Functional Annotation Bioinformatics Microarray Analysis
①输入需要分析的交集靶点
②选择OFFICAL_GENE_SYMBOL(如果输入不是标准的gene symbol可以根据自己的实际情况进行选择)
③选择人种
④选择gene list
最后提交submit list
GO和KEGG的结果分别如下图所示。点击chart可以选择不同的下载方式,一般选择excel表。
最后我们下载得到的数据长这样:
| Category | GO分类类别,通常是 GOTERM_BP_DIRECT,表示这是**生物学过程(Biological Process)**的直接注释。 |
| Term | GO术语的名称,即富集到的具体生物学功能或过程,比如“epidermal growth factor receptor signaling pathway”。 |
| Genes | 与该GO术语相关的基因列表(通常是基因名或ID),即你输入的基因中属于这个GO术语的成员。 |
| Count | 你输入的基因列表中,有多少个基因属于这个GO术语。 |
| List Total | 你输入的基因总数(即分析时使用的基因数量,比如差异表达基因总数)。 |
| Pop Hits | 在整个背景数据库中,有多少个基因被注释到这个GO术语。 |
| Pop Total | 背景数据库中总共有多少个基因(通常是全基因组注释的基因数量)。 |
| P-Value | 富集显著性p值,表示该GO术语在你输入的基因中富集的概率,越小越显著。 |
| Benjamini | Benjamini-Hochberg 校正后的p值(FDR),用于控制假阳性率,更可靠。 |
| Fold Enrichment | 富集倍数,表示该GO术语在你输入基因中的富集程度,越高表示富集越明显。 |
| Bonferroni | Bonferroni 校正后的p值,更严格的多重检验校正方法。 |
| FDR | False Discovery Rate,即假发现率,和 Benjamini 类似,用于多重检验校正。 |
| Fisher Exact | Fisher精确检验的p值,是计算富集显著性的原始统计方法之一。 |
以下面表格中的第一行为例:
| Term | Count | List Total | Pop Hits | Pop Total | P-Value | Fold Enrichment |
|---|---|---|---|---|---|---|
| epidermal growth factor receptor signaling pathway | 24 | 191 | 103 | 19478 | 3.83e-28 | 23.76 |
在你输入的 191 个基因中,有 24 个参与了“表皮生长因子受体信号通路”,而在整个背景数据库(19478 个基因)中,有 103 个基因参与该通路。这个通路在你输入的基因中显著富集(p值极小,富集倍数为 23.76 倍)。
所以GO的结果主要要关注以下几个数据:
-
Term:具体富集到的功能/通路名称。
-
Count:你输入的基因中有多少个属于这个GO术语。
-
P-Value / Benjamini / FDR:显著性指标,越小越可信。
-
Fold Enrichment:富集强度,越高越有意义。
我们在David网站下载得到的GO结果就是按照FDR的值从小到大进行排序的,这也是论文发表最具有信服力的排序方法,所以我们选取只需要从上到下依次截取即可。
4.使用微生信网站进行可视化处理
我们按照微生信网站(微生信-在线生物信息学分析、可视化云平台)给出的数据输入方式进行上传即可。