GO和KEGG富集分析

GO和KEGG富集分析

GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析是生物信息学中常用的两种方法,用于解读高通量实验(如转录组测序、蛋白质组学)产生的基因或蛋白质列表背后的生物学意义。它们的核心目的是从大量差异表达的基因中,识别出显著富集的生物学功能、通路或机制,帮助研究者聚焦关键生物学过程。


1. GO富集分析(Gene Ontology Enrichment Analysis)

概念

GO是一个国际标准化的基因功能分类系统,将基因的功能分为三大类:

  • BP(Biological Process):生物学过程(如细胞分化、DNA修复)。

  • ***(Cellular ***ponent):细胞组分(如线粒体、细胞膜)。

  • MF(Molecular Function):分子功能(如ATP结合、激酶活性)

结果解读
  • 显著性指标:通常用p值(或校正后的p值,如FDR)判断富集显著性,阈值一般设为p<0.05。

  • 可视化:柱状图、气泡图展示富集GO术语及其显著性。

2. KEGG富集分析(KEGG Pathway Enrichment Analysis)

概念

KEGG是一个整合基因组、化学和系统功能信息的数据库,核心是代谢和信号通路图(如“细胞周期”“癌症通路”)。KEGG富集分析旨在发现输入基因显著富集的生物学通路

结果解读
  • 通路图:富集的通路会以彩色高亮显示输入基因,直观展示其位置和相互作用。

  • 显著性指标:同样依赖p值/FDR,通常结合富集因子(Enrichment Factor,富集基因数/预期基因数)评估通路激活程度。

3.使用David数据库进行通路分析

首先需要准备所需要分析的交集基因,然后将其导入到David数据库DAVID Functional Annotation Bioinformatics Microarray Analysis

①输入需要分析的交集靶点

②选择OFFICAL_GENE_SYMBOL(如果输入不是标准的gene symbol可以根据自己的实际情况进行选择)

③选择人种

④选择gene list

最后提交submit list

GO和KEGG的结果分别如下图所示。点击chart可以选择不同的下载方式,一般选择excel表。

最后我们下载得到的数据长这样:

Category GO分类类别,通常是 GOTERM_BP_DIRECT,表示这是**生物学过程(Biological Process)**的直接注释。
Term GO术语的名称,即富集到的具体生物学功能或过程,比如“epidermal growth factor receptor signaling pathway”。
Genes 与该GO术语相关的基因列表(通常是基因名或ID),即你输入的基因中属于这个GO术语的成员。
Count 你输入的基因列表中,有多少个基因属于这个GO术语。
List Total 你输入的基因总数(即分析时使用的基因数量,比如差异表达基因总数)。
Pop Hits 在整个背景数据库中,有多少个基因被注释到这个GO术语。
Pop Total 背景数据库中总共有多少个基因(通常是全基因组注释的基因数量)。
P-Value 富集显著性p值,表示该GO术语在你输入的基因中富集的概率,越小越显著
Benjamini Benjamini-Hochberg 校正后的p值(FDR),用于控制假阳性率,更可靠
Fold Enrichment 富集倍数,表示该GO术语在你输入基因中的富集程度,越高表示富集越明显
Bonferroni Bonferroni 校正后的p值,更严格的多重检验校正方法。
FDR False Discovery Rate,即假发现率,和 Benjamini 类似,用于多重检验校正。
Fisher Exact Fisher精确检验的p值,是计算富集显著性的原始统计方法之一。

以下面表格中的第一行为例:

Term Count List Total Pop Hits Pop Total P-Value Fold Enrichment
epidermal growth factor receptor signaling pathway 24 191 103 19478 3.83e-28 23.76

在你输入的 191 个基因中,有 24 个参与了“表皮生长因子受体信号通路”,而在整个背景数据库(19478 个基因)中,有 103 个基因参与该通路。这个通路在你输入的基因中显著富集(p值极小,富集倍数为 23.76 倍)。

所以GO的结果主要要关注以下几个数据:

  • Term:具体富集到的功能/通路名称。

  • Count:你输入的基因中有多少个属于这个GO术语。

  • P-Value / Benjamini / FDR:显著性指标,越小越可信。

  • Fold Enrichment:富集强度,越高越有意义。

我们在David网站下载得到的GO结果就是按照FDR的值从小到大进行排序的,这也是论文发表最具有信服力的排序方法,所以我们选取只需要从上到下依次截取即可。

4.使用微生信网站进行可视化处理

我们按照微生信网站(微生信-在线生物信息学分析、可视化云平台)给出的数据输入方式进行上传即可。

转载请说明出处内容投诉
CSS教程网 » GO和KEGG富集分析

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买