GO和KEGG富集分析-golang-CSS教程网

GO和KEGG富集分析

GO（Gene Ontology）和KEGG（Kyoto Encyclopedia of Genes and Genomes）富集分析是生物信息学中常用的两种方法，用于解读高通量实验（如转录组测序、蛋白质组学）产生的基因或蛋白质列表背后的生物学意义。它们的核心目的是从大量差异表达的基因中，识别出显著富集的生物学功能、通路或机制，帮助研究者聚焦关键生物学过程。

1. GO富集分析（Gene Ontology Enrichment Analysis）

概念

GO是一个国际标准化的基因功能分类系统，将基因的功能分为三大类：

BP（Biological Process）：生物学过程（如细胞分化、DNA修复）。
***（Cellular ***ponent）：细胞组分（如线粒体、细胞膜）。
MF（Molecular Function）：分子功能（如ATP结合、激酶活性）

结果解读

显著性指标：通常用p值（或校正后的p值，如FDR）判断富集显著性，阈值一般设为p<0.05。
可视化：柱状图、气泡图展示富集GO术语及其显著性。

2. KEGG富集分析（KEGG Pathway Enrichment Analysis）

概念

KEGG是一个整合基因组、化学和系统功能信息的数据库，核心是代谢和信号通路图（如“细胞周期”“癌症通路”）。KEGG富集分析旨在发现输入基因显著富集的生物学通路。

结果解读

通路图：富集的通路会以彩色高亮显示输入基因，直观展示其位置和相互作用。
显著性指标：同样依赖p值/FDR，通常结合富集因子（Enrichment Factor，富集基因数/预期基因数）评估通路激活程度。

3.使用David数据库进行通路分析

首先需要准备所需要分析的交集基因，然后将其导入到David数据库DAVID Functional Annotation Bioinformatics Microarray Analysis

①输入需要分析的交集靶点

②选择OFFICAL_GENE_SYMBOL（如果输入不是标准的gene symbol可以根据自己的实际情况进行选择）

③选择人种

④选择gene list

最后提交submit list

GO和KEGG的结果分别如下图所示。点击chart可以选择不同的下载方式，一般选择excel表。

最后我们下载得到的数据长这样：

Category	GO分类类别，通常是 `GOTERM_BP_DIRECT`，表示这是生物学过程（Biological Process）的直接注释。
Term	GO术语的名称，即富集到的具体生物学功能或过程，比如“epidermal growth factor receptor signaling pathway”。
Genes	与该GO术语相关的基因列表（通常是基因名或ID），即你输入的基因中属于这个GO术语的成员。
Count	你输入的基因列表中，有多少个基因属于这个GO术语。
List Total	你输入的基因总数（即分析时使用的基因数量，比如差异表达基因总数）。
Pop Hits	在整个背景数据库中，有多少个基因被注释到这个GO术语。
Pop Total	背景数据库中总共有多少个基因（通常是全基因组注释的基因数量）。
P-Value	富集显著性p值，表示该GO术语在你输入的基因中富集的概率，越小越显著。
Benjamini	Benjamini-Hochberg 校正后的p值（FDR），用于控制假阳性率，更可靠。
Fold Enrichment	富集倍数，表示该GO术语在你输入基因中的富集程度，越高表示富集越明显。
Bonferroni	Bonferroni 校正后的p值，更严格的多重检验校正方法。
FDR	False Discovery Rate，即假发现率，和 Benjamini 类似，用于多重检验校正。
Fisher Exact	Fisher精确检验的p值，是计算富集显著性的原始统计方法之一。

以下面表格中的第一行为例：

Term	Count	List Total	Pop Hits	Pop Total	P-Value	Fold Enrichment
epidermal growth factor receptor signaling pathway	24	191	103	19478	3.83e-28	23.76

在你输入的 191 个基因中，有 24 个参与了“表皮生长因子受体信号通路”，而在整个背景数据库（19478 个基因）中，有 103 个基因参与该通路。这个通路在你输入的基因中显著富集（p值极小，富集倍数为 23.76 倍）。

所以GO的结果主要要关注以下几个数据：

Term：具体富集到的功能/通路名称。
Count：你输入的基因中有多少个属于这个GO术语。
P-Value / Benjamini / FDR：显著性指标，越小越可信。
Fold Enrichment：富集强度，越高越有意义。

我们在David网站下载得到的GO结果就是按照FDR的值从小到大进行排序的，这也是论文发表最具有信服力的排序方法，所以我们选取只需要从上到下依次截取即可。

4.使用微生信网站进行可视化处理

我们按照微生信网站（微生信-在线生物信息学分析、可视化云平台）给出的数据输入方式进行上传即可。

转载请说明出处内容投诉
CSS教程网 » GO和KEGG富集分析

aaa553297

分享到：

1. GO富集分析（Gene Ontology Enrichment Analysis）

概念

结果解读

2. KEGG富集分析（KEGG Pathway Enrichment Analysis）

概念

结果解读

3.使用David数据库进行通路分析

4.使用微生信网站进行可视化处理

aaa553297

发表评论

一个令你着迷的主题！