蛋白质组学生信分析①:入门必看!火山图 + GO/KEGG 气泡图搭建生信分析基础框架

蛋白质组学生信分析①:入门必看!火山图 + GO/KEGG 气泡图搭建生信分析基础框架

引言

在生物医学研究的组学数据分析中,“找到差异基因” 并 “解读其功能意义” 是核心第一步。火山图、GO 富集气泡图、KEGG 富集气泡图作为最基础的可视化工具,构成了 “差异筛选→功能定位→通路关联” 的完整逻辑链。本文将严格依据生信分析结果图可视化指南,详细拆解这三类图的展示形式、分析目的、解读方法及工具,帮你夯实生信可视化基础。


火山图(Volcano Plot) | 差异表达基因的 “精准筛选器”

作为差异表达分析的核心可视化图表,火山图的核心价值在于直观区分 “显著差异基因” 与 “非显著基因”,快速锁定后续分析的核心靶点。

1. 展示形式

火山图本质是散点图,其坐标轴与点的属性有明确定义:

▶横轴:对数倍数变化【log2(fold change)】,代表基因在两组样本(如处理组 vs 对照组)中的表达变化幅度,正值表示 “上调”,负值表示 “下调”

纵轴:负对数 p 值【-log10( p-value)】,反映表达变化的统计显著性,纵轴数值越高,显著性越强

点的标记:通常设定双重阈值(如p < 0.05、倍数变化>1.5),超出阈值的点(显著差异基因)会用不同颜色标注(如上调用红色、下调用蓝色),非显著基因用灰色标记,部分图会通过点的大小区分调整后 p 值或倍数变化幅度。

2. 分析目的

用于展示差异表达分析结果,帮助研究者快速识别 “表达变化大且统计显著” 的基因。相较于单纯的基因列表,火山图能直观呈现整体差异分布,避免仅关注 “倍数变化” 或 “p 值” 单一指标导致的误判 —— 比如某基因倍数变化大但 p 值不显著(可能是随机波动),或 p 值显著但倍数变化小(生物学意义有限),均可通过火山图快速排除。

3. 解读方法

解读需围绕 “坐标轴含义” 与 “阈值线” 展开,核心逻辑如下:

横轴判断表达趋势:横轴正值区域的点代表 “处理组相对对照组上调的基因”,负值区域代表 “下调的基因”,绝对值越大,表达变化幅度越剧烈;

纵轴判断显著性:纵轴高度越高,【-log10( p-value)】越大,对应原始 p 值越小,统计可靠性越强;

阈值线划分区域:图中通常会绘制两条参考线 —— 纵轴-log10(0.05)(对应p < 0.05)、横轴±log2(1.5)(对应倍数变化 > 1.5 或 <0.67),两条线交叉将图分为 “显著差异区” 与 “非显著区”

关键区域关注:位于右上角(显著上调)和左下角(显著下调)的点是核心差异基因,远离阈值线的点表示 “表达变化极大且显著性极高”(如右上角某点log2FC=3、-log10(p-value)=10,代表该基因大幅上调且极显著)。

4. 常用工具

R/Bioconductor:使用ggplot2或EnhancedVolcano包,支持自定义阈值、颜色与标注;

Python:借助matplotlib或seaborn库,适合结合大数据集处理;

在线工具:如 GenePattern、GSEA 桌面版,无需编程即可快速生成;

统计软件内置功能:如差异分析工具 DESeq2、EdgeR,可直接输出火山图结果。


GO 富集气泡图(GO Enrichment Bubble Plot)| 差异基因的“功能解码器”

找到差异基因后,需回答 “这些基因主要参与哪些生物学过程”,GO 富集气泡图通过可视化 “基因本体(GO)条目” 与差异基因的关联,实现功能定位。

1. 展示形式

属于二维散点图,每个点代表一个 GO 条目,核心元素对应关键分析指标:

横轴:富集倍数(观察到的差异基因数与背景基因中该 GO 条目的预期基因数的比值),值越大,说明差异基因在该 GO 条目中的 “过度富集” 程度越高

纵轴:GO 条目名称,通常展示 “显著性排名前 10-15 的条目”(避免条目过多导致混乱),GO 条目分为三大类 —— 生物学过程(BP)、分子功能(MF)、细胞组分(***),需明确标注;

气泡属性:气泡大小反映 “该 GO 条目中包含的差异基因数量”(越大表示基因数越多),气泡颜色反映 “统计显著性”【-log10(p-value)】,颜色越深,p 值越小,显著性越强)。

2. 分析目的

用于展示 GO 功能富集分析结果,判断一组差异基因是否在特定 GO 功能类别中 “过度富集”。通过气泡图,研究者可快速定位差异基因的核心功能方向 —— 比如差异基因集中富集 “细胞凋亡”(BP 类)、“蛋白激酶活性”(MF 类)或 “线粒体”(*** 类),从而理解基因集合的功能意义。

3. 解读方法

解读需聚焦 “气泡大小、横轴位置、颜色深浅” 三个维度:

气泡大小→基因数量:气泡越大,代表该 GO 条目中包含的差异基因越多,该功能在差异基因集中的 “覆盖度” 越高

横轴位置→富集程度:横轴越靠右,富集倍数越高,说明差异基因在该 GO 类别中的出现频率远高于背景基因,该功能是差异基因的 “核心功能方向”;

颜色深浅→显著性:颜色越深(如红 > 橙 > 黄),【-log10( p-value)】越大,统计显著性越强,结果越可靠

优先级判断:优先关注 “颜色深、横轴靠右、气泡较大” 的 GO 条目 —— 例如右上角一个大红色气泡,代表该 GO 条目 “富集倍数高、基因数量多、显著性强”,是差异基因的核心功能。

4. 常用工具

在线工具:DAVID、WebGestalt、Enrichr,支持上传差异基因列表,自动生成 GO 富集气泡图;

R 语言:使用clusterProfiler包的enrichGO函数进行富集分析,再通过dotplot函数绘制气泡图;

Python:借助scikit-bio或pandas完成富集计算,用matplotlib或seaborn实现可视化。


KEGG 富集气泡图(KEGG Enrichment Bubble Plot)| 差异基因的“通路定位器”

如果说 GO 富集聚焦 “功能分类”,KEGG 富集则聚焦 “信号通路与代谢途径”,KEGG 富集气泡图帮助研究者将差异基因与已知生物学通路关联,挖掘 “基因→通路→表型” 的潜在机制。

1. 展示形式

与 GO 富集气泡图结构高度相似,核心区别在于 “点代表的对象不同”:

横轴:富集倍数(计算逻辑与 GO 一致,即差异基因中该通路的基因数 / 背景基因中该通路的总基因数);

纵轴:KEGG 通路名称(如 “hsa04110 细胞周期”“hsa04961 胰岛素信号通路”),需标注通路对应的物种缩写(如人类为 hsa、小鼠为 mmu);

气泡属性:气泡大小代表 “该通路中包含的差异基因数量”,颜色代表 “统计显著性”(-log10(p-value),颜色越深,p 值越小,显著性越强)。

2. 分析目的

用于展示 KEGG 通路富集分析结果,判断差异基因是否在特定生物学通路中 “显著富集”。KEGG 通路对应明确的生物过程(如细胞周期、炎症反应、代谢途径),通过该图可快速定位差异基因参与的核心通路,为机制研究提供方向 —— 例如肿瘤研究中,差异基因富集 “PI3K-Akt 通路”,提示该通路可能是肿瘤进展的关键调控通路。

3. 解读方法

解读逻辑与 GO 富集气泡图一致,核心关注 “通路的显著性、富集程度与基因数量”

颜色判断显著性:颜色越深(如深红色),p-value越小,通路富集结果越可靠,优先关注p < 0.05的通路

横轴判断富集程度:横轴越靠右,富集倍数越高,说明差异基因在该通路中的 “集中程度” 越高,该通路与研究表型的关联可能越紧密;

气泡大小判断覆盖度:气泡越大,通路中包含的差异基因越多,该通路的 “调控网络” 越完整;

4. 常用工具

在线工具:KEGG Mapper、WebGestalt、Enrichr、DAVID,支持通路富集分析与气泡图生成;

R 语言:clusterProfiler包的enrichKEGG函数进行通路富集,dotplot函数绘制气泡图;

专业平台:Gene Ontology Consortium 工具,提供多物种 KEGG 通路分析与可视化功能。


Day1 互动:基础分析的疑问与交流

今天我们拆解了 “差异基因筛选 → 功能富集 → 通路定位” 的 3 类核心图,你在实际分析中是否遇到过这些问题?比如 “火山图阈值该如何调整才能平衡敏感性与特异性”“GO/KEGG 富集无显著条目时该如何优化”?欢迎在评论区留言你的疑问,我们将在 Day2 的内容中针对性解答。

明天(Day2)我们将聚焦更复杂的 “关系与趋势类图表”—— 桑基图、基因集富集分析图(GSEA)、Mfuzz 时序聚类图、蛋白互作网络图(PPI),教你可视化 “基因的多维度归属”“动态表达趋势” 与 “互作网络结构”,进一步挖掘组学数据的深层机制!


参考资料

[1] Enhanced Volcano. Bioconductor - Help

[2] ClusterProfiler. Introduction | Biomedical Knowledge Mining using GOSemSim and clusterProfiler

[3] Biostars. https://www.biostars.org/

转载请说明出处内容投诉
CSS教程网 » 蛋白质组学生信分析①:入门必看!火山图 + GO/KEGG 气泡图搭建生信分析基础框架

发表评论

欢迎 访客 发表评论

一个令你着迷的主题!

查看演示 官网购买