在生命科学与生物信息学领域,KEGG(京都基因与基因组百科全书)是一个至关重要且广泛使用的数据库资源。它系统地整合了基因组、化学和系统功能信息,尤其以其直观、标准化的通路图而闻名。本文旨在快速解读KEGG的核心价值,并概述通路图相关数据处理的基本思路。
一、KEGG数据库是什么?
KEGG不仅仅是一个数据库,而是一个集成化的知识库系统。它主要包含以下几个核心模块:
- KEGG PATHWAY:核心所在。以图形方式展示细胞过程、代谢、信号转导等分子相互作用网络。每个通路图都是一个标准化的参考图谱。
- KEGG GENES: 收集了来自众多已完成测序生物体的基因/蛋白质信息。
- KEGG ORTHOLOGY (KO): 直系同源基因分类系统,是连接基因与通路的功能单元。将基因注释到KO编号是进行通路富集分析的关键步骤。
- KEGG COMPOUND/GLYCAN/REACTION: 包含化学物质、糖类、生化反应等信息,是代谢通路图的化学基础。
- KEGG BRITE: 提供基因、化合物等实体的功能层级分类体系。
KEGG的核心哲学是将生物系统视为分子网络,通路图则是这些网络的“地图”。
二、如何“读懂”KEGG通路图?
一张KEGG通路图是一个高度标准化的信息可视化工具:
- 图形元素:矩形通常代表基因、蛋白质或酶;圆形代表化学化合物;线条箭头代表相互作用(如激活、抑制、转化)。
- 颜色编码:这是将自身实验数据(如差异表达基因)映射到通路图的关键。在官网工具中,用户可以上传基因列表,系统会根据预设规则(如上调/下调)将图中的对应基因框着色(如红/绿),从而直观看到哪些通路区域在特定条件下发生了显著变化。
- KO标识:图中的每个基因框都关联着KO编号(如K04503),这是功能统一标识符,不依赖于具体物种。
三、通路相关数据处理的核心流程
处理KEGG通路数据通常是为了回答“我的基因列表在哪些通路上有显著富集?”或“我的代谢物变化影响了哪些通路?”这类问题。基本流程如下:
- 基因标识符转换与KO注释:
- 输入:通常是一组有意义的基因列表(如差异表达基因)。
- 关键步骤:将基因标识符(如Gene Symbol, Ensembl ID)映射到KEGG的KO编号。这可以通过KEGG官方API、DAVID、KOBAS或clusterProfiler等R/Bioconductor包完成。KO编号是实现跨物种比较和功能解读的桥梁。
- 通路富集分析:
- 原理:基于超几何分布检验或类似方法,判断目标基因集在某个KEGG通路中是否显著过出现(即“富集”)。
- 工具:常用工具包括R语言的
clusterProfiler、enrichKEGG函数,在线平台如DAVID、KOBAS-i等。
- 输出:得到一个包含通路名称、富集基因数、P值、错误发现率(FDR)的表格,用于识别最相关的生物学通路。
- 结果可视化:
- 富集气泡图/条形图:展示排名靠前的富集通路及其显著性,是展示分析结果的经典方式。
- 通路映射图:使用KEGG官网的“Color”工具或R包
pathview,将基因表达量、代谢物浓度等定量数据映射到通路图上,生成着色的自定义通路图,直观展示变化发生在通路的具体位置。
- 通路网络图:展示不同通路之间的基因重叠关系,揭示更上层的功能模块。
四、实用工具与注意事项
- 常用工具:对于生信分析,R包
clusterProfiler和pathview是进行KEGG富集分析和可视化的一站式利器。在线用户可直接访问KEGG官网使用其搜索、浏览和着色工具。 - 注意物种差异:KEGG通路是参考图谱,分析时需确保使用正确的物种数据库进行映射(如hsa代表人类,mmu代表小鼠)。
- 理解局限性:通路富集分析结果是统计关联,需结合生物学知识进行解读。KEGG通路图是静态的参考模型,不一定反映所有细胞类型或状态下的具体情况。
###
掌握KEGG数据库与通路图,本质上是获得了一套解读基因组数据功能意义的“词典”和“地图”。从基因列表到KO注释,再到通路富集分析和可视化映射,这一标准化流程已成为功能基因组学、代谢组学等研究的常规分析手段,能有效将海量的分子列表转化为可理解的生物学故事。