中国中医科学院医学实验中心

网站首页
中心概况
中心简介
更多

中国中医科学院医学实验中心成立于2006年3月，是由科技部、财政部、中编办和国家中医药管理局批准成立的公益性中医药科研机构。拥有北京市中医药防治重大疾病重点实验室、首都科技条件平台开放单位、国家基因组科学数据中心中医药分中心、“中药复杂作用解析”湖北省重点实验室等。中医药智能工程中心挂靠医学实验中心建设。
现任领导
更多
- 樊新荣
- 唐丹丽
- 袁媛
机构设置
更多

党政办公室科研教育处平台部行保处科技交流合作处中医药防治重大疾病基础研究北京市重点实验室国家基因组科学数据中心中医药分中心中医药智能科学与工程技术研究中心
新闻公告
- 新闻动态
- 通知公告
科学研究
- 科研动态
- 科研成果
平台基地

医学实验中心中医药实验技术共享服务平台以大型科学仪器设备和前沿科学技术手段为支撑，紧跟现代科技前沿，打造标签技术、创新功能单元，形成稳定的中医药实验科学和技术研究团队，服务我院以及行业内外相关企业、院所、高校。平台下设物质分析检测、微透析、分子生物学、免疫学、机能、形态学、细胞与微生物学、骨与关节疾病实验室及四诊信息研究室9个功能实验室。

平台简介功能实验室特色功能单元重点仪器实验预约技术工匠在线学习准入测试
学科建设
人才培养
党群工作

科学研究

中医药基因组科学数据中心 | 最全植物基因组数据平台IMP中文教程（核基因组更新到 1000 个植物）

发布时间：2024-07-25 浏览人数：1881

　　IMP 针对收录的数据提供了 10 个功能分析模块，示例性结果如下图，包括多基因表达图谱的绘制、共表达基因的搜寻和鉴定、基因簇的展示、BLAST 序列搜索、多序列比对、在线差异基因分析（样品相关性热图、差异基因热图和火山图）、GO/KEGG富集分析、GSEA 富集分析、IGV 基因组浏览器展示、引物设计、序列提取等。

　　IMP 数据库基本介绍

　　数据平台访问地址https://www.bic.ac.cn/IMP/。首页采用平面组合布局，分为导航、网站描述、统计信息和功能展示 4 个部分。

Logo 设计体现药物特色，药葫芦+DNA 双螺旋体现药用植物分子信息，辅以祥云标识，展示中国特色；
轮播图和文字描述网站特色；
首页的搜索为全局检索，用户输入基因名字、通路信息或任意基因功能相关单词即可搜索目标基因，开启网站的探索之旅；
右侧 2 个视频图标可以跳转当前页面可用功能的具体描述：
国内跳转 B 站，国外跳转 YouTube 平台。
中间 4 个图标列出数据库收录数据的统计信息：
基因数目、基因碱基数、样品数和物种数目。
下面 12 个模式图列出网站的主要功能和功能跳转。
最后是网站的更新日志。

　　以单基因为中心的详情页面展示

　　页面分为 3 个部分：

　　第一部分展示基因的基本信息，包括名字信息、功能描述信息和序列信息。

　　第二部分展示基因在不同数据集的表达图谱信息。

用户可以选择数据的预处理方式、图形的布局、箱体的排序、数据集来调整展示的内容。
同时可以通过padding调整图的左、下、右的空间，以免发生文字溢出。
最终的截图图可导出SVG格式，用于文章组图。
SVG 图也可以在 BIChttps://www.bic.ac.cn/BIC/ 的SVGEdit 平台进行简单编辑http://www.ehbio.com/SVGEdit/editor/。

　　第三部分展示基因的结构（内含子、外显子、UTR 等信息）和蛋白功能域信息。

　　多基因表达图谱

　　可以自己按页面选择物种、数据集、样品（非必选的选项如果不选，默认是全选）、输入基因，也可以从搜索结果中直接带过来基因列表。

　　模糊搜索：支持根据基因的功能描述关键词进行模糊搜索，获取基因名，用于研究一类基因的表达图谱。

　　提交后获得基因表达图谱展示。

用户可以跳转图形的padding 信息和高度信息
可视化结果可以导出 SVG 格式作图数据可以下载
导入 ImageGP/BIC平台进行再次分析

　　Gene fishing 调取表达模式相近的基因

　　选择物种、Assay type、匹配模式，输入基因名（可以通过Send to功能从其它页面发送过来），提交后获得一个相关性网络图和对应的结果数据。

　　GO/KEGG 富集分析 {#gokegg}　

　　用户选择物种，输入基因名字，即可进行GO/KEGG富集分析。阅读推文https://mp.weixin.qq.com/s/BCB16M4yI5Qa1tKyZy7WMg或查看视频https://www.bilibili.com/video/BV1rD4y1272a?p=4了解 GO/KEGG 富集分析的基本原理。

　　点击后，可调整富集分析结果的配色方案、选择富集的条目进行展示。也可以下载表格文件，到高颜值免费在线绘图平台 ImageGP/BIC https://www.bic.ac.cn/BIC进行自由绘制。

　　GSEA 富集分析

　　GSEA 富集分析的输入会麻烦一些，目前只支持包含一列基因和一列排序值的 2 列矩阵格式；排序值可以是常见的log2(fold change)，p-value或也可以是其他定量值。

　　阅读推文https://mp.weixin.qq.com/s/WiYUUALSmb9v5gYVxmjwjA或查看视频https://www.bilibili.com/video/BV1rD4y1272a?p=5了解 GSEA富集分析的输入数据、原理和结果解读。

　　默认绘制最富集的 2 条通路在一张图上，可以自己选择绘制哪些通路，也可以将通路绘制在多张图上。

　　BLAST序列比对和搜索

　　BLAST 是鼎鼎有名的序列搜索工具，这里支持

BLASTN: nucleotide to nucleotide
TBLASTN: protein to translated nucleotide
BLASTP: protein to protein
BLASTX: translated nucleotide to protein

　　非模式物种常常没有统一的Gene Symbol，使用的是各种意义不明的 ID，序列搜索是把文献或私藏的序列映射到 IMP 或在 IMP 中搜索序列相似基因的好方法。这就是 BLAST 功能所做的。

　　IMP 的 Blast 功能支持用户输入单条或多条 FASTA 序列进行搜索，用户也可以选择一个或多个或全部数据集。Advanced parameter处可以设置更多匹配控制参数。

　　HTML格式的输出会包含匹配区域的序列比对信息。如果用户输入了多条查询序列，可在Results for后面的下拉框中进行选择切换。

　　Table格式简洁明确地列出每条查询序列在数据库中的匹配序列，可以把匹配出的序列通过Send to功能发送到更多工具页面，快捷使用。

　　因为 BLAST自身的问题，如果用户选了多个数据库文件，当前会强制输出 Table 格式。正在根 BLAST 沟通中，还未解决。

　　BLAST 参数参考

　　BLASTN 的匹配得分除以错配罚分 (abs(reward/penalty))的商（比值）越大表示允许的序列直接的匹配度越小。比值为 0.33 等同于序列相似度大于 99%；比值为 0.5 等同于序列相似度大于 95%；比值为 1 等同于序列相似度大于 75%。

　　It is important to choose reward/penalty values appropriate to the sequences being aligned with the (absolute) reward/penalty ratio increasing for more divergent sequences. A ratio of 0.33 (1/-3) is appropriate for sequences that are about 99% conserved; a ratio of 0.5 (1/-2) is best for sequences that are 95% conserved; a ratio of about one (1/-1) is best for sequences that are 75% conserved

　　REF: https://www.ncbi.nlm.nih.gov/books/NBK279684/

　　The reward/penalty values are ordered from most to least stringent, with the more stringent values better suited for alignments with high sequence identity.

reward/penalty	gap costs (open/extend)	default MegaBLAST gap costs (open/extend)
1/-5	3/3	0/5.5
1/-4	1/2, 0/2, 2/1, 1/1	0/4.5
2/-7	2/4, 0/4, 4/2, 2/2	0/8
1/-3	2/2, 1/2, 0/2, 2/1, 1/1	0/3.5
2/-5	2/4, 0/4, 4/2, 2/2	0/6
1/-2	2/2, 1/2, 0/2, 3/1, 2/1, 1/1	0/2.5
2/-3	4/4, 2/4, 0/4, 3/3, 6/2, 5/2, 4/2, 2/2	0/4
3/-4	6/3, 5/3, 4/3, 6/2, 5/2, 4/2	N/A
4/-5	6/5, 5/5, 4/5, 3/5	N/A
1/-1	3/2, 2/2, 1/2, 0/2, 4/1, 3/1, 2/1	N/A
3/-2	5/5	N/A
5/-4	10/6, 8/6	N/A

　　引物设计

　　用户可以通过 3 种方式锁定自己的目标序列：基因组位置、序列、基因 ID，IMP 会提取对应的序列并采用 Primer3根据设定的参数设计引物，输出引物表格。

　　多序列比对展示

　　多序列比对是系统进化树构建的前缀，IMP 支持用户直接输入序列或提供基因名字自动提取序列进行多序列比对。

　　多序列比对展示处，用户可以调整氨基酸或碱基的上色模式、一行展示的序列长度以便获得合适长宽比的可视化图。

　　序列提取

　　通过功能搜索或序列搜索或差异基因分析完后获得的差异基因，可粘贴到这里的Gene list处，提取其Gene, CDS, Protein 和Promoter序列。

　　基因簇可视化

　　Gene map viewer 用于可视化基因组范围的基因分布，查看用户输入的基因是否在染色体区域成簇存在。设计有 2 种展示模式：

Overlay：

显示染色体局部区域的基因分布

Annotation：

显示基因在染色体水平的分布模式

　　Overlay可视化结果如下, 可以滚动鼠标缩放可视化区域，点击 Gene block 会跳转到 IGV 页面或基因详情页面：

　　Annotation模式下可视化结果如下, 如果多个基因位置在 0.2M bp内，则合并在一个三角形中展示。

　　更多基因共线性分析见 https://www.bic.ac.cn/SynColV。

在线实验设计和差异基因分析

　　本部分基于Reads-count矩阵采用limma-voom 进行差异基因的鉴定，然后对筛选出的差异基因进行GO/KEGG富集分析.

　　该功能涉及多个分析步骤，每个步骤页面结构差不多，下图是对于表单部分的解释。

　　第一步：实验设计确定要比较的物种和分组信息（不同组织部位差异或不同处理的差异）

　　按图所示，顺次选择每个参数即可（可选参数可略过）。

　　第二步：样品相关性评估和过滤异常样品

　　针对选中的样品，提取其表达矩阵，并采用DESeq2 类似的方式计算量化因子获得标准化后的数据矩阵，然后绘制样品相关性热图和 PCA 分析。

　　下图中的左右穿梭框显示了系统自动鉴定出的异常样品和通过检测的样品，用户也可以根据下面的可视化结果自行调整或筛选样品。

　　下面展示的是样品聚类热图和 PCA 分析的结果图，二者都是交互式图谱。

　　12个样品的表达相关性热图展示。行列注释中的DE_Group: 用户选择数据的生物分组信息。Single_group: 检查是不是有某个组只有 1 个生物学重。Single_batch: 检查某个批次的数据是不是只有 1 个样本。Outlier: 标识系统鉴定出的异常样品。Suggest_remove: 建议移除的样品。