摩熵化学
数据库官网
小程序
打开微信扫一扫
首页 分子通 化学资讯 化学百科 反应查询 关于我们
请输入关键词

【生信分析】利用GEO2R进行差异分析的极简教程!

  • 生信工具
  • GEO2R
  • GEO数据库
  • NCBI
唯思派 09/16

大家是不是遇到过这种情况?手握一堆测序数据,想找出哪些基因在两组样本中表达量不一样,却被复杂的R包和代码劝退……别慌!今天给大家安利一个超好用的神器——GEO2R!它藏在NCBI的GEO数据库里,不用编程就能完成基础差异分析,简直是科研萌新的救星!

通过GEO2R,我们可以轻松地分析来自Gene Expression Omnibus (GEO)数据库中的数据,以发现不同实验条件下差异表达的基因。这对于生物学研究者来说是一个非常宝贵的资源,也是我们理解基因如何调控生命过程的关键工具之一。

数据库简介

那么在介绍如何使用GEO2R之前,先来给大家简单介绍一下GEO数据库。

GEO数据库全称GENE EXPRESSION OMNIBUS,网址:https://www.ncbi.nlm.nih.gov/geo/,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,主要储存芯片、二代测序以及其他高通量测序数据。目前大约百分之九十已经发表的论文中涉及到的基因表达检测的数据都可以通过这个数据库找到。

GEO2R是什么?

简单来说,GEO2R是NCBI官方开发的「一键式」差异分析工具,专为微阵列/RNA-seq数据集设计,允许用户比较某个 GEO 数据中的两组或多组样品 ,以鉴定在不同实验条件下差异表达的基因。

其结果是以按 P 值排序的基因表和图形绘图,有助于可视化差异表达的基因并评估数据集的质量。GEO2R 使用 Bioconductor 项目中的各种 R 包。只要你的数据已经提交到GEO数据库(GSE系列编号),就能直接调用它进行分析。最适合快速验证假设或初步筛选候选基因啦!

数据库操作流程

1.访问主页

打开网址:https://www.ncbi.nlm.nih.gov/geo/,在右边“Browse Content”中。

● Series代表数据集,访问编号以 GSE 开头;

● Samples代表样本,访问编号以 GSM 开头;

● Platforms代表测序用的芯片的类型,访问编号以 GDL 开头;

● Datasets是经GEO团队分析被整理过的数据集,访问编号以 GDS 开头,相比于GSE,GDS可能更加可靠。

2.查找数据集

点击‘Series’,检索肺癌(Lung Cancer)得到的数据集有 432 条,接下来以 GSE269024 为例进行说明。

3.使用 GEO2R 分析工具

回到主页,点击“GEO2R”分析工具。

在NCBI中搜索GEO+基因名称,在搜索框中输入系列登录号。页面跳转后,此处输入访问编号‘GSE269024’,点击‘Set’。如果该系列与多个微阵列芯片平台相关联,系统将要求您选择感兴趣的平台。

接下来,就是定义分组,点击“Define groups”处对组别进行定义。(差异分析是分析组与组之间基因表达的差异)。

定义组别,点击enter键保存分组。在分组框内分别输入各组的名称,此处创建了两个组—— egfp 组和 ascl1 组。

把相应的样本归属到不同组别中。直接选中相应的样本,点击对应的组别即可。选下方ascl1组和egfp 组的样本。

组完成后,设置分析参数,平台最多可以进行5个比较组的分析。

然后点击下方Analyze分析即可,需要等待一段时间后,即可得到差异分析的结果和图。

4.结果解读

图上半部分是我们得到的差异分析的火山图等,下半部分是差异分析结果的表格。

图像内容解读:

生成的结果图中依次为:火山图、均值差图(MD 图)、UMAP 图、维恩图、箱线图、表达密度图、直方图(p 值调整后)、qq 图、均值方差趋势图。

此处以火山图为例进行详细说明。

火山图:火山图显示统计显着性(-log10 P 值)与震级变化(log2 倍变化),可用于可视化差异表达基因。单击“Explore and download”链接以转到交互式图。可以将鼠标悬停在数据点上以查看单个基因注释。突出显示的基因 在默认调整后的 p 值截止值 0.05 下显着差异表示 (红色 = 上调,蓝色 = 下调)。

我们得到的结果为什么没有显著差异的基因呢?

可以在“Options”选项卡中更改校正方法和显著性截止值等,来进行重写分析。

表格内容解读:

logFC:变化倍数的对数值,正值=上调,负值=下调;

PValue:统计学显著性,越小越可靠;

Adjusted P value:多重检验校正后的P值,更严谨;

B列:logFC排序后的排名,方便可视化选TOP基因。

结果解读详情查看:https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html#interpret

希望通过今天的介绍,您已经对GEO2R有了初步的了解。如果您是一名生物学研究者或者对基因表达分析感兴趣,不妨亲自尝试一下这个工具吧!如果在使用过程中有任何疑问或心得想要分享,欢迎留言与我们交流。

【免责声明】发布内容来源于互联网、业内人士投稿以及微信公众号等公开资源,我们对文中观点持中立态度,文中观点不代表本平台的立场。所有文章仅供读者参考和交流使用。转载的文章版权归原作者所有,如有侵权行为,请及时与我们联系以便删除。

<END>