首席数据官

Hi, 请登录

GEO和TCGA数据挖掘生物信息文章解读(宫颈癌) TCGA GEO

今天我们介绍一篇稍高分数的文章基因表达数据分析,来看一下生信挖掘文章如何发更高档次的杂志。这篇文章是利用GEO和TCGA数据挖掘宫颈癌预后相关的关键基因,2019年发表在Journal of Cellular Physiology 影响因子:4.52左右。

基因表达数据分析_基因原核表达_甲酸脱氢酶基因的克隆表达及重组菌的高密度培养

1.芯片数据差异基因及注释分析结果

作者在GEO数据库中找到宫颈癌相关的基因芯片数据:GSE63514,其中,包含28个宫颈癌样品和24个正常样本的基因芯片表达数据,通过差异分析共发现:1907个差异基因(944 up, 963 down)。作者利用火山图展示差异基因结果,其中差异最大的top200个基因绘制热图(如下图)。

甲酸脱氢酶基因的克隆表达及重组菌的高密度培养_基因原核表达_基因表达数据分析

2.差异基因蛋白互作网络分析PPI分析

将差异基因提交到STRING蛋白互作数据库,构建基因互作网络,利用cytoscape软件中的MCODE插件筛选出三个关键子网络。把这些子网络中的基因进行GO注释;

基因原核表达_甲酸脱氢酶基因的克隆表达及重组菌的高密度培养_基因表达数据分析

3.针对差异基因构建共表达网络

利用R语言中的WGCNA包,根据差异基因的表达量信息构建共表达网络,作者获得了4个共表达模块,其中蓝色模块与宫颈癌正相关,棕色模块与宫颈癌负相关(下图c),因此作者在这两个模块中挑选hub 基因用于后续分析。

甲酸脱氢酶基因的克隆表达及重组菌的高密度培养_基因原核表达_基因表达数据分析

4. 从hub基因中筛选预后相关基因

通过WGCNA共表达网络分析,作者共挑选出116个关键hub基因。然后,利用TCGA中宫颈癌表达数据以及临床数据,通过生存分析挖掘与预后相关的关键基因。具体方法是用Cox多因素回归分析筛选与疾病显著相关的基因,最终发现SCNN1B, ANLN, APOC1, CNTLN, and TEX30 五个基因具有显著的预后相关性,并构建预后风险模型:

过风险模型可将病人分成高风险和低风险两组,生存分析发现两组具有明显的差异(下图a)。然后针对模型的准确性进行评估,ROC曲线中AUC值达到0.719,说明这个预测模型在5年生存期内预后表现非常好。

基因表达数据分析_基因原核表达_甲酸脱氢酶基因的克隆表达及重组菌的高密度培养

5.甲基化数据筛选EPHX2和RMI2

作者再次对前面分析出的hub基因进行分析,利用GEPIA database 数据库筛选出与生存率相关的候选基因, 作者发现基因RMI2和EPHX2在患者中表达量越高患者生存时间会越长基因表达数据分析,进一步在TCGA数据中的甲基化芯片数据分析发现,这两个基因的表达量与甲基化的水平负相关,生存分析结果表明RMI2基因的高甲基化患者组与低甲基化组生存率生存期存在显著不同(下图cd),但是,EPHX2的甲基化水平与生存率不相关。

基因原核表达_甲酸脱氢酶基因的克隆表达及重组菌的高密度培养_基因表达数据分析

为进一步说明这两个基因与宫颈的预后相关,作者又在两个数据库(FireBrowse and ONCOMINE)中查看他们在正常组织和癌组织中的表达量发现:EPHX2和RMI2在绝大多数癌症当中都表现为低表达;从而证明了这个两个基因如果高表达有益于患者的生存期延长。

总结:

作者能发相对较高分数的文章,与其使用的数据库较多有关系,多个数据相互验证,更加说明自己结果的准确性。使用到的公开数据库包括:GEO数据,TCGA表达数据,TCGA甲基化数据,GEPIA database,以及FireBrowse and ONCOMINE数据库。分析流程总结如下:

基因原核表达_基因表达数据分析_甲酸脱氢酶基因的克隆表达及重组菌的高密度培养

参考文献:/pubmed/31041817

如果你对

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论