从GEO搜索关键字“(gastric cancer) AND "Homo sapiens"[porgn:__txid9606]”,得到胃癌相关的表达谱数据。对这些数据进行过滤,过滤掉没有重复试验的样品。接下来,阅读文献,找出研究正常人和癌症病人,或者癌组织与正常组织的比较的数据。下载这些数据的表达矩阵或CEL文件,用于后续的分析。
(本文分析为原创,转载或引用文中图片请联系楼主,谢谢。数据请勿直接引用。)
注:
Series 序列号
GEO GEO id
Platforms 芯片平台号
Normal 正常样品数目
Tumor 癌症样品数目
Reference 参考文献
对于芯片表达值数据,直接从GEO下载数据,对于没有取log的值,进行取log处理。对于CEL文件,使用affy包读取CEL文件的表达量数据。在同一芯片内,如果一个基因有多个探针,取所有探针的平均值作为基因的表达值。
对于每个实验的数据,我们使用limma进行芯片之间的标准化,差异表达分析(每个实验的limma分析结果保存在01_limma里面)。
每个实验数据做完limma分析之后,根据logFoldChange值对基因进行排序,然后进行Rank分析(adjust Pvalue
通过Rank分析,我们共找到960个差异基因,其中458个上调基因,502个下调基因。
使用pheatmap绘制最上调和最下调的20个基因做热图,得到差异基因的热图。从图中可以看出,上调的基因基本在所有实验中logFC>0,而下调的基因基本在所有的实验中logFC
注:
Name gene symbol
logFC 每个实验差异logFC均值
Pvalue 统计学p值
adjPvalue 校正后的p值
横坐标是geo id,纵坐标是基因名,红色代表logFC>0,绿色代表logFC
从TCGA下载胃癌level3的RNA-seq数据,共xx个正常组织,xx个肿瘤组织。下载的数据是每个样品单个的FPKM文件,我们使用perl语言将所有的样品合并成一个矩阵,便于后续的分析。接下来,我们使用Wilcoxon tests非参数检验对GEO数据库得到差异基因进行验证。
通过TCGA验证,我们共找到749个差异基因,其中320个上调基因,429个下调基因。
注:
Name gene symbol
logFC 每个实验差异logFC均值
Pvalue 统计学p值
adjPvalue 校正后的p值
从TCGA下载生存数据,并将生存数据和差异基因表达数据整合在一起,做接下来的生存分析。使用survival R包进行生存分析并绘制生存曲线,统计检验为log rank检验,过滤条件为Pvalue
图中,横坐标是生存时间,纵坐标是总生存率,红色表达基因高表达组,蓝色代表低表达组。
使用DAVID对目标靶基因进行GO功能富集分析,FDR
图5 GO富集结果
注:
Term 富集的GO
Count 差异基因落在Term的数目
PValue 富集统计学p值
FDR 统计FDR值(false discovery rate)
图3 GO富集柱状图
横坐标是富集在GO的基因数目,纵坐标是富集的GO。颜色代表富集的统计学显著性,越蓝表示富集程度越高。
(本文分析为原创基因表达数据分析,转载或引用上面图片请联系楼主,谢谢。数据请勿直接引用。)
使用KOBAS对差异基因进行KEGG通路富集分析,Corrected P-Value
注:
Term 富集的KEGG
ID KEGG ID
P-Value 富集统计学p值
Corrected P-Value 矫正后的p值
绿色代表通路中的基因,红色代表我们输入的生存相关基因。
(本文分析为原创,转载或引用上面图片请联系楼主,谢谢。数据请勿直接引用。)
使用String软件对生存相关基因构建蛋白互作网络,得到蛋白的相互作用关系。图1是蛋白互作网络图基因表达数据分析,图中圆圈代表蛋白,连线蛋白蛋白之间存在互作关系。使用R软件绘制互作网络邻接节点数目图,图2是每个蛋白的邻接节点数目,邻接节点数目越多,说明该基因位于蛋白互作网络的核心,对整个网络起的作用最关键。由图2
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。