首席数据官

Hi, 请登录

基因芯片数据处理流程与分析介绍讲述.PDF 4页

科技 science topics專題基因芯片数据处理流程与分析介绍当人类基因体定序计划的重要里程碑完成之要获得有意义的分析结果,恐怕不能如泼墨画 后,生命科学正式迈入了一个后基因体时代,基因般洒脱随兴所致。从 raw data 取得后,需要一连贯 芯片 (microarray) 的出现让研究人员得以宏观的的分析流程 (图一),经过许多统计方法,才能条清 视野来探讨分子机转。不过分析是相当复杂的学理明的将 raw data 整理出一初步的分析数据,当处 问,正因为基因芯片成千上万的信息使得分析数据理到取得实验组除以对照组的对数值后 (log2 量庞大,更需要应用到生物统计与生物信息相关软ratio) ,大约完成初步的统计工作,可进展到下一步 件的协助。要取得一完整的数据结果,除了前端的的进阶分析阶段。 实验设计与操作的无暇外,如何以精确的分析取得 可信数据,运筹帷幄于方寸之间,更是画龙点睛的 关键。 基因芯片的应用基因芯片可以同时针对生物体内数以千计的 基因进行表现量分析,对于科学研究者而言,不论 是细胞的生命周期、生化调控路径、蛋白质交互作 用关系等等研究,或是药物研发中对于药物作用目 标基因的筛选,到临床的疾病诊断预测,都为基因 芯片可以发挥功用的范畴。

基因表现图谱抓取了时间点当下所有的动态 基因表现情形,将所有的探针所代表的基因与荧光 强度转换成基本数据 (raw data) 后,仿如尚未解密 前的达文西密码,隐藏的奥秘由丝丝的线索串联绵图一、整体分析流程。基本上 raw data 取得后,将经过从最上 延,有待专家抽丝剥茧,如剥洋葱般从外而内层层到下的一连串分析流程。(1) Rosetta 软件会透过统计的 model, 解析出数千数万数据下的隐晦含义。给予不同的权重来评估数据的可信度,譬如一些实验操作的误差或是样品制备与处理上的瑕疵等,可已经过 Rosetta errormodel 的修正而提高数据的可信值;(2) 移除重复出现的探针数 整体分析的概略流程据;(3) 移除 flagged 数据,并以中位数对荧光强度的数据进行1華聯快訊 2011.09科技專題 标准化 (Normalized) 的校正;(4) Pearson correlation coefficient (得到 R 值) 目的在比较技术性重复下的相似性,R 值越高表示两芯片结果越近似。当 R 值超过 0.975,我们才将 此次的实验结果视为可信,才继续后面的分析流程;(5) 将技术 性重复芯片间的数据进行平均,取得一平均之后的数据;(6) 将 实验组除以对照组的荧光表现强度差异数据,取对数值 (log2 ratio) 进行计算。

找寻差异表现基因实验组与对照组比较后的数据,最重要的就是图二、主成分分析 control 组与 treatment 组间的芯片结果。 要找出显著的差异表现基因,因为这些正是条件改用主成分 1 (Comp. 1) 和 2 (Comp. 2) 便可以将两组间的数据 变后而受到调控的目标基因,透过差异表现基因的归纳出显著的各自群落。代表两组各自的结果相近似。 加以分析,背后所隐藏的生物意义才能如拨云见日 般的被发掘出来。一般根据以下两种条件来筛选出差异表现基接着以 Hierarchical Clustering (丛聚法) 搭配 因:(i) 荧光表现强度差异达 2 倍变化 (fold change Pearson correlation 找出各基因彼此间的近似关系。 增加 2 倍或减少2 倍) 的基因。而我们通常会取对如此将 control 组与 treatment 组的差异表现基因 数 (log2) 来做 fold change 数值的转换,所以看的做分群,划分出 treatment 组经过处理后基因芯片数据分析与,对照 是 log2 ≧ 1 或 ≦-1 的差异表现基因;(ii) 显著control 组而呈现下调 (Down-regulated) 或者上调 值低于 0.05 (p 值

当这两种条件(Up-regulated) 基因群 ( 图三) 。 都符合的情况下所交集出来的基因群,才是显著性 高且稳定的差异表现基因。 进阶分析案例以目前华联生技的最新服务报告里,将主动提 供下列几种进阶分析服务于报告中供您使用参考。首先,为确认 control 组与 treatment 组各自 芯片实验间的质量一致性,先以主成分分析 (Principle Component Analysis, PCA) 将芯片数万点 的信息简化成几个低维度的分析数据,以归纳出彼 此的群落分布,藉以比对各自的近似关系。从结果 可以看到 control 组与 treatment 组经过主成分分 析后,显示出两组各自间的结果是相近似的 ( 图 二) ,代表这次实验的设计与芯片结果是可信的,值 得往下做进阶分析。图三、丛聚法分析将差异表现基因做分群。以 treatment 组2華聯快訊 2011.09科技專題 (T-1、T-2、T-3、T-4) 对应 control 组 (C-1、C-2、C-3、C-4) 后 我们所提供的服务报告里,会提供最显着的几 的分析下,基因表现呈现下调 (Down-regulated) 与上调个讯息传递路径及所有参与其中的差异表现基因,(Up-regulated) 的分类结果。

以 Excel 文件将相关信息做整合基因芯片数据分析与,让客户能简单明了的撷取所需信息加以应用。此外,我们也可以从GSEA 所分析的结果,利用其他的图表数据库,如:进阶分析服务方面,我们提供 GeneOntology KEGG ( 图五) 、BioCarta 、Signaling gateway 、 (GO, 基因功能分类) 和 Pathways analysis (讯息传 GenMAPP (请见参考文献) 等等,画出图像化的链 递路径分析) 的进阶分析。于 GO 的分析,在于将接图表。 差异表现基因群做功能上的分类,可依功能分类推 敲出所处的情况在何种状态,譬如:细胞增生、受 损、凋亡或发炎等等。而讯息传递路径分析则从基 因上下游的牵连性来探讨受调控后的影响关系。我们使用的是 Gene Set Enrichment Analysis (GSEA) 工具,将差异表现基因导入后,再选择所 需要的分析服务,可获取所需的相关信息 ( 图四) 。图五、讯息传递路径分析。利用 GSEA 的分析,可利用 KEGG数据库,制作出讯息传递路径相连关系的图表。 图四、GSEA 提供的进阶分析服务。

c2 – 为 pathway analysis 的分析数据库,c5 – 为 GO 分析数据库。挑选出差异表现基因 后,透过 GSEA 分析工具,可依需求选择所要的进阶分析。而 GO 的进阶分析,在于从功能的分门别类里找出整体趋势的走向,如:细胞面临压力的刺激下,一些相关的功能群组会被调控以因应环境的变化,讯息传递路径的进阶分析,帮助研究者探讨调抵抗压力的迫害;当压力过大,细胞调适不过来, 控基因间的上下游关系,除可厘清其脉络以了解完细胞即启动 ”我投降,不玩了!”的自动凋亡机制 整的影响关系;此外,借着交互间的讯息传递网络,(apoptosis),此时可发现 apoptosis 相关的功能群组 像剥洋葱般从外而内的解开网络关联路径,才有机特别显著;若压力的程度再大一些,大到如土石流 会往内更深入找出最重要的上游调控基因,找到这般无力招架,则细胞可能就因而坏死 (necrosis),导 些最关键的基因,才有机会发现药物影响或受外在致细胞碎裂,于是细胞内的物质外露,如细胞介素 环境刺激下影响主要的目标基因。借着目标基因的(cytokine) 等等,造成其他邻近细胞受到影响,便 找寻,有助于新药的开发或者新生物标记基因引起发炎反应,于是从 GO类别可以看到细胞坏死 (biomarker) 的找寻。

或发炎相关的功能群组被大量调控显著增加。3華聯快訊 2011.09科技

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论