首席数据官

Hi, 请登录

基因芯片数据分析

基因芯片数据分析图片

会计学基因芯片数据分析第1页/共52页1、芯片方阵的构建:芯片制备是先将玻璃片或硅片进行表面处理,然后使DNA片断或蛋白质分子等生物分子按顺序排列在芯片上的过程。2、样品的制备:生物样品往往是非常复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应。可将样品进行处理,获取其中的蛋白质或DNA、RNA,并且加以标记,以提高检测的灵敏度。3、生物分子反应:生物分子反应为芯片上的生物分子之间的反应,是芯片检测的关键一步。通过选择合适的反应条件使生物分子间反应处于最佳状态中,减少生物分子之间的错配率。4、信号检测:常用的芯片信号检测方法是将芯片置入芯片扫描仪中,进行信号检测,以获得有关生物学信息。第1页/共52页第2页/共52页将样品中的DNA/RNA标上荧光标记,则可以定量检验基因的表达水平碱基互补基因芯片的密度:100-1millionDNA探针/1cm2第2页/共52页第3页/共52页A.按技术手段、探针类型分类1.Shortoligonucleotidearrays(Affymetrix)2.cDNAarrays(Brown/Botstein)3.Longoligoarrays(Agilent)4.Serialanalysisofgeneexpression(SAGE)B.按实验要求分类1.单通道(SingleChannel):一次检验一种状态2.双通道(DualChannel):差异表达基因的筛选基因芯片技术的类型第3页/共52页第4页/共52页(1).cDNAmicroarrays:将500~5,000bp的cDNA固载到介质上(例如玻璃)。

Stanford开发设计,通常为双通道,常用于差异表达基因的筛选。(2).DNAchips:将寡核苷酸探针(20~80-mer)合成到芯片上。Affymetrix开发设计,通常为单通道,一次检验一种状态。两类主流的DNA芯片第4页/共52页第5页/共52页载玻片cDNAclones(1)cDNAmicroarrays第5页/共52页第6页/共52页Treatment/controlNormal/tumortissueBrain/liver…荧光标记的靶基因差异表达基因的筛选第6页/共52页第7页/共52页(2)DNAchips第7页/共52页第8页/共52页探针长度:25bp每个基因:22-40个探针PerfectMatch(PM)vs.MisMatch(MM)probesDNAchips的制备:AffymetrixphotolitographyA.选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物B.采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷

基因芯片数据分析图片1

酸探针;或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列,由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量点样于带正电荷的尼龙膜或硅片等相应位置上C.紫外线交联固定后即得到DNA微阵列或芯片第8页/共52页第9页/共52页1.基因芯片(Microarray)简介2.图像处理与数据标准篮球课程标准儿科分级护理标准分级护理细化标准党员活动室建设尘肺标准片化3.基因芯片的数据分析第9页/共52页第10页/共52页单通道基因芯片white(veryhigh)red(high)Yellow(alittlehigh)green(medium)blue(low)black(no)第10页/共52页第11页/共52页植根区域生长法(SRG)FixedCircle栅格化:确定点的位置图象分割(Segmentation):将点从背景中分离出来。抽提亮度:各个像素亮度的平均值(mean)或中位数(median)背景校正:局部或全局图像处理第11页/共52页第12页/共52页对于每个点,可以计算Redintensity=Rfg-Rbgfg=foreground,bg=background,andGreenintensity=Gfg-Gbgandcombinetheminthelog(base2)ratioLog2(Redintensity/Greenintensity)Greenintensity(medium):~1基因表达量的定量第12页/共52页第13页/共52页1.图像分析2.扫描3.DNA杂交过程(温度、时间、混合均匀程度等)4.探针的标记5.RNA的抽提6.加样7.其他logsignalintensitylogRNAabundance系统误差随机误差Microarray:误差的来源第13页/共52页第14页/共52页运用哪些基因进行标准化处理芯片上大部分基因(假设芯片上大部分基因在不同条件下表达量相同)不同条件间稳定表达的基因(如持家基因)控制序列(spikedcontrol)合成DNA序列或外源的DNA序列,在不同条件下表达水平相同。

基因芯片数据分析_大数据及数据可视化分析_高血压基因检测芯片

第14页/共52页第15页/共52页beforeafter数据标准化目的是消除系统偏差引起的高相关性,同时保留由真正生物学原因引起的基因表达水平高相关性。第15页/共52页第16页/共52页1.基因芯片(Microarray)简介2.图像处理与数据标准化3.基因芯片的数据分析第16页/共52页第17页/共52页(1)差异表达基因的分析(2)基因共表达分析(3)基因表达数据的聚类(4)基因表达数据的分类(5)MaptoGO(6)Generegulatorynetwork第17页/共52页第18页/共52页差异表达基因的分析:寻找处理

基因芯片数据分析图片2

前后表达上调或者下调的基因Arethetreatmentsdifferent?使用标准的统计学方法检验(t-testorf-test),发现统计显著性差异表达的基因,如果处理本身并不显著,则结果无意义第18页/共52页第19页/共52页Foldchange,一般2-foldincreaseordecrease(平行实验的样本较少)p-value(平行实验的样本较多)under-expressedover-expressed/2/2统计学分析第19页/共52页第20页/共52页T-test:学生分布Excel函数:TTEST(array1,array2,tails,type)Array1为第一个数据集Array2为第二个数据集Tails指示分布曲线的尾数。如果tails=1,函数TTEST使用单尾分布。如果tails=2,函数TTEST使用双尾分布Type为t检验的类型1成对2等方差双样本检验3异方差双样本检验P-value:学生分布第20页/共52页第21页/共52页一般选择双尾分布异方差双样本检验Excel函数:=TTEST(B2:D2,E2:G2,2,3)C:对照组;T:实验组C1C2C3T1T2T3TTESTGene11.3221.6761.4573.5264.2343.8790.001988P-value:学生分布第21页/共52页第22页/共52页在N个不同的条件下(时间序列的芯片数据),考察基因X和Y的表达是否相似。

Gene1#是否与Gene2#、Gene3#和Gene4#共表达?共表达:正相关:相似的表达谱,可能存在正关联负相关:相反的表达谱,可能存在负调控EisenMB,etal.,(1998)PNAS95:14863-14868GeneNameT1T2T3T4T5T6Gene1#123456Gene2#0550610Gene3#6610101Gene4#5451670998第22页/共52页第23页/共52页r~[-1,1]r~1,正相关r~-1,负相关Gene1#Gene2#Gene3#Gene1#Gene2#0.996368Gene3#-0.99988-0.99611Gene4#0.2452920.254855-0.2395结论:Gene1#与Gene2#表达正相关,与Gene3#表达负相关,与Gene4#无关联基因相关性分析:Pearson相关系数Excel函数:=PEARSON(array1,array2)第23页/共52页第24页/共52页将表达谱相似的基因聚类在一起发现新的模式聚类方法:A.Hierarchi

基因芯片数据分析图片3

高血压基因检测芯片_基因芯片数据分析_大数据及数据可视化分析

calclusteringB.K-meansclustering第24页/共52页第25页/共52页用树状结构来表征基因表达之间的相似性/相关性Object4109459853DistancematrixDistanceCluster01,2,3,4,52(1,2),3,4,53(1,2),3,(4,5)4(1,2),(3,4,5)5(1,2,3,4,5)A.Hierarchicalclustering第25页/共52页第26页/共52页对数据进行聚类必须给定结果分成多少类假设该例中,指定为聚成5类B:K-meansclustering第26页/共52页第27页/共52页软件:Cluster3.0,MichaelEissen,Stanford最终结果:所有基因芯片数据被聚成5类B:K-meansclustering第27页/共52页第28页/共52页根据基因表达的数据将样本分成两类或多类督导学习(supervisedlearning):根据发现的模式进行预测应用:癌症vs.正常组织癌症的亚型、不同阶段(良性的vs.恶性的)对药物的敏感性(tamoxifenforbreastcancer)第28页/共52页第29页/共52页通过基因芯片,找到了一批“interesting”的基因生物学功能上是否存在关联?基因本体(GeneOntology,GO):GO数据库把基因的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。第29页/共52页第30页/共52页研究者可以通过GO分类号将分类与具体基因联系起来,从而对基因的功能进行描述。在芯片的数据分析中基因芯片数据分析,研究者可以找出哪些变化基因属于一个共同的GO功能分支,并用统计学方法检定结果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。比较著名的基于GO分类法的芯片数据分析网络平台有七十多个:NameInternetSiteOnto-Tools://burgundy.cmmt.ubc.ca/GOToolBox/GOstat://www.medinfopoli.polimi.it/GFINDer/EASE第30页/共52页第31页/共52页第31页/共52页第32页/共52页早期观点:表达谱相似的基因可能存在功能上的关联,可能有相互作用…(直接

基因芯片数据分析图片4

作用)。当前的观点:表达谱相似的基因可能具有共同的调控元件(基因UTR区域存在共同的Promotor),能够被同一个上游因子所调控。第32页/共52页第33页/共52页基因转录调控网络基因转录调控网络是以转录因子和受调控基因作为节点,以调控关系作为边的有向网络。第33页/共52页第34页/共52页基因转录调控数据库1.TRANSFAC数据库数据库是关于转录因子、它们在基因组上的结合位点的数据库。第34页/共52页第35页/共52页2.TRRD数据库数据库是在不断积累的真核生物基因调控区结构-功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构-功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。第35页/共52页第36页/共52页3.RegulonDB数据库数据库是一个提供转录起始和调控网络信息的数据库。第36页/共52页第37页/共52页蛋白质互作网络第37页/共52页第38页/共52页代谢网络和信号传导网络代谢通路是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应。代谢网络是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络。信号传导是指细胞将一种类型的生物信号或刺激转换为其它生物信号最终激活细胞反应的过程。信号传导网络是指参与信号传导通路的分子和酶以及其间所发生的

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论