首席数据官

Hi, 请登录

大数据时代对统计学的挑战.pdf 5页

第3l卷第1期统计研究V01.31.No.1 2014年1月StatisticalResearchJan.2014大数据时代统计学面临的机遇与挑战耿直内容提要:大数据给统计学带来了机遇、挑战和紧迫感。本文描述大数据的环境,利用大数据的目的和大数据带来的变革;介绍国内外有关大数据的研究动向;探讨大数据包含的信息,大数据的预处理、抽样和分析方法。关键词:大数据;抽样;数据分析方法论中图分类号:C829.2 文献标识码:A文章编号:1002—4565(2014)01—0005—05andinthe of DataforStatisticsOpportunitiesChallengesAgeBigZhiGengdataand forstatistics.ThisdescribestheenvironmentsofAbstract:Bigbringsopportunity,challengesurgency paperof dataandtherevolutiondata.Anditalsointroducestheresearchtrendsfor dataathomebigdata,thegoalbigbybigbigandabroad.Theand of datahavebeendiscussed.information,preprocess,samplinganalysisbigKeyofDatawords:BigData;Sampling;MethodologyAnalysis然和社会规律的历程中,从远古时代的观察加臆想,一、引言古希腊时代的观察加理性推理,文艺复兴时代的试在人类利用观察认知自然的方法论发展的历程验加理性推理,直到现代的抽样加统计模型。

中,最初神学、哲学和科学合为一体,巫术、占星术和当今时代,二方面人们在主动地获取数据。各 宗教是哲学和科学的前身。人类旧石器期用神学解个科学领域都在大量地获取数据,自然科学领域收 释自然,根据蛙鸣预测下雨,用巫术和占星术祈祷、集着从宏观的天文数据到微观的基因数据,经济、金 预测和干预自然。中国古代利用阴阳太极图和八卦融和人文社会科学收集着大量的观察和调查数据。 图作为思辨模型,分析和解释自然和人文社会的现一些人们在通宵达旦地制造和收集数据,他们相信 象。古希腊文明孕育了演绎逻辑、归纳逻辑。文艺这些数据会对别人有用。也有一些人们脱离了实验 复兴前后哲学家提出观察和试验的方法,培根(F 室,仅依靠网络数据从事研究。另一方面人们在被 Bacon,1620,新工具)提出通过观察实验,运用三动地囤积数据。随着计算机互联网、搜索引擎、电子 表法:存在与具有表、差异表、程度表。穆勒(JS 商务、多种传感器和多媒体技术的发展和广泛使用, Mill,1843,逻辑体系)提出归纳四法:求同法、求异各种形式的数据如江河流水般地涌来。当今数据的 法、共变法、剩余法。在统计方法论的发展中,贝叶获取和规模发生了根本的变化,统计学面临着新的 斯(TBayes,1764)提出逆概率方法,利用观察结果机遇和挑战,需要在方法论上有所突破。

推断事件的概率。高尔顿(FGahon,1886)将变量本文在第二部分描述大数据的形式和环境,以 间的相关关系进行了形式化,提出了相关系数,进一及利用大数据的目的;第三部分描述大数据带来的 步在相关性的基础上提出了回归预测的方法。皮尔变革;第四部分介绍国内外有关大数据的研究动向; 逊(KPerson,1900)提出了拟合优度检验的方法,使第五部分探讨大数据的信息问题;第六部分介绍大 得人们能够利用概率度量观测现象与科学假说的拟 合程度。在此后的一个多世纪中统计方法有了突飞+本文获国家自然科学基金项目“因果推断的统计方法”(批 猛进的发展,被广泛地应用到自然科学、经济金融和准和“生物统计”(批准的资助。 人文社会科学的各个领域。在人类利用观察探索自本文为第十七次全国统计科学讨论会特邀论文。 万方数据·6·统计研究2014年1月 数据需要的预处理、抽样和分析方法,特别地介绍了术还不足以测试和分析这些资源,期待着今后更先 网络图模型对大数据分析的潜在用途;最后一部分进的测试技术。大数据就如同自然和社会的血液那 是结束语,讨论大数据给统计学带来了机遇、挑战和样记录着社会的现状和发展过程。

紧迫感。17世纪望远镜和显微镜的发明使人类看到了以前从来没有看到过的宇宙空间和微生物,扩大了二、大数据及其目的人类对自然的认识。大数据就像“望眼镜”和“显微狭义地讲,大数据是一个大样本和高维变量的镜”那样,使得人们能够通过数据观察分析丰富的 数据集合。针对样本大的问题,统计学可以采用抽自然、经济、社会的现象。借助互联网数据,可以及 样减少样本量,达到需要的精度。关于维数高的问时了解疾病疫情、科学动态、社会动态。谷歌借助频 题,需要变量选择、降维、压缩、分解。但认知高维小繁检索词条能及时判断流感从哪传播,哪些人可能 样本存在本质的困难。广义地讲,大数据涵盖多学感染了流感MJ。大数据将形成自然和人文社会的 科领域、多源、混合的数据,自然科学、人文社会、经历史长河,不但能用于探索当代的科学问题,将来可以用于研究人们食用转基因食品对子孙后代的影响 济学、通讯、网络、商业和娱乐等各领域的数据集相等追踪研究问题,为未来留下现今的历史资料。 互重叠连成了一片数据的海洋。各学科之间数据融 合和贯通,学科的边界已重叠和模糊。大数据涉及三、大数据带来的变革 各种数据类型,包括文本与语言、录像与图像、时空、大数据给我们的时代带来了变革。

目前,人们 网络与图形。我认为当代的大数据不仅数据量大,习惯于根据“研究问题”来驱动“收集数据”。今后, 还包括多种类型数据和大量数据项目集的覆盖大数据到处可得,人们将会用“数据”驱动“研究问 重叠。题”。就像我们出远门前常常查询目的地的天气、大部分传统的统计方法只适合分析单个计算机交通和宾馆那样,未来人们在研究和决策前将会通 存储的数据。而目前大数据的环境包括了旧o:过查询数据做决定。目前已经有科学家开始使用软1.数据流环境:数据快速不断涌来,现有存储件搜索和汇总已发表论文中的成果。古希腊文明时 设备和计算能力难以应付这种洪水般的数据流;代哲学家是百科全书式的人物,文艺复兴以来学科2.磁盘存储环境:数据已不能完全存储在内存的分裂和细化产生了单一学科的专家。大数据时 中,需要硬盘存储;代,将可能再次出现百科全书式的人物。大数据将3.分布存储环境:数据分布存储在多个计算减弱专家在各个领域的影响,甚至导致专家的消 机中;亡∞1。例如目前已经有很多统计学家、物理学家和4.多线条环境:数据存储在一个计算机中,多计算机专家凭着他们对数据的敏锐和处理能力进入 个处理器共享内存。

了生命科学领域。假若我们有了成千上万本中文书Data大数据的目的是将数据转化为知识(Big和它们的阿拉伯语译本,即使我们不懂阿拉伯语,我 toKnowledge,BD2K),探索数据的产生机制,进行们也能采用匹配文本的方法将中文翻译成阿拉伯 预测和制定政策旧’6’7|。把信息转变为有用的知识 语。谷歌机器翻译团队并不会说他们翻译出的语 还需漫长的时间∽J。“预测”不同于“制定政策”。 言∞-。大数据中包含有各种不同目的的数据集,综 一个儿童的鞋子越大,可以预测他掌握的词汇量越合利用它们可以做出原来目的之外的意外成果。例 多;但是,制定政策强制他穿大鞋子并不能提高他的如,将医院病历数据与信用卡消费数据结合,我们能 词汇量。发现食品与健康的相关关系,指导人们进行健康饮进一步,大数据有记录保存自然与社会现状的食。假若再加上手机和GPS等数据,还能随时对人 作用。现在有些人收集着大量数据,尽管他们还不们进行体检,指导健身,减少猝死,帮助医生诊断疾 清楚如何分析这些数据,但是他们相信需要保存现病等,应用大数据可以设想的用途不计其数。 今社会和经济高速发展的过程,期待着今后分析和四、大数据的研究动向 解释这段历史。

数据科学与大数据技术_数据科学与大数据技术专业_信号与噪声:大数据时代预测的科学与艺术 pdf

还有些人将百岁老人的血液和其他 各种生物标本等存放在冰箱里,他们认为当今的技美国科学院全国研究理事会的“大数据分析委 万方数据 第31卷第1期耿直:大数据时代统计学面临的机遇与挑战· 7 · 员会旧1提出了大数据的挑战问题:处理高度分布的 -病人和使用互联网的人不能代表研究总体。大数据 数据资源,追踪数据的来源,核实数据,处理样本偏难免存在不响应和缺失数据,有些数据是随机缺失 倚和异质性,处理不同格式和结构的数据,开发并行的、非随机缺失的,因为敏感问题或隐私问题而缺失 和分布式算法,数据的完整性、安全性、一体化和共的。不同研究收集不同的、有重叠变量的数据集。例 享,开发大数据的可视化方法和可扩展算法,处理实如:经济、保险、社会、医学、生物、化学等研究的问题 时分析和决策制定。美国国家卫生研究院(NIH)"1不同,收集数据的变量集合不同(x,Y,z)、(x,Y, 提出将数据转换为知识(BD2K)的使命,设立生物U,V)等,但是它们也许有共同感兴趣的变量交集。 医学大数据研究中心基金。另外,来自观察的数据和来自试验的数据具有在我国,科技部组织召开了两次香山会议:2012 不同的信息信号与噪声:大数据时代预测的科学与艺术 pdf,不同信息导致不同的认知范围。

数据 年5月“大数据科学与工程”,2013年5月“数据科本身含有的信息是有边界的,决定了数据分析解释 学与大数据的科学原理及发展前景”;设立了大数的范围。模型只是数据信息的精练,不能向外延展 据的“973”专项研究计划。国家自然科学基金委 数据的信息。利用模型进行超出数据信息之外的推 2013年3月组织了双清论坛“大数据技术与应用中断,需要额外的假定,而这些假定不能被数据证伪。 的挑战性科学问题”,国家自然科学基金委的数理六、大数据的处理、抽样与分析 学部、信息学部、管理学部都计划设立大数据的重大 项目和重点项目群,国家社科基金计划设立大数据【一)数据的预处理 的重大项目。另外,业界、咨询公司和投资商都在寻大数据的预处理包括数据清洗、不完全数据填 找大数据的机会。补、数据纠偏与矫正。利用随机抽样数据矫正杂乱大数据分析的方法研究超出了单一学科领域,的、非标准的数据源。统计机构的数据是经过严格 需多学科联合。统计学家需要关注计算机资源和实抽样设计获取的,具有总体的代表性和系统误差小 时决策。计算机学家需要了解统计推断和算法的复的优势,但是数据获取和更新的周期长,尽管调查项 杂性。另外,利用大数据还需要相关领域专家的专目有代表性,但难以无所不包。

而互联网数据的获 业知识。取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对五、大数据的信息和问题互联网数据进行矫正,将互联网数据作为补充资源大数据是多源异质的、覆盖不同范围的数据。对统计机构的数据进行实时更新,也许是解决问题 为了融合各种数据,需要对数据来源、数据的获取方的一个思路。研究利用多源数据的重叠关系整合多 式和数据描述进行形式化,以支撑数据分析。大数数据库资源的方法,多种专题(panels)的数据可以 据来自多种渠道,存在抽样偏倚、随机的和非随机的相互联合,实现单一专题数据不能完成的目标。 误差、无意的和有意的错误。数据收集的准则与数(二)大数据环境的抽样 据分析和决策的准则不相符合,有些数据不是原始大数据的抽样方法有待研究¨1。“样本”不必 数据,而是推断的结果(如填补的缺失数据),数据 使用所有“数据”,不管锅有多大,只要充分搅匀,品 的循环使用导致偏差和噪音被放大。数据量大不一尝一小勺就知道其滋味。针对大数据流环境,需要 定有用的信息多,大量的含偏差数据甚至会破坏信探索从源源不断的数据流中抽取足以满足统计目的 息。应意识到分析大数据也许会得到虚假知识,而和精度的样本。

需要研究新的适应性、序贯性和动 自己却不知情。在大数据环境下,收集数据的人也 态的抽样方法。根据已获得的样本逐步调整感兴趣 许不清楚未来使用数据的人要做什么;使用数据建的调查项目和抽样对象,使得最近频繁出现的“热 模的人也许不清楚数据是如何得到的;使用模型的门”数据,也是感兴趣的数据进入样本。建立数据 人也许不知道模型是从什么数据得出来的。因此,流的缓冲区信号与噪声:大数据时代预测的科学与艺术 pdf,记录新发生数据的频数,动态调整不在 难免人们会根据自己的意图过分地解释模型,超出样本中的数据进入样本的概率。对于罕见案例,如 了原始数据所包含的信息范围。果采用简单随机抽样将会抽到很少的案例和过多的获取的数据也可能存在选择偏倚,如医院就诊的非案例数据。需要研究大数据的案例抽样方法 万方数据· 8·统计研究2014年1月 (Case·basedsampling)。探索基于事件的抽样方法不必经过整合多数据库,直接利用局部数据进行推 (Event-based断和各推断结果传播的方法。另一方面,利用统计sampling)。设置信号强度门槛值,仅 抽样超过门槛值的数据。利用其他各种抽样技术,性质无信息损失地分解和压缩大数据。 例如:捕获一再捕获,不等概率抽样,将注意力放到在多源和多专题的数据库环境,各个数据集的 总体中难以观测到的部分。

在大数据环境中采用非获取条件不同,项目不同又有所重叠。在这种情况 随机抽样方法,如滚雪球方法,从种子开始逐步扩大下,一种分析方法是分别利用各个数据集得到各自 样本。研究对社会关系网络和图的抽样方法,从随的统计结论,然后整合来自这些数据集的统计结论, 机种子出发,不断加入新种子,了解网络性质和结如荟萃分析方法。我们曾提出“中间变量悖论”,指 构。需要研究发现稀疏信号的方法和压缩感知方出统计结论不具备传递性。1。。例如,变量A对变量 法。成组检测是发现稀疏信号的一个特别方法。例B有正作用,并且变量B对变量C有正作用,但是 如美国1943年对新兵验血检查梅毒感染时,由于梅可能变量A对变量C有负作用。为了避免“中间变 毒是罕见疾病,采用了将一组人群的血液混合在一量悖论”的现象发生,可以先整合数据,再利用整合 起进行检测的高效快捷方法。的数据进行推断。我们提出了判断已有的各种条件(三)大数据的分析与整合数据集是否能识别所有变量联合分布的算法"-。针对大数据的高维问题,需要研究降维和分解例如,有5个数据库,包含的变量的模式为[D,E,FI 的方法。探讨压缩大数据的方法,直接对压缩的数 据核进行传输、运算和操作。

数据科学与大数据技术_信号与噪声:大数据时代预测的科学与艺术 pdf_数据科学与大数据技术专业

除了常规的统计分析 方法,包括高维矩阵、降维方法、变量选择之外,需要F]表示在给定变量F条件下获得的变量D和E的stream 研究大数据的实时分析、数据流算法(data数据。根据我们的算法可以判断由这些条件数据库 computing)。不用保存数据,仅扫描一遍数据的数可以识别和估计所有变量[A,B,C,D,E,F,G]的联 据流算法,考虑计算机内存和外存的数据传送问题、合分布。。 分布数据和并行计算的方法。如何无信息损失或无(四)网络图模型 统计信息损失地分解大数据集,独立并行地在分布网络图模型用图的结构描述高维变量之间的相 计算机环境进行推断,各个计算机的中间计算结果互关系,包括无向图概率模型、贝叶斯网络、因果网 能相互联系沟通,构造全局统计结果。研究多个数络等旧J。网络图模型是处理和分析高维大数据和 据资源的融合算法。研究利用数据流寻找模型变化多源数据库的有效工具,目前已经有丰富的图模型 时间点的动态变化模型。的软件系统,例如MSBN,BN针对多种不同数据库的环境,利用关系数据库 技术,根据关键字(例如,身份证)将很多小数据库 或无一条无方向边来描述变量之间的关联关系和条 连接成一个大数据库。

另一方面,能无信息损失地件独立性,可以将高维变量的统计推断问题(例如 将大数据库拆分为多个小数据库。组合多数据库的参数估计和假设检验)分解为低维变量的统计推断 不同数据集合,可以做出有创意的东西。丹麦有一问题。贝叶斯网络是一个有向无环图,用于计算大 个手机用户的数据库,共358403人。另一个记录了网络中信息的收集和传播。在一个由众多变量作为 癌症患者的数据库,有10729名中枢神经系统患者结点的大网络中,当收集到一部分变量的信息后,不 的信息。将两个数据库结合,研究手机与癌症之间用计算高维联合概率,而是采用网络传播信息流的 的关系。发现使用手机和癌症之间不存在任何关方法有效地计算目标变量的后验概率。Pearl(2011 系,其结果发表在2011年的《英国医学杂志》∽1。 年图灵奖获得者)提出因果网络,采用有向图刻画在大数据环境,很多数据集不再有标识个体的变量间的因果关系,利用数据学习网络结构,发现产 关键字,传统的关系数据库连接方法不再适用,需要生数据的机制和因果关系网络¨。。 探讨利用数据库之间的重叠项目来结合不同的数据网络图模型可以用于分解大数据集合,处理多 库,利用变量间的条件独立性整合多个不同变量集源数据库,利用局部数据,进行并行计算。

网络图模 的数据为一个完整变量集的大数据库的方法。探索型还可以引入隐变量简化复杂的关联关系。利用关 万方数据 第31卷第1期耿直:大数据时代统计学面临的机遇与挑战· 9 · 联网络图进行基于关联关系的预测,例如,朴素贝叶该固守传统数据的环境,必须积极学习新生事物,适 斯分类器和贝叶斯网络分类器。利用因果网络图可应新的大数据环境,扩展统计学的应用领域,创造出 以进行基于因果关系的预测和政策制定。迎合大数据的新统计方法,“机遇”与“挑战”并存。我们提出“盲人摸象”方法,利用多个不完全数 据库学习整体网络结构的算法¨o][11【。首先分别利 参考文献for end[1]ChenZ,JiaJ.Criteria 用各个数据库学习各自的局部网络结构,然后将这H,Gengsurrogatepoints[J].JStatistSoc 69:919—932. 些局部结构相互交流配合,最终整合一个全局的网RoyalSer,2007,Bonthe ofMassiveDataetin[2]CommitteeAnal

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论