【摘要】大数据时代的到来对社会科学研究产生巨大影响。除“全样本”数据、大数据技术以及数据驱动的知识发现三个方面的直接影响外,大数据还将进一步推动社会科学研究范式三个层面的变革。一是研究路径变革:大数据“数据驱动”模式与当前社会科学“理论假设驱动”模式相结合形成新的研究模式。二是研究手段变革:大数据及相关技术将成为因果发现的强大武器。三是功能变革:预测问题和因果问题将得到同等重视,并将有机统一于有关研究特别是政策研究中。
【关键词】大数据;社会科学研究范式;知识发现;传统社会科学
随着网络的普及和信息技术的发展,人类社会进入大数据时代。尽管“大数据”的定义存在差异,但大数据已深刻影响到社会的各个方面,引起人类生活、工作与思维的大变革。科学研究,特别是社会科学研究同样受到强烈影响。大数据的出现不仅提供了“全样本”数据,还为社会科学研究提供新的研究方法和技术手段。同时,一些观点认为大数据强调重视“相关而非因果”也引起诸多争议,对以因果探究为核心的传统社会科学研究产生冲击。在这种情形下,社会科学研究者该如何看待大数据带来的机遇和挑战?如何利用大数据进行社会科学研究?大数据将如何影响社会科学的研究范式?现有文献对此类问题的研究较少,为此基于对大数据时代社会科学研究面临机遇与挑战的分析,本文探究大数据时代社会科学研究范式变革的方向。
一、大数据时代社会科学研究范式面临变革
“大数据”一词正式出现于1998年《科学》杂志刊登的《大数据的处理程序》一文,此后《自然》杂志2008年出版“大数据”专刊,“大数据”一词得到普遍认可和使用。关于大数据的定义学术界并没有达成共识,由于关注点不同,科技企业、研究学者、数据分析人员和技术实践者对大数据有不同的定义。从狭义上讲,大数据是指数据量的大小超过了传统意义上的尺度,一般的工具难以进行捕捉、存储、管理和分析。[1]该定义仅仅描述了大数据的“大”,没有涉及大数据的其他属性。当前一般认为,大数据的典型属性概括为“4V”,即数据体量大、数据产生速度快、种类多样和价值密度低。
就社会科学研究而言,大数据时代到底为我们带来什么?借鉴Einav&;Hendry的概括,至少有四点很重要[2]。一是数据的实时可得。如互联网上的大量信息是实时的,移动互联网和物联网的发展导致每个人可能随时随地在制造数据。社会科学应充分利用数据的实时性,大大提高研究的时效性。二是可得数据是海量的。正如Mayer-Sch.nberger和Cukier所言,传统统计学处理的主要是样本,而在大数据时代,你能得到的数据可能就是总体本身[3]17。如就个人迁徙而言,手机等随身设备可能将每个个体的移动都记录在案。大数据时代的到来,许多数据贫乏的学科成为数据富集的研究领域,而“社会科学是被‘样本=总体’撼动得最厉害的学科”[3]。大数据提供的“全样本”数据不仅使得许多因数据缺乏而无法开展的研究得以开展,同时也带来新的挑战。大数据其量之大超出一般传统统计软件所能处理的范围,而且解释变量增加会导致高维数据中的“维数灾难”,解决这些问题需要新的分析方法和工具。三是数据的非结构化。大数据的来源和形式都十分多样化,如互联网信息包含文本、图片以及影音等多种形式。这些信息中到底哪些包含我们所需要的信息?社会科学研究如何充分利用数据挖掘技术,将这些非结构化信息转化为统计模型所能利用的形式?这些都是需要解决的问题。四是数据分析的技术手段日新月异。伴随着数据规模的扩大,新的大数据分析技术不断地涌现,机器学习、并行计算等技术的发展和改进加快了大数据的处理速度。社会科学研究如何吸收和利用这些强大的技术手段,使之成为社会科学家工具箱中的利器是未来社会科学家们必须面对的问题。[4]
但是,相对于上述直接影响更为重要的是,我们需要思考大数据时代到底给社会科学基本的研究范式带来哪些影响?社会科学的研究对象为社会,目标在于认识各种社会现象并尽可能地发现关联,而核心在于探究因果关系。正如哈耶克所言“社会科学研究的不是物与物的关系,而是人与物或人与人的关系。它研究人的行为,它的目的是解释许多人的行为所带来的无意的或未经设计的结果。”[5]各种社会现象可视为已发生的不可控试验,其背后存在某种潜在的本质规律或因果关系。考虑到因果联系的普遍性和复杂性,数据作为对不可控试验的特殊描述必须尽可能的丰富,唯此才是更全面、更接近真实的描述。大数据驱动的知识发现已经对传统社会科学认识论和方法论的研究方法产生巨大挑战。Steve Kelling等认为,传统的认识论“以专家为中心”,传统科学方法论的研究依赖于以“专家为中心的参量分析”,其研究中心是理论模型与经验证据的关系[6]。该方法论在大数据时代具有局限性,对单个专家而言大数据分析不可行[6]。而且科学哲学经验——理论这一单线理解模式也难以应对大数据时代的认识论这种新情况[7]。另外,流行的观点认为,大数据分析关注的焦点不再是因果关系,而是相关关系。大数据的支持者认为,“有了足够的数据,数字会自己说话”,因而“相关关系足够了”[8],“大数据时代最惊心动魄的挑战,就是社会将需要从对因果关系的某种痴迷中蜕出”。《连线》杂志主编Anderson甚至认为“数据爆炸导致科学的研究方法落伍了”[8],大数据时代分析和理解世界,只关注数据就足矣,数据分析可揭示一切问题,理论变得可有可无。这一观点撼动了不少社会科学研究者,使他们开始憧憬“传统方法的终结”。此外,不少研究者至今仍然认为大数据虽然不是绝对精确,但由于数据量极大,所以误差必然在可以接受的范围之内。
较之于大数据而言,传统社会科学研究中使用的数据可称之为“小数据”。传统“小数据”方法的缺点是往往采用人工收集数据的方法,成本高昂,数量较小,时效性较差,滞后性严重。但其优点是在严格的统计抽样规范下形成,数据质量相对较好;而且“小数据”通常是根据研究需要有目的获取的,比被动收集的“大数据”具有更强的针对性。因此,对那些具有理论意义和理论突破的研究,小数据可能比大数据更适合[9]。另外,很多时候我们采集到的大数据并非真正的全样本数据,它可能是总体中某一部分的数据,比如就互联网上的在线数据而言,网民并不等同于“公民”的总体。进一步而言,实际上以当代计算机信息技术领域的数据挖掘专家为代表的大数据分析方法和社会科学家们拿手的小数据实证方法代表的是不同的研究范式。前者产生于大数据社会,充分利用信息产生和获取的便捷,基于计算机计算能力的不断增强,直接对海量的大数据进行分析处理,通过数据量之大和计算力之强减少对理论的依赖。后者是在信息收集成本高昂的工业文明时代发展形成的,注重基于已有的理论知识缩小研究范围,以先验的理论假设明确研究方向,依据严格的统计抽样规范收集数据以提高数据质量降低收集成本。在大数据时代来临之际,我们应该在洞察两类不同范式形成的不同机理,深入分析各自优越点和应用场景的基础上,探寻未来社会科学研究的新范式。而本文认为,大数据时代社会科学研究范式的变革至少包括以下三个方面。
二、研究路径变革:“数据驱动”的知识发现
数据驱动的知识发现,是指利用统计学、机器学习等方法从掌握的大数据中提取隐含在数据背后、人们事先不知道,但存在潜在效用、能被人理解的信息和知识的过程。其中,精细的概率模型、统计推理、数据挖掘与机器学习相结合,成为从大数据中提取知识的有力途径。基于数据的知识发现催生了2007年图灵奖获得者吉姆·格雷(Jim Gray)提出的科学研究“第四范式”。他指出,科学发展经历了几千年前的实验科学(主要用于描述自然现象)、几百年前的理论科学(用模型或归纳法进行科学研究)、计算科学(主要模拟复杂现象),而当今“科学世界发生变化,对此毋庸置疑。新的研究范式将首先基于计算机模拟或者仪器捕捉获取数据,然后利用软件处理数据,并在计算机中保存得到的知识或信息。科学家仅在该过程的最后阶段才开始审视他们的数据。这种数据密集型科学的技术和方法是如此不同,应该将其作为科学探索的“第四范式”以区别于计算科学”。[10]
相对于“数据驱动”而言,当前社会科学的主流研究范式可称为“理论假设驱动”。社会科学家进行一项研究时,强调首先要通过广泛的文献调研以了解现有知识体系的前沿边界,然后提出本研究可能给现有知识体系带来的贡献,即研究的基本“问题”所在;然后从该问题出发大数据时代带来的变革,在一定的理论框架和必要的理论推演下提出待实证检验的“新知识”,也即“理论假设”,然后设计统计模型、收集数据,最后利用所得数据验证理论假定并得出结论。这一过程深受波普尔证伪主义的影响,实证研究一般被定位为对理论假设的证伪。此外,理论假设的提出过于依赖于已有理论体系及研究者的知识和观念,致使社会科学的知识发现具有两个明显的特征,即“路径依赖”及对研究者主观观念的“个性依赖”。
可以预见,大数据时代的社会科学研究将充分吸收“数据驱动的知识发现”模式的优势,形成“数据驱动”和“理论假设驱动”相结合的新范式。“数据驱动的知识发现”对社会科学研究产生挑战并将重构研究过程,但这并不意味着理论假设驱动的社会科学研究范式的终结,两者的结合将更好地认识世界。实际上理论假设驱动的研究路径为广大社会科学研究者所接受的重要原因是,其在信息不足条件下带来的高效性。在传统的技术条件下,社会科学研究者搜集信息、处理数据面临着高昂的成本。基于已有知识体系提出理论假设,有助于迅速聚焦研究的问题,而基于核心问题出发收集和处理数据,有利于节约成本。但这种先给出理论假设的作法也往往局限了研究的理论创见,因为选择了某一理论假设就意味着放弃了很多其它的甚至更有价值的理论假设。随着大数据技术的发展,收集和处理数据成本大大下降,研究者可避开现有理论和个人知识的束缚,在先验假设尽可能少、甚至没有任何假设的情况下,通过大范围的数据挖掘发现一些基本的模式,从中提出更重要的研究问题和理论假设,并结合已有理论知识凝练理论假设;然后基于理论假设对数据进行进一步的问题导向、更集中的深度挖掘来验证假设的合理性;如果此时已有数据不能满足假设验证的要求,可进一步收集数据,当然也可以采用传统方法收集小样本数据,以保证假设验证的科学性。因此,大数据时代一项典型社会科学研究的实施过程将包括初步数据挖掘与问题发现、问题聚焦与理论假设确立、深度数据挖掘与假设检验、知识形成与研究结论等环节,而基于数据的知识发现模式及大数据分析技术将深度融合于以上各个环节之中。
值得注意的是,在两类研究路径结合的过程中常会面临一个选择,即应该采用传统的社会科学统计分析方法还是采用大数据方法。我们认为这需要理清两者研究目标的异同、对数据特征的侧重以及技术方法的差别,然后根据具体研究场景予以取舍。从统计分析的一般规律来讲,假设的强度和结论的精确性、稳健性之间存在此消彼长的关系。理论假设越多,统计分析的结论通常越精确,但如果假设不成立,稳健性则越差;反之则反。传统的社会科学统计分析方法和大数据方法反映了不同的统计哲学。传统的统计分析方法往往从一定的理论假设出发,构建指标和模型,其优点是理论相对严谨,结论明确,可证伪度较高;缺点是对假设的严密性及数据的质量均有较高要求,对研究对象发生结构性变化时的适应性较弱。[11]而大数据挖掘方法,则以“基于数据的知识发现”为基本原则,以数据的量大弥补理论前提的不足,优点是前提假设少,对数据质量要求相对较低,缺点是对内在理论机制的揭示不足,数据量要求大。
三、研究手段变革:大数据成为因果分析的强大手段
在传统的社会科学研究范式中,学者研究的焦点是探究因果关系。流行的观点认为大数据分析应注重相关关系而忽略因果关系[12],认为“相关关系足够了”,Chris Anderson甚至提出“理论的终结”。本文并不认同上述极端观点,尽管相关关系在大数据分析中得到凸显,但“因果关系是人类理性行为与活动的基本依据,人类理性本身不可能否定因果关系”[12]。“大数据长于分析相关关系,而非因果关系。但这可能是一个伪命题。如何从相关关系中推断出因果关系,才是大数据真正问题所在。”[13]本文认为,大数据时代因果关系将得到更好的解释,大数据不仅可以改进传统方法,而且其着重探究的相关关系也有助于探究因果关系。
探究变量间因果关系的最佳方法是进行可控性试验,基于试验不仅可以将试验对象分为控制组和实验组,还可以避免外界因素干扰[14]。然而,社会科学研究对象的特殊性大数据时代带来的变革,致使“进行实验的特殊困难”[15],而且“在社会研究题材上进行受控实验的可能性极为狭小”[16]。在社会科学的研究中,通常基于概率角度理解因果,采用统计方法判断因果。在实证分析中,因果关系判断的准确度通常受制于三因素[14]:变量的内生性、变量遗漏、样本代表性。内生性问题是因果关系难以判断的主要原因,它是指“在一些情况下出现反向因果问题:解释变量受到被解释变量影响,而不是我们假设的影响被解释变量”[17]。关于变量遗漏问题。现实生活中,联系是普遍存在的,单因单果的现象很难出现。这意味着,构建合理的模型应该包括所有可能影响因变量的元素,而不应该仅仅涉及两个变量。但由于数据等原因的限制,常常导致变量遗漏问题。关于样本代表性问题。如前所述,传统研究范式中的数据通常来自抽样调查,然而研究者的主观选择、客观条件限制以及操作过程失误等均可导致样本选择性偏误,从而导致样本代表性问题。
大数据时代,大数据试图提供的“全样本”数据将令上述问题得到改善。首先,更多的数据意味着更多的工具变量备选,研究中可选择更好的工具变量;其次,“全样本”将解决抽样带来的样本代表性问题;最后,不仅因数据缺失造成的变量遗漏问题将得以解决,还可以对“全样本”数据进行筛选,以判断哪些变量应该包含于模型中。关于变量的选择,可采用Song和Taamouti提出的统计程序[18],此外接下来提到的因果图模型也有助于变量的筛选。
因果图模型由图灵奖获得者Pearl提出,利用有向图探究变量间因果关系,分析数据的生成机制。[19]该方法主要利用条件相关性判断变量间是否存在因果关系,其根本机理在于,潜在的因果关系会影响变量间统计上的各类(条件)独立性,因而可以利用数据分析得到的各种条件独立性进而反推可能存在的因果关系。例如,假设变量X、Y与Z之间的因果关系存在如图1所示四种情况。其中,图的顶点代表变量,两点间存在有向边表明变量间存在因果关系,比如“XY”表示X是Y的原因。数据分析表明,Y和Z的无条件相关系数为0,但给定X时Y和Z条件相关系数不为0,则只有图(d)所示因果关系是正确的。这种方法类似于社会科学统计模型中常用的工具变量法,但Pearl的方法更为强大,其强大之处在于,将这种判断对应到一定的有向无环图的拓扑结构,利用图论的相关知识设计一套算法,当变量数变得庞大时,展现出强大的分析能力。Eichler和Dielez进一步作出拓展,使得因果图模型可用于时间序列的分析。[20]这些分析方法近期的蓬勃发展已经说明,对条件相关关系的判断可有效地帮助因果关系判断。此外大数据条件下该方法威力更加强大,因为此时有更多的可得变量,更容易获得变量的联合概率分布以判断变量间是否存在条件相关。因此,随着大数据时代的到来,大数据蕴含的信息可极大地帮助刻画变量间的因果关系,同时解决传统方法遗漏变量的问题,进而推动相关领域的发展。
图1 大数据彰显的因果分析网络
四、研究功能变革:将因果分析与预测统一于政策
社会科学研究重视因果判断的根本原因在于,社会科学家普遍认为对因果关系的明确把握是理论运用于实际的前提。就政策问题而言,政策制定者需要知道改变某一个政策工具对社会产生何种影响。因为改变政策工具是对系统的外在干预,如果政策和预期结果之间没有正向因果关系,通过外生政策干预不能取得预期结果。因此,一种流行的看法是,尽管对变量间相关关系的掌握有助于进行预测分析,但离开了因果关系,相关关系(或者预测分析)将无助于政策实施。然而,在此我们想强调的是,尽管在过去社会科学研究中预测问题没有得到应有的重视,但预测问题在政策研究中同样十分重要。用天气问题作为类比,政策问题可概括为两类,即“雨伞”问题和“降雨”问题。[21]所谓“雨伞”问题,即判断是否会下雨以决定是否带雨伞,这类问题也称为预测问题或者对策问题。所谓“降雨”问题,即依据所需的降雨量决定采取何种措施,如向空中打多少干冰,这类问题也称为干预问题,需要掌握降雨措施和降雨量之间的因果关系。尽管政策研究涉及上述两类问题,但以往的社会科学研究主要关注后一类问题,即因果问题,而现有的数据挖掘技术则更关注前一类问题,即预测问题。
事实上,现实中政策问题往往是两类问题的结合。为此,不妨进一步分析“降雨”问题。在我们向空中撒入干冰前,需要研究清楚干冰对降雨的影响,这是一个因果判断问题。假定我们针对特定区域实施人工降雨,那么该地区的实际降雨量不仅取决于撒入空中的干冰数量,还取决于风向。我们可以控制干冰的数量,却无法控制风向。为此,只能选择在风向合适的时候实施人工降雨,这意味着我们需要预测风向。事实上,几乎所有的政策干预都需要在时机合适时实施,因此对“时机”的预测是十分必要的。图2说明政策研究中因果问题与预测问题结合的一般模式。假设政府为取得某一效果决定进行政策干预,效果的好坏受Y和Z影响,X是Z变化的原因但并非Y变化的原因。这样政府可通过外生干预X来调节Z,对Y却无能为力。如何恰当地干预X来改变Z并最终影响政策效果是一个因果问题,但仅仅抓住因果关系未必能取得理想的政策效果,因为Y同样影响政策效果。因此,唯有Y值预测基础上的政策干预,才能取得理想的政策效果。这意味着,就理想政策效果的获取而言,如何更好地预测Y与因果关系判定同等重要。可见,对于大数据时代的政策研究,因果问题和预测问题同等重要,不可厚此薄彼。通过结合大数据预测方法,对一些制约政策效果又不可控的因素进行预测,并在此基础上选择更合理的政策措施和时机,可以帮助改进政策效果。
图2 大数据在政策实施中预测与因果关系的统一性
五、结语
大数据时代的到来对社会科学研究产生巨大影响。除“全样本”数据、大数据技术以及数据驱动的知识发现三个方面的直接影响外,大数据还将进一步推动社会科学研究范式三个层面的变革。但是挑战也是存在的。比如,大数据的可得性不近如人意。一方面数据巨头将数据视为核心资产,拒绝共享数据;另一方面大数据可能涉及个人隐私、商业机密或者国家安全,不能共享
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。