邬贺铨:大数据时代的发展趋势2013-07-24 13:49:31 来源:CIO 时代网 摘要: 中国工程院副院长、院士、国家信息化专家咨询委员会委员邬贺铨先生首先以“大数据时代的发展 趋势”为主题发表了精彩的演讲。 关键词: 大数据信息化 CIO以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”于 2013 年 7 月 21 日在北京大学英 杰交流中心阳光大厅隆重举办。本次活动由北京大学信息化与信息管理研究中心和北京大学 CIO 班教务办 公室主办,北达软协办,CIO 时代网承办。各企事业单位信息化负责人、北大 CIO 班学员及有关媒体代表 200 多人荟萃于此,对大数据的众多议题进行了热烈讨论。中国工程院副院长、院士、国家信息化专家咨询委员会委员邬贺铨先生首先以“大数据时代的发展趋势” 为主题发表了精彩的演讲。邬院士的精彩观点包括:大数据必然催生大带宽;云计算将改变互联网流量和 流向,大数据将驱动大量部署的对等连接,网络节点位置从信源中心向能源中心扩展;大数据呼唤智能化 的处理和分析。以下为演讲实录:中国工程院副院长、院士、国家信息化专家咨询委员会委员 邬贺铨 尊敬的北大的各位老师、各位专家、各位 CIO,很高兴来参加这次论坛。
最近这几天好像有点“CIO 热”, 上个礼拜 Gartner 在北京有 CIO 论坛,明天在上海也有 CIO 论坛,大数据论坛也是到处在开。今天的标题 是“大数据应用”,我知道今天后面的几位报告人会讲到大数据在教育、医疗、商业等等方面的应用,所 以我这里就只讲一下大数据时代的 ICT 趋势,会讲到四个方面的问题:大数据浪潮的到来、大带宽发展的 趋势、大网络布局的演变、大数据挖掘的挑战。第一,大数据浪潮的到来。绿色图表示每个网民人均每个月下载流量,1998 年每个网民一个月只需要一兆 流量,2003 年就需要一百兆,2008 年就是 1G,到 2014 年每个月要 10 个 G 的下载量。右边的图是讲全世 界互联网流量累计达到 1EB 所需要的时间, 2001 年需要一年, 2004 年需要一个月, 而今年只需要一天。 2012 年去年全世界互联网一天的信息量大概是 1EB,可以刻满 1.68 亿张 DVD,。现在全世界新产生的数据量每 年增加 40%,每两年数据翻一番。2012 年、2013 年产生数据量总和是人类有历史以来到 2011 年产生数据 量的总和, 两年的数据量等于一万年的总和, 这个数据规模为 1.8ZB, 假如把这个数据装在 32G 的 IPad 上, 要装 575 亿个,把这些 iPad 摞起来,可以摞起两座中国的长城。
2020 年全球数据将达到 40ZB,如果将数 据装在光盘上,这些光盘总重量等于 424 艘尼米兹号航母。所以说,大数据时代到来了。大数据有网络数据、企事业单位数据、政府数据,网络数据自媒体数据(比如社交网络、博客、微博等), 有日志数据(比如搜索引擎,大家上网等等都会留下很多足迹),还有富媒体数据(视频、音频等等), 每天的数据量很大。比如淘宝每天数据量就超过 50 个 TB;新浪微博晚上高峰的时候一秒钟就要接收 100 万以上的响应请求;百度每天大概处理 60 亿次搜索请求,几十 PB;中国联通每天记录用户上网条数,一 秒钟记录 83 万条, 一个月大概是 300TB; 国家电网信息中心目前累计收集了 2PB 的数据; 北京公交一卡通, 每天用公交一卡通的旅客有 4000 万刷卡记录,而北京地铁每天乘客 1000 万,把这些数据每天收集起来分 析数据可以用于改善北京的交通状况,优化北京的公交线路。最大的流量是视频。美国 TouTube 网站一分钟有 72 小时的视频上载,到 2016 年互联网上的忙时流量是 720Tbps,相当于全世界有 6 亿人同时看不一样的高清电影。到 2016 年每 3 分钟互联网传送 360 万小时视 频,相当于全球已经生产的全部电影。
这个电影用什么量衡量呢?如果一个人要看 3 分钟所传送的电影, 需要 34 年不吃饭、不睡觉才能看完。最近两个月在 TouTube 上载的视频量是美国三大电视台--ABC、NBC、 CBS 自 1948 年以来 24/7/365 连续播出的内容,可以看到视频流量非常大。大数据无所不在。图中是美国的一家医院(UPMC),一年能收 500TB 数据;伦敦有 200 个交通摄像头,每 天是 8TB 数据;伦敦才 200 个,北京有八十万个摄像头,数据量要比伦敦大得多了。还有其他方面的数据 量,大数据无所不在。就监控而言,很多城市的摄像头多达几十万个,一个月的数据就达到数十个 PB。北 京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸 部,以防投毒,防用针管装艾滋病毒、传染病毒打到液体里等,那么产生的数据就更大了。飞机的汽轮机 产生的数据是 Twitter 的七倍, 例如波音 787, 它每一个飞行来回可产生 TB 级的数据, 美国每个月收集 360 万次飞行记录;监视机队 25000 个引擎,每个引擎的数据一天产生 588GB;空客 380 软件有 10 亿行,每 30 分钟产生 10TB 的数据;风力发电机装有测量风速、螺距、油温等多种传感器,每隔几毫秒测一次,用于检 测叶片、变速箱、变频器等的磨损程度;一个具有 500 个风机的风场一年会产生 2PB 的数据。
这些数据用 于预防性维护, 可使风机寿命延长 3 年即达到 18 年, 每年每风机的成本将降低 17%。 根据上面监测的统计, 今天所有企业的信息存储总量已达 2.2ZB,未来几年将年增 67%。大数据的应用很多, 比如淘宝, 通过采集淘宝网上成交额比较高的 390 个类目的商品价格来搞出淘宝的 CPI, 比国家统计局公布的 CPI 更早的预测到经济状况。 为什么?国家统计局统计的 CPI 主要根据是刚性的物品; 比如食品,经济好、经济不好,人们都要吃饭,因此差别不大。可是淘宝上都是买化妆品、电子产品、服 装,经济不好就会少买,因此淘宝 CPI 更能反映价格走势,一般来讲比我们国家统计局公布的 CPI,能提 前一个月到半个月预测到走势。中央首长到了淘宝看了以后就说“你们每天把淘宝的 CPI 送到中南海”。最近经济情况的下行压力很大,很多中小企业贷款很难,因为他们没用担保。阿里公司根据在淘宝网上中 小公司遭遇的状况,筛选出财务健康、诚信企业,不要他们担保,阿里放贷 300 多亿元,坏账率仅 0.3%。 去年公布的四大商业银行坏账率是这个数字的 13 倍。商业银行是有担保的,而阿里没有担保。
Google 把 5000 万美国人频繁的搜索跟美国疾控中心流感数据进行比较,一个地方发生流感肯定有很多人 在网上搜索这些词汇,因此根据这些词汇出现频率可以判断这个地方出现流感,Google 在 2009 年的甲型 H1N1 流感出现时,它比美国疾控中心提前几个月发布公告。Google 前雇员创办了 Climate 公司,从美国气 象局获得几十年的天气数据,并与各地的农业状况、土壤状况关联起来,尚有需求的农场主说“谁问我明 天种什么能赚钱,我告诉你,如果我说错了,我的赔偿要比保险公司还要更高。”到现在为止,据说他们 从来还没赔过,不像我们国家的农民只是根据简单的判断,今年猪肉贵了,明年大量养猪,明年猪肉就便 宜了,然后年猪肉又贵了。所以农业上的大数据应用是很有帮助的。第二,大带宽发展趋势。大数据必然驱动大带宽,这是全世界国际互联网干线的流量状况,根据美国的预 测显示, 2010 年比 2009 年全世界的数据量增长了 62%, 按这个推断, 10 年国际互联网流量要增长 1000 倍, 美国自身的互联网流量也是 10 年增长 1000 倍。这个曲线是全世界骨干网的流量,无论亚洲金融危机还是 其他危机互联网,流量都不受影响,依旧保持高速增长。
首先是光纤浏览,早年的是模拟的频分复用,90 年代开启了光纤复用,当时叫数字的时分,TDM,当时一对光纤传 2.5GB 的三万电话电路;波分复用,一对 光纤不仅仅可以传一个波长, 可以同时传输多个波长, 叫做波分复用。 一对光纤在工程上已经传送 1.6TB, 相当于 2000 万电话电路。光纤通信虽然还可以采用更多的光纤技术,做到一对光纤传输 16 个 TB,两亿电 话电路。当然随着干线容量增加,我们希望系统更灵活,所以光互联网就出来了。总之,光纤传输能力十 年扩大 1000 倍, 目前来看还有很大发展空间, 而且现在光纤光缆成本很低, 中国生产世界一半的光纤光缆, 同时也消耗了世界一半的光纤光缆,10 年前中国的翻新光纤一公里卖到两千多人民币,去年报价是 53 元 一公里光纤, 现在光纤比面条便宜, 极大地支撑了宽带化发展。 可以看到, 95 年的时候数据总容量比较小, 只有 2.5G 到 10GB,波分数量也只有 8 到 40 个。到 2010 年可以看到,信道单波长已经做到 100G,信道容 量做到 15 个、50 个波长。到 2020 年单波长要做到 1T,总容量还会增大。右下角的图是中国联通 169 的网 络,可以看到它每年都在扩容、增长。
随着大数据时代来临,运营商还要大量的增加光纤容量。另外,不单是干线容量增加,我们也希望用户节路带宽增加,所以新的运营商会推动“光纤到户”,实际 上“光纤到户”是广义的,并不真正是’光纤到户”,而是光纤到大区、光纤到大楼。在中国光纤到了一 个大楼之后剩下的路线很短了,也可以传高比特率。现在光纤传输用的是无源光网络,从局域端到用户端 是一个光纤,快到用户家门口进行分支,这里面向行叫 10 分,下行是广播式的。这样用户的带宽能做到, 现在可以上到 100 兆。说了光纤,除了有线,我们希望无线也是宽带的。第一代移动中国通信在 90 年代的 时候中国就退网了,那个时候是模一的电路交换,带宽比较差,现在大家比较多用的是第二代移动通信, 它是 GSM CDMA,带宽当时只有几百 K,3G 带宽是 Mbps,现在中国基本上都是增强型 3G,几十 M。前年上海 世博会上周围搞了眼镜型的 3G,也叫 LTE 实验,现在在全国已经有 16 个城市在开展实验了。最近,工信 部预计今年年底可能要发 4G 牌照,4G 是在 LTE 基础上有进一步的改进,高速移动时就可以支持 100M,低 速在家里可以不要网线 1G 下载(这是峰值),在中国 4G 牌照没有发放的时候国际上已经开始第五代移动 通信标准的研究了,第五代移动通信希望能够使用户享受到在运动状态下也能享受到 1G 峰值速率。
当然每 一代移动通信都是革命的,第一代移动通信蜂窝小区靠频率不同区分用户,叫做 FDMA 频分多址。第二代移 动通信 GSM 是靠时分区分用户, 叫 TDMA 时分多址, 从第二代开始, 第三代移动通信有 CDMA 的是码分多址, 现在到第四代移动通信叫 OFDMA,是正交频分多址,把频率的时间的、空间的因素都利用起来,使得移动通信的峰值速率平均每年加倍,10 年 1000 倍。 提高移动通信的峰值速率, 当然这里面要付出很大的代价。 你们可以看到,早年 GSM 只有 kbps,后来到 100k,到 3G 是 Mbps 甚至是 10M 量级,现在到 LTE 开始是百兆 量级,随着移动通信峰值速率越来越高,我们的终端能力也越来越强,来不断提升终端的宽带化的能力。 当然了,要提升这个能力现在面临很多挑战,比如说当手机离基站很近的时候,它可以直接从基站获得信 号, 当手机回到家里, 可能楼的墙壁钢筋水泥太厉害了, 这个时候穿不过去了, 就要加上室内中继来接力, 如果你在马路上当然你很靠近天线时没问题,当远离天线时要发展终端到终端,也就是你拿着手机走在路 上,你没打电话、上网,但是不知不觉当了第三者,当了别人的二传手。
回到家里,最好转到 WIFI 上,节 省带宽和频率。总体来说,未来我们需要通过多点协作、多个基站服务一个用户,通过中继、各种天线以 及终端的接力以及异构的网络来支撑移动通信的宽带化。 比如说这个基站是回龙观, 很多人晚上会住在那, 晚上基站会很忙。而白天这些人都上班了,回龙观那边用手机打电话、上网的人少了,基站忙闲不均,有 潮汐效应,怎么办呢?把每个小区基带处理部分集中起来,成为一个基带池,每个蜂窝小区只剩下射频, 如果某个蜂窝小区的资源富裕可以调整给另外一个小区用, 当然了形成基带池的好处不仅仅实现忙闲调配, 而且有利于运营商集中调控,节省能源,也有利于基站选址。现在老百姓环保意识比较强,不希望自己的 楼顶放基站天线,一方面大家抱怨信号不好、希望基站加密,另一方面老百姓又抱怨这个可能会对身体有 影响。但实际上,中国移动通信环保标准是全球最高的。第三,大网络布局的演变。从图上可以看到,这是数据中心,整个高度是数据中心的总量,绿色部分是数 据中心使用云计算的比例。我们可以看到,到 2015 年一般以上的数据中心都会用到云计算,连增 22%。过 去没有人谈云计算,80 年代谈数据库、90 年代谈 IBC,现在谈云计算。
实际上云计算应该更准确的是云服 务,当然未来会发展成什么?不知道。云计算底层有一个基础设施,像我们很多企业把它的数据库托管到 运营商那里,这就使用了云计算,使用了 IaaS 系统。IaaS 里头有数据中心、存储器、服务器,如果仅仅 这样还不够,对运营商来讲,无非是“数字房地产”。运营商希望进一步在上面增加开发工具,叫 PaaS, 可以提供 JAVA、 Web2.0 一些开发工具、 中间件等等, 企业可以租用这些开发工具, 开发企业要的一些软件, 比如说数据挖掘等等。 对于一些小企业而言, 根本没有开发能力, 因此干脆直接租用你的软件, 这是 SaaS。 比如说现在谈大数据分析,哪个企业都希望大数据分析,但是每个企业去买这些数据分析软件是很不划算 的,因此租用第三方的分析软件可能是一个方向。当然更进一步的有 Business,有能力的企业可以在上面 更多的开发。所以云计算并不是为大数据而诞生的,但云计算正好适应了大数据的需要。另外一点,网络节点位置要从信源中心向能源中心扩展。我国有 20 个省市制定云计算规划,大规模数据中 心建设成为各地发展热点, 11 个省市云计算投资均超过 100 亿元。
内蒙要建云计算中心、 他说他那里有煤、 能源,而且气侯比较好;重庆市长说,别看我这里热,但是长江水比较冷,可以拿来降温,而且这里没有 地震,我这里要尽云计算中心。按照工信部等八部委 2013 年 1 月 14 日发布的《关于数据中心建设布局的 指导意见》 , 中国的数据中心要考虑气候环境、 能源供应, 建议我们国家的云计算中心向高纬度地区集中, 也就是内蒙、西北这些地区。过去的数据中心放在上海、北京、广州这些地方,而将来数据中心一半是云 计算中心,而它们更多要放到内蒙、西北,也就是说网络结点位置会从信源中心往能源中心拓展,实际上 云计算会改变互联网的流量和流向。 另外,由于数据量非常大,过去运营商并不是每个省线路都互相直联的,往往通过北京互联,有些通过上 海、广州。现在中国电信 ChinaNet 网络每个省之间都直联了。为什么?因为数据量太大了,所以希望网络 要扁平化。过去我们都说什么东西都到 IP 层做交换,随着数据发展以后我们希望的路由器容量会很大,一 个纯 IP 电的 Tpbs 的路由器,一个端口就一千瓦,功耗很大,如果光的类型的交换,一个端口才 25 瓦,而 且大数据里面大量的数据是过路的,而不是落地的,因此现在改变了互联网的格局,凡是能在光层上做的 交换绝不在电层上做,凡是能在 MPI(层上做的交换绝不在 IP 层上做。
过去我们常说什么东西都在要 IP上交换,现在 IP 要变成包装,能不在 IP 上交换的绝不在 IP 上交换。你可以看到,这是大数据的发展。另 外, 过去的路由器本身具有转发和控制功能, 也有节点控制功能、 业务控制功能, 每个路由器都是独立的, 也是自我的,它根据来的数据来选路,但是这样的方式很难适应大数据时空动态性,大数据产生的位置、 发生时间可能是不均的,也不平衡,如果动态需求希望我们的网络也是动态的,那么传统路由器刚性的设 计很难适应动态需求,因此现在提出 SDN(软件定义网),希望把路由器里头操作系统提起来,然后把路 由器控制集中,这样造成网络操作系统,而路由器就剩下传输与转发功能,这是执行机构,可以根据网络 需求来集中调用配置,可以使网络变的更柔性化,这是软件定义网,能实现转发与控制分离。大数据推动城域网体系的演变, 早年我们都是大计算机连大服务器, 后来常常很多时间提的是客户服务器, 计算机连到服务器。当一个热门的节目所有终端都希望下载的时候,这个服务器就是瓶颈。因此就出来了 P2P,也就是说,各个终端能力都很强,每个终端没必要全部下载下来,每个终端只下载其中一部分,各个 终端下载不同的部分然后相互交换,我们叫做 Peer-to-Peer,现在很多发现这个体系架构也需要改变了, 因为大数据的出现,一个终端到一个服务器之间很多数据不是一个服务器能装得下的,当一个终端接入到 一个服务器的时候,可能需要调用其他服务器存储数据来支持,因此最近五年我们国家接入网流量带宽增 长了 6 倍,而城域网流量增长了 22 倍,有更大流量在服务器之间交换。
也就是说,网络的体系会从客户服 务器的垂直架构向服务器之间的水平架构优化。大数据推动了城域网体系的演变。另外,由于数据量很大,所以现在 Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷的把它的数据通过 CDN 写到不同地方。腾讯总部在深圳,可是它把很多服务器放在北京、广州、上海等等,甚至分散到很多省, 目的是缩短用户接入到服务器的距离,所以内容分配网应用而生,最近发展得很快,内容分配网会对整个 互联网流量流向产生重大的影响。走了捷径,那么省间长途流量就可以下来。所以内容分配网拉近了信源 和用户
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。