企业如何实现对大数据的处理与分析？_案例精选

随着两化深度融合的持续推进，全面实现业务管理和生产过程的数字化、自动化和智能化是企业持续保持市场竞争力的关键。在这一过程中数据必将成为企业的核心资产，对数据的处理、分析和运用将极大的增强企业的核心竞争力。但长期以来，由于手段和工具的缺乏，大量的业务数据在系统中层层积压而得不到利用，不但增加了系统运行和维护的压力，而且不断的侵蚀有限的企业资金投入。如今，随着大数据技术及应用逐渐发展成熟，如何实现对大量数据的处理和分析已经成为企业关注的焦点。

淘宝大数据应用案例

对企业而言，由于长期以来已经积累的海量的数据，哪些数据有分析价值?哪些数据可以暂时不用处理?这些都是部署和实施之前必须梳理的问题点。以下就企业实施和部署大数据平台，以及如何实现对大量数据的有效运用提供建议。

第一步：采集数据

大数据应用_百度+大数据应用_淘宝大数据应用案例

对企业而言，不论是新实施的系统还是老旧系统，要实施大数据分析平台，就需要先弄明白自己到底需要采集哪些数据。因为考虑到数据的采集难度和成本，大数据分析平台并不是对企业所有的数据都进行采集，而是相关的、有直接或者间接联系的数据，企业要知道哪些数据是对于战略性的决策或者一些细节决策有帮助的，分析出来的数据结果是有价值的，这也是考验一个数据分析员的时刻。比如企业只是想了解产线设备的运行状态，这时候就只需要对影响产线设备性能的关键参数进行采集。再比如，在产品售后服务环节，企业需要了解产品使用状态、购买群体等信息，这些数据对支撑新产品的研发和市场的预测都有着非常重要的价值。因此，建议企业在进行大数据分析规划的时候针对一个项目的目标进行精确的分析，比较容易满足业务的目标。

大数据的采集过程的难点主是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片也是需要深入的思考问题。

第二步：导入及预处理数据

淘宝大数据应用案例_大数据应用_百度+大数据应用

采集过程只是大数据平台搭建的第一个环节。当确定了哪些数据需要采集之后，下一步就需要对不同来源的数据进行统一处理。比如在智能工厂里面可能会有视频监控数据、设备运行数据、物料消耗数据等，这些数据可能是结构化或者非结构化的。这个时候企业需要利用ETL工具将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，将这些来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。对于数据源的导入与预处理过程，最大的挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

第三步：统计与分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用hadoop.数据的统计分析方法也很多，如假设检验、显着性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。在统计与分析这部分，主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

百度+大数据应用_淘宝大数据应用案例_大数据应用