前言互联网技术及应用进入一个高速发展时期,那些随手可得的互联网应用深刻地影响着社会经济的发展,改变了人们衣食住行、吃喝玩乐的生活方式,人们对互联网的依赖度逐年提升。网络数字化生活形态的形成,促进了互联网数据的累积,大数据由此成为互联网技术应用的新鲜血液,并将成为今后很长一段时期内各方关注的焦点。互联网大数据处理的理论、技术及其应用与社会经济各个领域的融合越来越密切,相关领域的专业技术人员迫切需要建立完整的互联网大数据分析应用的知识体系,以适应今后发展趋势的要求。本书作者及其科研团队近十年来一直从事互联网内容分析挖掘、网络舆情、大数据、信息内容安全技术和应用方面的科研工作。在包括国家自然科学基金项目在内的各类科研项目支持下,对互联网信息获取和提取方法、互联网信息内容结构化处理技术、语义分析技术、数据挖掘的模型与算法、社交媒体中的用户行为及互联网金融等应用领域开展了大量研究,积累了一定的经验互联网大数据 技术,强烈希望把科研工作中的体会和理解整理出来。此外,作者从2011年开始先后为复旦大学信息安全专业的本科生、研究生开设了《信息内容安全》《大数据安全》等课程,经过多年的教学实践,了解了学生的学习需求,积累了较为充足的讲义和素材。
2016年5月,教育部联合阿里云计算有限公司等单位发起了产学合作专业综合改革项目,确定了包括大数据在内的多个新技术方向的教材编写目标,以产学结合来推动高校教材和课程的改革。本书的编写正是在该综合改革项目的支持和推动下进行的,是第一本系统讲述互联网大数据处理技术及应用的教材和专业参考书。本书在知识结构上,试图覆盖互联网大数据处理与应用的完整知识体系;在内容上,尽量做到深入浅出,既考虑知识的基础性,也兼顾技术发展方向和前沿。本书全面介绍互联网大数据处理与应用中的主要理论和技术,分为概述、互联网大数据的获取、大数据的结构化处理与分析技术和综合应用四大部分,涉及互联网大数据处理技术的各个方面,侧重于基本原理和实践技术的介绍,特别是较为系统全面地介绍互联网大数据获取、分析挖掘的各种技术,并融合了阿里云计算大数据平台的一些先进思想和业界的实践经验。本书作为一本产学兼顾的教材,具有如下特色。(1) 针对互联网大数据,从大数据的获取到可视化展示与发布的整个过程,帮助学生建立完整的知识体系。侧重于非结构化数据处理与分析,由于传统的结构化数据分析技术相对比较成熟,因此这种安排将有助于读者接触到更多的大数据核心关键技术。
(2) 除了一些比较基础性的知识外,在各个章节还融入了作者在教学和科研中所积累的一些值得深入探讨的问题和观点,具有一定的启发性。(3) 理论与实践相结合,各个章节既包含技术原理介绍,也包含实现技术、开源架构等方面的叙述,使得读者能从中掌握技术应用及实现方法。(4) 注重产学结合,基于阿里云及其大数据平台,构建了综合应用实例,有效地集成运用了本书的一些关键技术,帮助读者深入理解大数据处理技术。全书由曾剑平负责内容安排、统稿,由互联网大数据处理技术和应用研究领域的一线人员参与编写。书中各章的编写人员安排: 第1章由曾剑平、段江娇编写,第2章由曾剑平、段江娇、胡源编写,第3章由曾剑平、胡源编写,第4章由曾剑平、张硕编写,第5章由曾剑平、段江娇、毛天昊编写,第6章由曾剑平、张硕、段江娇、毛天昊编写,第7章由张泽文、吴爽、曾剑平编写,第8章由曾剑平、王欣编写,第9章由曾剑平、黄智行编写。另外互联网大数据 技术,黄智行对第5章的CRF应用实例的部分程序及第9章的个性化新闻推荐系统进行了实现。本书在编写过程中,得到了阿里云计算有限公司的李妹芳女士的大力支持,在产学合作教材编写项目申请、立项、跟踪、结题、应用案例构建,以及相关的文字表达方面给予了很多帮助和指导。
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。