首席数据官

Hi, 请登录

大数据可视化技术现状分析及技术实践

前言

伴随着大数据时代的到来,数据可视化成为一个热门的话题,引起了人们极大的关注。本文从数据可视化研究概述、定义、常用的数据可视化工具及应用技术路线介绍数据可视化。

1.数据可视化研究概述

数据可视化,可以增强数据的呈现效果,方便用户以更加直观的方式观察数据,进而发现数据中隐藏的信息。可视化应用领域十分广泛,主要涉及网络数据可视化、交通数据可视化、文本数据可视化、数据挖掘可视化、生物医药可视化、社交可视化等领域。依照CARD可视化模型,将数据可视化过程分为:数据预处理、绘制、显示和交互这几个阶段。依照SHNEIDERMAN分类,可视化的数据分为:一维数据、二维数据、三维数据、高维数据、时态数据、层次数据和网络数据。其中高维数据、层次数据、网络数据、时态数据是当前可视化的研究热点。

大数据可视化技术现状分析及技术实践

高维数据目前已经成为了计算机领域的研究热点,所谓高维数据是指每一个样本数据包含p(p≥4)维空间特征。人类对于数据的理解主要集中在低维度的空间表示上,如果单从高维数据的抽象数据值上进行分析很难得到有用的信息。相对于对数据的高维模拟,低维空间的可视化技术显得更简单、直截。而且高维空间包含的元素相对于低维空间来说更加更复杂,容易造成人们的分析混乱。将高维数据信息映射到二三维空间上,方便高维数据进行人与数据的交互,有助于对数据进行聚类以及分类。高维数据可视化的研究主要包含数据变化、数据呈现两个方面。

层次数据具有等级或层级关系。层次数据的可视化方法主要包括节点链接图和树图2种方式。其中树图(treemap)由一系列的嵌套环、块来展示层次数据。

为了能展示更多的节点内容,一些基于“焦点+上下文”技术的交互方法被开发出来。包括“鱼眼”技术、几何变形、语义缩放、远离焦点的节点聚类技术等。

网络数据表现为更加自由、更加复杂的关系网络。分析网络数据的核心是挖掘关系网络中的重要结构性质,如节点相似性、关系传递性、网络中心性等,网络数据可视化方法应清晰表达个体间关系以及个体的聚类关系。主要布局策略包含结点链接法和相邻矩阵法。

时间序列数据是指具有时间属性的数据集,针对时间序列数据的可视化方法包含:线形图、动画、堆积图、时间线、地平线图。

数据可视化伴随着大数据时代的到来而兴起,可视化分析是大数据分析不可或缺的一种重要手段和工具,只有在真正理解可视化概念本质后,才能更好的研究并应用其方法和原理,获得数据背后隐藏的价值。

2.数据可视化的定义

数据可视化,是关于数据视觉表现形式的科学技术研究。可视化技术是利用计算机图形学及图像处理技术,将数据转换为图形或图像形式显示到屏幕上,并进行交互处理的理论、方法和技术。它涉及计算机视觉、图像处理、计算机辅助设计、计算机图形学等多个领域,成为一项研究数据表示、数据处理、决策分析等问题的综合技术。

2.1数据可视化的基本概念

1)数据空间

由n维属性、m个元素共同组成的数据集构成的多维信息空间。

2)数据开发

利用一定的工具及算法对数据进行定量推演及计算。

3)数据分析

对多维数据进行切片、块、旋转等动作剖析数据,从而可以多角度多侧面的观察数据。

4)数据可视化

将大型数据集中的数据通过图形图像方式表示,并利用数据分析和开发工具发现其中未知信息。

2.2数据可视化的标准

为实现信息的有效传达,数据可视化应兼顾美学与功能,直观的传达出关键的特征,便于挖掘数据背后隐藏的价值。

可视化技术应用标准应该包含以下4个方面:

1)直观化

将数据直观、形象的呈现出来。

2)关联化

突出的呈现出数据之间的关联性。

3)艺术性

使数据的呈现更具有艺术性,更加符合审美规则。

4)交互性

实现用户与数据的交互,方便用户控制数据。

3.常用的数据可视化工具

1、excel:可以在excel中选择插入图表,选择你想要的图表,然后进行标题、坐标轴等设置,操作相对多点,有饼图、折线图、柱状图等常见图表。

2、Tabluea:之前他为了学习特地花钱买过Tabluea的个人版,话说真的蛮贵的,一年要999刀,就只买了一年,我也玩过他们很多功能,工具挺不错的,功能挺强大的,可视化效果不错。

3、BDP个人版:直接把表格数据上传,然后拖拽数据到X轴(维度栏)、Y轴(数值栏),点一下选择你想要的可视化图表就行,除了常见图表,还有数据地图、漏斗、词云、旭日等酷炫图表~~

4.数据可视化面临的挑战

伴随着大数据时代的到来,数据可视化日益受到关注,可视化技术也日益成熟。然而大数据可视化技术,数据可视化仍存在许多问题,且面临着巨大的挑战。

大数据可视化存在以下问题:

1)视觉噪声

在数据集中,大多数数据具有极强的相关性,无法将其分离作为独立的对象显示。

2)信息丢失

减少可视数据集的方法可行,但会导致信息的丢失。

3)大型图像感知

数据可视化不单单受限于设备的长度比及分辨率,也受限于现实世界的感受。

4)高速图像变换

用户虽然能够观察数据,却不能对数据强度变化做出反应。

5)高性能要求

对于静态可视化对性能要求不高,因为可视化速度较低,性能要求不高,然而动态可视化对性能要求会比较高。

试看结束,如继续查看请付费↓↓↓↓
打赏0.5元才能查看本内容,立即打赏

来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!

版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。

相关推荐

二维码
评论