一种用于人工智能数据分析的大数据高保真可视化方法与流程_数据资讯

一种用于人工智能数据分析的大数据高保真可视化方法与流程

本发明属于人工智能与数据科学领域，涉及对大数据量、高维度向量型数据集的高保真可视化渲染技术，使可视化平台既能准确还原原始数据，又能高效运行、易于操作，为用户观察原始数据的内部规律和数据特征提供帮助。

背景技术：

可视化是一种通过图形表达数据的方法，在人工智能和数据科学领域被广泛使用。当前的实际数据往往具有大数据量、高维度等特点，因而在低配置的硬件平台上实施具有一定困难，本发明基于高保真抽样的思路来解决这一问题。

现有通用的计算机硬件环境下，若将高维大数据的所有内容加载到单个客户端的内存以实现可视化基本不可能，需要通过行抽样与降维来实现。而使用分布式云加载的方式将会失去可视化过程中的一些特性，包括本地流畅性等等，也同样需要通过行抽样与降维来满足这些特性。现在流行的行抽样方法有直方图、聚类、随机抽样等，降维方法有主成分分析、属性子集选择等，但是这些方法对于大数据量、高维度的向量型数据集均不能在抽样与降维过程中保障可视化的保真性质。具体来说：1.直方图通过扩大统计范围使处理后的数据具有较粗的粒度，从而可能丢失高保真过程的关键信息。2.聚类方法将数据行看成对象，把“相似”的对象聚到同一个簇内，在数据规约上用数据的簇来代表替换实际数据，但由于聚类算法没有完全按照可视化要求来生成簇，从而不能保证可视化的保真性。3.随机抽样分为无放回随机抽样和有放回随机抽样，这会造成显示结果具有一定的随机性，难以保证高保真可视化的要求。4.主成分分析又称pca，这种方法是通过维度变换来实现降维的，很难重构变换后的新维度和原始维度的直接关系，因此可视化时难以表示原始数据的高保真信息。5.属性子集选择的降维策略是通过删除冗余的属性(或维)来减少维度高维数据可视化，这可能会将原始数据的疏密程度进行改变，从而很难达到大数据高保真可视化的目的。

根据《数据挖掘：概念与技术(原书第三版)》(isbn：978-7-111-39140-1)中第2章的第3节数据可视化介绍，数据可视化旨在通过图形清晰有效地表达数据。所谓清晰有效地表达数据实际上就是要求可视化图形能够反映出原始数据的内部规律和数据特征，让用户通过图形就能观察到原始数据内部的细节。具体来说就是在当前分辨率条件下，可视化图形要能够在空间的疏密程度上与原始数据保持一致，能够客观显示原始数据的边界值，能够准确刻画原始数据的变化趋势，这也就是本发明所述高保真的涵义。例如，对于平行坐标图而言，如果该图在对应分辨率条件下将原始数据各维度的极值(包括极大值和极小值)、数据行的变化趋势、以及原始数据的疏密分布均准确表达，即称该图形实现了高保真可视化。

技术实现要素：

技术问题：本发明提出了一种用于人工智能数据分析的大数据高保真可视化方法，该方法通过可视化平台对大数据量、高维度的向量型数据集进行高保真可视化，为用户观察原始数据的内部规律和数据特征提供帮助。

技术方案：本发明的一种用于人工智能数据分析的大数据高保真可视化方法，针对大数据量、高维度的向量型数据集引入了基于频数分布的双向抽样算法，保证在设定分辨率下的可视化图形与原始数据一致，即原始大数据能获得高保真的展示；所述的双向抽样算法是指，对于数据行方向采用了保持相对子空间的高保真抽样算法，对于维度方向采用了粘滞邻域极值的高保真抽样算法；详细步骤为：

1-1)、数据行方向的保持相对子区间高保真抽样算法：针对当前分辨率，对可视化图形中任意一个可分辨子空间，保持其相对的数据比例，从而使空间中的数据疏密程度与原始数据一致；

1-2)、维度方向的粘滞邻域极值高保真抽样算法：针对当前分辨率，对可视化图形中任意一个采样点的可分辨邻域，粘滞其图形边界极值，从而保持可视化的视觉效果与原始数据一致；

1-3)、可视化渲染：对步骤1-1)、1-2)的抽样结果在对应分辨率条件下渲染，渲染效果和原始数据的直接渲染一致，而渲染效率可得到大幅度增强。

所述的步骤1-1)中数据行方向的保持相对子区间高保真抽样算法，具体为：

2-1)、针对当前分辨率高维数据可视化，在数据行方向将原始数据划分为p个可分辨子区间，并对每一个维度的数据对应地进行p组频数分布统计；

2-2)、将原始数据中任意维度中含有极大值或极小值的数据行加入抽样，从而保持抽样后数据的可视化边界；

2-3)、在原始数据中按照步骤2-1)频数分布所统计的各区间频率来进行抽样。

所述的步骤1-2)中维度方向的粘滞邻域极值高保真抽样算法，具体为：

3-1)、根据目标可视化图形的规则，获得维度方向的现有次序；

3-2)、若原始数据有n1个维度，针对当前分辨率的可显示维度数为n2，2≤n2≤n1，则保持可视化效果仅需要对每一个数据行保留n2个数据值；该分辨率下的每一个需要保留1个采样值的可分辨邻域中存在n1除以n2个原始数据维度；

3-3)、为了保证高保真可视化在抽样数据上的显示效果和原始数据一致，抽样时保留了可分辨邻域中图形边界极值。

所述的按照步骤1-3)对抽样结果进行可视化渲染，具体为：

4-1)、对原始数据在数据行方向和维度方向同时采用步骤1-1)、1-2)的抽样算法进行抽样，获得抽样数据；相对于原始数据，抽样数据既大幅压缩了数据维度，又大幅度减少了数据行数，从而使后续的渲染效率大大提升；

4-2)、在步骤1-1)、1-2)预定的分辨率条件下，由前端渲染引擎对抽样数据进行渲染。

有益效果：本发明所描述的一种用于人工智能数据分析的大数据高保真可视化方法主要目的是让用户通过可视化平台分析出高维度、大数据量的向量型数据集的内部规律与数据特征，期望能找到相同类别的共性和不同类别之间的差异，高保真地还原了原始数据可视化效果。具体来说有如下有益效果：

1.本发明能够支撑高维度、大数据量的向量型数据集。在当前通用的硬件条件下，本发明能够支撑包括人类基因组数据、蛋白质结构数据、天文数据、金融数据等大数据应用，实现其高保真可视化。为这些高维度、大数据量的应用观察其内部规律与数据特征提供支撑。

2.本发明能为用户提供高保真的可视化效果。该可视化效果能够准确刻画数据的变化趋势、疏密分布以及图形边界，从而给出数据内部的准确规律和不易观察到的数据联系，为用户能够根据数据获得更为准确的结论提供依据。

附图说明

数据可视化国内外研究现状_高维数据可视化_高光谱数据降维

图1为用于人工智能数据分析的大数据高保真可视化方法总流程。

图2为数据行方向保持相对子空间的高保真抽样算法流程。

图3为维度方向粘滞邻域极值的高保真抽样算法流程。

图4为乳腺癌数据集雷达图的高保真可视化效果。(a)良性乳腺癌特征数据雷达图的高保真显示效果；(b)恶性乳腺癌特征数据雷达图的高保真显示效果。

图5为随机分类数据集雷达图的高保真可视化效果。(a)随机分类数据的高保真雷达图显示效果(分类1)；(b)随机分类数据的高保真雷达图显示效果(分类2)。

具体实施方式

本发明提出了一种用于人工智能数据分析的大数据高保真可视化方法，针对高维度、大数据量的向量型数据集提供可视化高保真展示，在人工智能领域中用于分析数据的内部规律与数据特征。本发明引入基于频数分布的高保真双向抽样算法来实现这样的可视化技术，具体分为维度上的粘滞邻域极值的高保真抽样算法和数据行上的保持相对子空间的高保真抽样算法，保证了抽样后在屏幕上显示出来的效果跟原始数据在屏幕上显示出来的效果一样。详细步骤为：

1-1)、数据行方向的保持相对子区间高保真抽样算法：针对当前分辨率，对可视化图形中任意一个可分辨子空间，保持其相对的数据比例，从而使空间中的数据疏密程度与原始数据一致。

1-2)、维度方向的粘滞邻域极值高保真抽样算法：针对当前分辨率，对可视化图形中任意一个采样点的可分辨邻域，粘滞其图形边界极值，从而保持可视化的视觉效果与原始数据一致。

1-3)、可视化渲染：对1-1)、1-2)的抽样结果在对应分辨率条件下渲染，渲染效果和原始数据的直接渲染一致，而渲染效率可得到大幅度增强。

如步骤1-1)所使用了保持相对子空间的高保真抽样算法，针对当前分辨率，对可视化图形中任意一个可分辨子空间，保持其相对的数据比例，从而使空间中的数据疏密程度与原始数据一致，具体如下：

2-1)、针对当前分辨率，在数据行方向将原始数据划分为p个可分辨子区间，并对每一个维度的数据对应地进行p组频数分布统计。

2-2)、将原始数据中任意维度中含有极值(极大值或极小值)的数据行加入抽样，从而保持抽样后数据的可视化边界。

2-3)、在原始数据中按照2-1)频数分布所统计的各区间频率来进行抽样。例如：某可分辨子区间[0.1,0.2]中包含了60％的原始数据，则抽样后该可分辨子区间所包含的数据量也占抽样总数据量的60％，从而保持可视化效果在各子空间的数据疏密程度与原始数据一致。

如步骤1-2)中所使用的在维度方向上采用了粘滞邻域极值的高保真抽样算法所述，针对当前分辨率，对可视化图形的任意一个采样点的可分辨邻域，粘滞其图形边界极值可保持可视化的视觉效果一致，具如下：

3-1)、根据目标可视化图形的规则，获得维度方向的现有次序。例如雷达图中按逆时针方向获得对应的数据维度次序。

3-2)、假设原始数据有n1个维度，针对当前分辨率的可显示维度数为n2(2≤n2≤n1)，则保持可视化效果仅需要对每一个数据行保留n2个数据值。理论上该分辨率下的每一个需要保留1个采样值的可分辨邻域中存在n1/n2个原始数据维度。

3-3)、为了保证高保真可视化在抽样数据上的显示效果和原始数据一致，采样时保留了可分辨邻域中图形边界极值。例如使绘制在最上方的数据极大值和绘制在最下方的数据极小值在抽样图形中保持粘滞，而中间值在可分辨邻域渲染时会被自动插值。

如步骤1-3)所述可视化渲染过程，对1-1)、1-2)的抽样结果在对应分辨率条件下渲染，渲染效果和原始数据的直接渲染一致，而渲染效率可得到大幅度增强，具体如下：

4-1)、对原始数据在数据行方向和维度方向同时采用1-1)、1-2)的抽样算法进行抽样，获得抽样数据。相对于大数据量、高维度的原始数据，抽样数据既大幅压缩了数据维度，又大幅度减少了数据行数，从而使后续的渲染效率大大提升。

4-2)、在1-1)、1-2)预定的分辨率条件下，由前端渲染引擎对抽样数据进行渲染。例如：将数据渲染成雷达图、波形图、折线图等。由于双向抽样算法保持了该分辨率条件下每一个可分辨邻域和可分辨子空间中的图形边界和疏密程度，因此可视化效果实现了高保真。

以下部分就实施过程中以一个m行n列的高维大数据集在以雷达图为显示载体给出一个高保真可视化的具体实例。

一、保持相对子空间的高保真抽样算法

1-1)、前提假设

抽样目标是要使抽样后的数据屏幕显示效果和原始数据在当前分辨率条件下的屏幕直接显示效果一致，因此要遵循这样的抽样原则：

·要保留住存在维度极值的行；

·稠密与稀疏的位置需要和原始数据等比例保持一致；

1-2)、具体步骤如下：

1-2-1)、将原始数据的每个维度归一化，所有结果会集中在[0,

试看结束，如继续查看请付费↓↓↓↓

打赏0.5元才能查看本内容，立即打赏

来源【首席数据官】，更多内容/合作请关注「辉声辉语」公众号，送10G营销资料！

一种用于人工智能数据分析的大数据高保真可视化方法与流程

相关推荐