第25卷第1期 2007 年 1月情 报 科 学Vol. 25 , No. 1 January , 2007高维数据可视化方法研究余肖生 , 周 , 张芳芳 宁( 武汉大学 信息资源研究中心 , 湖北 武汉 430072)摘 : 本文从高维数据成功可视化的三要素着手 , 介绍了几种主要的高维数据可视化方法 。 要 关键词 : 高维数据 ; 平行坐标 ; 散点图矩阵 ; VHDR 中图分类号 : TP391 文献标识码 : A 文章编号 :1007 - 7634 ( 2007) 01 - 0117 - 04Research on Methods of High - dimensional Data VisualizationYU Xiao - sheng , ZHOU Ning , ZHANG Fang - f ang( Research Center for Information Resources of Wuhan University , Wuhan 430072 , China ) Abstract : In this paper the authors discuss three basic elements of successfully visualizing high - dimensional data. At the same time the authors introduce several typical high - dimensional data visualization methods. Key words : high - dimensional data ; parallel coordinates ; scatterplot matrices ; VHDR近十年来 , 随着计算机 、多媒体等技术的发 展 , 导致各种各样的数字化信息与日俱增 。
在实际 应用中经常会碰到一些高维数据 , 如文档词频数 据 、人口统计数据及多媒体数据等 。在计算机科学 的许多领域 , 如何处理这些高维数据已经成为一个 非常重要的问题 。 然而 , 目前处理高维数据的方法 大多是基于数学理论以及它们提供的一些抽象概念 而非可视化的直觉 。为便于用户直观地评价和分析 这些高维数据 , 用可视化技术来显示这些数据 , 已 经成为处理高维数据的有效手段之一 。 本文从高维 数据可视化的三要素着手 , 接着介绍了几种主要的 高维数据可视化方法 , 最后介绍了高维数据可视化 方法的应用 。【1】 ture smoothness) 。1 高维数据可视化方法的三要素一种理想的可视化方法应该具备三个基本的特收稿日期 : 2005 - 基金项目 : 国家自科基金项目 ( 批准号 : 70473068)作者简介 : 余肖生 (1973 - ) , 男 , 湖北监利人 , 博士研究生 , 从事信息管理与电子商务研究 ; 周 ( 1943 - ) , 男 , 宁 湖北钟祥人 , 教授 , 博士生导师 , 从事信息组织与检索 、信息系统工程 、电子商务与电子政务研究 ; 张芳 芳 (1977 - ) ,女高维数据可视化, 安徽阜阳人 , 博士研究生 , 从事信息管理与电子商务研究 . ? 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved.性 : 区域维持 ( Region preservation) , 表示的专一性 ( specificity of representation) , 以及特征平滑度 ( Fea2 区域维持是指在数据空间中同类数据区应该对 应于显示空间的连续区域 。
具体来说 , 在数据空间 内相邻的点应该映射到显示空间上时也应相邻 。或 者说 , 相似的数据点在显示空间应该是互相接近 的 。特别是在有连续值的数据空间 , 维持数据空间 区域的映射将通过不聚集异质区域来维持数据空间 结构 。 如果映射到给定显示空间位置的空间数据集在 数据空间中彼此之间是 “相邻” , 那么这个映射就 的 是专一 ( specific) 的 。这个标准大致是区域维持 ( 数 据空间的邻近点相应地在显示空间里也是邻近点 ) 显的优点 ,因为它不可能分离同质数据空间区域 。 的反面 。专一的映射相对于不专一的映射而言有明 特征平滑度是映射的第三种应具备的特性 。所118情 卷 报 科 学 25( Xi , i = 1 , 2 , ……k ) 集 , 在一个页面上用矩阵谓特征平滑度是指数据空间特征 ( 值分布 , isolev2 els , 元属性等) 被可视化后应该在显示空间里光滑 和易见的 。的形式表示所有这些变量成对的散点图 , 其中每一 行和每一列都定义一个单独的散点图 。也就是说 , 如果有 k 个变量 , 那么这个散点图矩阵将有 k 行 k 列且这个矩阵的第 i 行第 j 列是 Xi 对 Xj 的一个图 , 这对于快速确定成对变量之间的关系是十分有用 的 , 但由于单个散点图的尺寸因此完全理解它们的 关系是比较困难的 。
例如在环境污染方面 , 图 2 揭 示 了 几 种 主 要 的 污 染 源 : 钾 ( potassium ) , 铅 ( lead) , 铁 ( iron) , 氧化硫 ( sulfur oxide) 它们之间 的关系 。我们有许多方法来观察这个散点图矩阵 , 如果你主要对某一特定的变量感兴趣 , 那你可以详 细查看这个变量所在的行和列 ; 如果你对它们之间 的关系感兴趣 , 你可以详细查看这个图然后决定哪 些变量是相关的 。2 高维数据的可视化方法高维数据的可视化方法有多种 , 本文主要讨论 有代表性的几种方法 。 11 2 平行坐标法 (parallel coordinates)【2】 【3 - 4】1981 年 , Inselberg 首先提出平行坐标法来解决高维数据可视化问题 。其后 , Inselberg 及其他研 究人员将平行坐标法应用于统计学 、计算机图形 学 、机器人技术等领域并获得成功 。现在 , 平行坐 标可视化方法在数据挖掘 、系统优化设计等方面都得到了较好的应用 。它的基本思想是在二维空 间中 , 采用等距离的竖直的 n 个平行坐标轴表示 n 维空间 , n 个变量值对应到 n 个平行坐标轴上 , 再 将 n 个坐标轴上的点用连续线段连接起来表示一个 空间点 。
例如 , 图 1 在二维空间上 , 用平行坐标法 显示了含有 4 维和 150 个数据项的 Iris 数据集 , 每 一个数据项和它们的聚类从图形显示中都能清楚地 看到 。 2 图 有关污染数据 ( 数据来源 : NIST chemistLloyd Currie) 产生的散点图矩阵 ( 引自文献 6】 【 ) 1 在平行坐标中的 Iris 数据集 ( 4 维 , 150 图个数据项) ( 引自文献 5】 【 )关系或联系而提出了散点图这个概念 。图中这些关 系通过一些有向结构来表示 。根据在图上显示的方 式不同 , 散点图包括简单散点图 、三维散点图 、重 叠散点图和散点图矩阵等 。在本文中 , 主要讨论的 是散点图矩阵 。它的基本思想是对给定的 k 个变量 12 2 散点图矩阵 ( Scatterplot Matrices)【6】1983 年 , Chambers 为了揭示两个变量之间的? 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved.thew O1Ward 和 Elke A1Rundensteiner 等几位专家提 13 2 可视化层次降维 VHDR ( Visual Hierar2 chical Dimension Reduction) 出并实现的有效的高维数据可视化方法 。
这种方法 具体过程如下 : (1) 生成维度层次结构 。 首先 , 根据维度的相 似性 , 高维数据集的所有原始维度组织成一个分层 维度聚类树 。每个原始维度映射到这个树的叶子结 点 。相似的维放在一起形成一个聚类 , 接着相似的 聚类组成更高层的聚类 。 (2) 维度层次结构导航和修改 。 为了获得对维 度层次结构更好的理解 , 用户能够浏览维度层次结 构聚类树 。用户也能修改维度层次结构 。 可视化层次结构降维由美国伍斯特理工学院 ( Worcester Polytechnic Institute ) 的 Jing Yang , Mat21 期 高维数据可视化方法研究 (3) 维度聚类选择 。 为了创建一个低维子空119间 , 用户可以从层次结构中选择感兴趣的维聚类 。 ( 4) 表示维度 ( Representative Dimension) 生成 。 为 每个维度聚类分配一个表示维度 ( RD) 。这些选择 的维度聚类通过这些 RD 创建这些低维空间 。RD 的选择最好能反映它们联合聚类的聚合特性 。例 如 ,在一个聚类中 RD 可能是所有这些原始维度的 平均值或者是位于聚类中心的原始维度的值 。
(5) 数据映射和可视化 。 最后 , 这个数据集从 原始高维空间映射到一个由被选择聚类的 RD 组成 的低维空间 。将这个映射数据集视为低维空间上的 普通数据集 , 再用现有的可视化技术进行可视化 。 这三种高维数据可视化方法基本上都满足了上 述三要素 , 在实际工作中也得到了比较广泛的应 用。一个例子来说明可视化对于高维数据信息分析的用 途 。图 3 ( a ) 显示自动产生的 42 维 , 20000 元素 的人口普查数据集【数据来源 : 来自 Los Angeles 和 Long Beach 地区 1970 、1980 、1990 的部分人口普查 数据】的维度层次结构 , 通过探究整个层次结构可3 高维数据可视化作用高维数据可视化的作用是多方面的 , 最主要的 就是将一些高维数据以更加直观的形式展现给用 户 , 使得用户更容易发展隐藏在其中的某些特征 。 11 3 在信息分析中的应用 12 3 在数据挖掘中的应用在日常工作中 , 我们经常会碰到一些高维数 (a) (b) (c)图3 人口普查数据集的维度层次结构 ( 引自文献 5】 【 )传统的数据挖掘是以计算机为中心 , 用户只是 【6 - 9】 被动地接受机器挖掘的结果 。
因此 , 对大多数 用户而言 , 理解和解释仅仅由自动算法产生的结果 可能存在一定的困难 。 利用可视化技术来改进数据挖掘过程 、显示数 据挖掘结果 ,有利于将人的随机应变能力 、感知能 力与计算机巨大的存储能力 、计算能力结合起来高维数据可视化,? 1994-2007 China Academic Journal Electronic Publishing House. All rights reserved.据 , 仅凭传统的方法来发现其中的特征是有一定困 难的 , 如果借助可视化工具将使这一过程要容易得 多。 我们引用 “Visual Hierarchical Dimension Reduc2 tion for Exploration of High Dimensional Datasets”中的 以发现不相似测距的一些聚类 , 将每一聚类中的一 个叶子结点当作它的表示维度 RD 。这些表示维度 RD 分别是 “education” “age ” “sex” “weeks , , , worked in year”和 “income ” 。我们希望形成一个能 揭示在这个数据集的主要趋势的一个低维空间 , 事 实上 , 我们从这个空间上发现了一些有趣的数据聚 类 。
然后 , 我们检查每一个感兴趣的聚类的细节 ( 如图 3 ( b) ) 。令人奇怪的是两个不相关的聚类在 一起 , 如 : 聚类 “region of previous residence”与聚 类“income” 。因此 , 从聚类中移开不相关的维度 ( 如图 3 ( c) ) , 然后检查由所有聚类的叶子结点组 成的低维空间 , 发现大部分低收入人群有低计时工 资和低资本增值 。通过分析 , 可以看出收入水平与 资本增值 、计时工资之间的正比关系 。 从而使数据挖掘从以计算机为中心的发展方向向以 人为中心的发展方向转变 。 可视化数据挖掘已成今后数据挖掘的主要发展 方向之一 。可视化技术可以应用于数据挖掘的各个 【10】 阶段 , 如图 4 所示 。 在数据挖掘过程中 , 使用可视化技术可以产生 【11 - 12】 以下一些好的效果 。 ( 1) 提高结果的可信度 。由于允许用户参与到 数据挖掘过程中 , 且通过人机接口与数据挖掘过程120情 卷 报 科 学 25 据挖掘仅仅是给出一个自动挖掘结果的“黑盒”的 角色 。进行交互 , 实时监测挖掘的中间结果 , 从而有效地 提高挖掘结果的可信度 , 改变以往 K 过程中数 DD(a) 预先的可视化 (b) 中间的可视化 (c) 结果的可视化图4 可视化在数据挖掘不同阶段的应用 ( 引自文献 10】 【 ) ( 2) 提高挖掘结果的质量 。
通过对数据和信 息的可视化 , 充分利用人类认知能力 , 可显著地提 高数据挖掘结果的有效性和质量 。 ( 3) 充分利用了现有领域知识 。由于在可视化 数据挖掘过程中采用了人机交互式的可视化用户界 面 , 因此如果用户是领域专家 , 那么他能在整个过 程中充分利用领域知识来约束算法的搜索过程 , 从 而提高了搜索效率 。3 欧海英等 . 平行坐标可视化技术在固体火箭发动机优化设计中的应用 [J ] . 固体火箭技术 ,2004 , (4) :255 -
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。