基于非均匀分段映射的平行坐标改进方法与流程

文档序号:14195048阅读:260来源:国知局
基于非均匀分段映射的平行坐标改进方法与流程

本发明涉及一种针对多维数据可视化的平行坐标改进方法,属于计算机图形学与可视化技术领域。

技术背景

平行坐标是针对多维数据集进行可视化和可视分析的常用方法,在平行坐标可视化结果中,将多维数据的各个维用一系列相互平行的坐标轴表示,一个在多维空间的数据点被表示为一条拐点在n条平行坐标轴的折线,在第k个坐标轴上的位置就表示这个点在第k维的数据值。

在平行坐标可视化结果中,当数据集的数据分布很不均匀(即数据大量集中于某些数据点周围)时,容易发生严重的可视化结果重叠问题,对可视分析过程造成很大的困扰。

本发明针对传统的平行坐标可视化方法,提出一种将各维对应的坐标轴进行分段,并在各分段之间实现不同比例的数据映射,从而提高平行坐标对不均匀分布的多维数据集的可视化能力。在已公开的文献中,还未发现同类技术。



技术实现要素:

本发明的目的是针对平行坐标可视化方法提出一种改进措施,使其在针对很不均匀的多维数据集进行可视化时,能够提高其表达能力。

本发明提出的一种基于非均匀分段映射的平行坐标改进方法,包含如下步骤:

步骤1:针对数据集的每一维数据,从数据的最小值至最大值的数据范围均分为多个分段。分段数由用户设定,一般需根据数据类型和内容设定,同一数据集中的不同数据维的分段数量可以不同。

如第i维数据的最小值为mini,最大值为maxi,设定该维数据分段数量为ni,则每个分段的大小为segi=(maxi-mini)/ni,第i维数据的第j分段的范围如公式(1)所示,

rangei,j=[mini+segi*(j-1),mini+segi*j)(1)

最大值包含在最后一分段中。

步骤2:针对数据集的每一维数据,统计该维数据在每一分段中出现的次数,简称为数据分段频次。

步骤3:针对数据集的每一维数据,基于步骤2中得出的数据分段频次,建立描述当前维的数据分段频次的直方图。

建立方法为:直方图的横坐标为数据分段,纵坐标为数据分段频次。

根据直方图的定义,每一维数据所对应的直方图,可表示该维数据的分布规律。

步骤4:基于数据集中的每一维数据的数据分段频次直方图,将直方图信息融入平行坐标系的相应坐标轴中,形成融合数据分段频次分布直方图的平行坐标系(简称分段平行坐标系)。

建立方法为:针对数据集中的每一维数据,将基于其数据分段频次建立的直方图,进行横纵坐标交换(即纵坐标为数据分段,横坐标为数据分段频次),并进行横坐标放缩,与平行坐标系中该维数据对应的坐标轴结合。

通过分段平行坐标系,能快速观察各维数据的数据分布情况。

步骤5:调整分段平行坐标系中的坐标轴各分段的高度占比。

调整的原则主要为使数据频次较大的分段拥有较大的高度占比,而使数据频次较小的分段占据较小的高度占比。针对某一维数据对应的坐标轴中,某一数据分段的调整后高度占比的计算方法如公式(2)所示:

其中,hi是调整后的分段高度;k是调整系数,其取值范围为k∈[0,1],k值越大则调整越明显,反之k值越小则调整越不明显,可根据需求进行自由调整;当k=0时即为不调整(各分段高度相同),k=1时各分段的高度占比与对应分段的数据频次比例相同,一般可以取0.7;hd是当前维对应坐标轴的总高度,n是当前维的分段数量,fi是当前分段的数据频次。

调整后,当前维对应的坐标轴的n个分段中,第1个分段在坐标轴上的高度范围为[0,h1],第2至n个分段中第i个分段在坐标轴上的高度范围为第2至n个分段中第i个分段在坐标轴上的高度范围为

经过调整后的分段平行坐标系,每一维数据对应的坐标轴中的各个分段其映射比例不同,调整后的分段平行坐标系称为非均匀分段映射平行坐标系。

步骤6:针对数据集中的每一条数据,计算其在非均匀分段映射平行坐标系中各坐标轴上的映射位置。

针对一条数据,计算其在第i个坐标轴上的映射高度的计算方法为:

步骤6.1:针对该条数据,取其第i维的数据值,命名该数据值为d;

步骤6.2:根据步骤1中的分段范围,获知数据d在第i维的分段中所属的分段,命名该分段为s,并获取该分段所对应的数值范围

步骤6.3:根据分段s在当前维的所有分段中的顺序号和步骤5中获得的各分段在坐标轴上的高度范围,获得分段s的坐标轴高度范围

步骤6.4:根据公式(3)计算该条数据中第i维的数据值d在分段平行坐标系中的当前坐标轴上的映射高度值,

其中,d为步骤6.1中该条数据第i维的数据值,为步骤6.2中数据d所属分段的数值范围低值和高值,是步骤6.3中获得的分段s的坐标轴高度范围低值和高值。

步骤6.5:针对该条数据的其他维数据值,执行步骤6.1至步骤6.4得到该条数据所有维的数据值在相应坐标轴上的映射高度值。

步骤6.6:针对该条数据的每一维数据值在相应坐标轴上的映射高度值,与相应坐标轴共同组成该条数据在各坐标轴上的映射位置。

步骤6.7:针对数据集中的所有数据,执行步骤6.1至步骤6.6,计算每条数据在非均匀分段映射平行坐标系中各坐标轴上的映射位置。

步骤7:绘制改进后的基于非均匀分段映射的平行坐标可视化结果。

针对数据集中的每一条数据,连接其在各坐标轴上的映射位置,即可获得改进后的基于非均匀分段映射的平行坐标可视化结果,连接线可以使用折线或其他曲线。

有益效果

本发明提供了一种针对分布不均匀的多维数据集的可视化方法,提出的不均匀分段映射的平行坐标可视化方法,其有益效果包括:

(1)通过将数据频次直方图进行变换后合并至坐标系,能够同时展现数据集中各维数据的分布规律,以及相邻维间的相关性关系,实现了多方面信息的综合展示。

(2)通过针对传统平行坐标系中坐标轴的映射关系进行分段,并对各分段进行适当放缩,从而降低最终可视化结果中的重叠问题,提高平行坐标的可视化表现能力,更为有效的辅助数据分析人员进行数据集的可视分析。

附图说明

图1为本发明具体实施方式中实现不均匀分段映射的平行坐标可视化方法的实现流程图;

图2为本发明具体实施方式中某维数据分段频次的直方图示意图;

图3为本发明具体实施方式中分段平行坐标系示意图;

图4为本发明具体实施方式中非均匀分段映射平行坐标系示意图;

图5为本发明具体实施方式中使用折线连接的非均匀分段映射平行坐标可视化结果示例。

具体实施方式

下面结合附图和实施例,对本发明作进一步的说明。本实施例中使用的数据集的数据条数为30条数据,数据维数为4维。

本实施例中所实现的一种基于非均匀分段映射的平行坐标改进方法,实现流程图如附图1所示,包含如下步骤:

步骤1:针对数据集的每一维数据,从数据的最小值至最大值的数据范围均分为多个分段。分段数由用户设定,一般需根据数据类型和内容设定,同一数据集中的不同数据维的分段数量可以不同。

以第1维数据为例,第1维数据的最小值为mini=-12.0,最大值为maxi=138.0,设定该维数据分段数量为ni=5,则每个分段的大小为segi=(maxi-mini)/ni=(138.0-(-12.0))/5=30.0,根据第i维数据的第j分段的范围公式(1),第1维第0-4分段的范围依次为[-12.0,18.0)、[18.0,48.0)、[48.0,78.0)、[78.0,108.0),根据最大值包含在最后一分段中的原则,第5分段的范围为[108.0,138.0]。

步骤2:针对数据集的每一维数据,统计该维数据在每一分段中出现的次数,简称为数据分段频次。

以第1维数据为例,第1维数据在第1至5分段中的分段条数依次为5、3、10、4、8。

步骤3:针对数据集的每一维数据,基于步骤2中得出的数据分段频次,建立描述当前维的数据分段频次的直方图。

建立方法为:直方图的横坐标为数据分段,纵坐标为数据分段频次。

针对实施例中的4维数据集,根据其第1维的数据分段频次,第1维数据的直方图如附图2所示。

步骤4:基于数据集中的每一维数据的数据分段频次直方图,将直方图信息融入平行坐标系的相应坐标轴中,形成融合数据分段频次分布直方图的平行坐标系(简称分段平行坐标系)。

建立方法为:针对数据集中的每一维数据,将基于其数据分段频次建立的直方图,进行横纵坐标交换(即纵坐标为数据分段,横坐标为数据分段频次),并进行横坐标放缩,与平行坐标系中该维数据对应的坐标轴结合。

针对当前数据集,4维数据中第1至4维设定分段数依次为5、10、8、3个,统计所得各分段数据频次如表1所示,

表1数据集的各维分段数及其数据频次

将数据分段频次融合至平行坐标轴的效果如附图3所示。通过分段平行坐标系,能快速观察各维数据的数据分布情况。

步骤5:调整分段平行坐标系中的坐标轴各分段的高度。

调整的原则主要为使数据频次较大的分段拥有较大的高度,而使数据频次较小的分段占据较小的高度。根据公式(2),针对当前数据集,设定k=0.7时数据集的各维的各分段调整后高度如表2所示。

表2k=0.7时数据集的各分段调整后高度(单位:像素)

调整后,当前维对应的坐标轴的n个分段中,第1个分段在坐标轴上的高度范围为[0,h1],第2至n个分段中第i个分段在坐标轴上的高度范围为在实施例中,以第1维为例,第1个分段在坐标轴上的高度范围为[0,53],第2至5个分段在坐标轴上的高度范围依次为[53,92]、[92,180]、[180,226]、[226,300]。其他维的各分段高度范围可据此计算得出。

经过调整后的分段平行坐标系,每一维数据对应的坐标轴中的各个分段其映射比例不同,调整后的分段平行坐标系称为非均匀分段映射平行坐标系。附图4是针对实施例中的数据集的非均匀分段映射平行坐标系示例。

步骤6:针对数据集中的每一条数据,计算其在非均匀分段映射平行坐标系中各坐标轴上的映射位置。

以数据集中的第一条数据为例,第1维数据值20.2,在第1个坐标轴上的映射高度的计算方法为:

步骤6.1:针对该条数据,取其第i维的数据值,命名该数据值为d;取第1条数据第1维的数据值20.2,即d=20;

步骤6.2:根据步骤1中的分段范围,获知数据d在第i维的分段中所属的分段,命名该分段为s,并获取该分段所对应的数值范围

根据步骤1中的分段范围,获知数据d=20在第1维的分段中所属的分段为第2分段,即s=2,并获取第2分段所对应的数值范围为[18.0,48.0),即

步骤6.3:根据分段s在当前维的所有分段中的顺序号和步骤5中获得的各分段在坐标轴上的高度范围,获得分段s的坐标轴高度范围

根据步骤5中的计算结果第2分段在第1维对应的坐标轴中的高度范围为[92,180],即

步骤6.4:根据公式(4),该条数据中第i维的数据值d在分段平行坐标系中的当前坐标轴上的映射高度值为,

其中,d为步骤6.1中该条数据第i维的数据值,为步骤6.2中数据d所属分段的数值范围低值和高值,是步骤6.3中获得的分段s的坐标轴高度范围低值和高值。

步骤6.5:针对该条数据的其他维数据值,执行步骤6.1至步骤6.4得到该条数据所有维的数据值在相应坐标轴上的映射高度值。

步骤6.6:针对该条数据的每一维数据值在相应坐标轴上的映射高度值,与相应坐标轴共同组成该条数据在各坐标轴上的映射位置。

步骤6.7:针对数据集中的所有数据,执行步骤6.1至步骤6.6,计算每条数据在非均匀分段映射平行坐标系中各坐标轴上的映射位置。

步骤7:绘制改进后的基于非均匀分段映射的平行坐标可视化结果。

针对数据集中的每一条数据,连接其在各坐标轴上的映射位置,即可获得改进后的基于非均匀分段映射的平行坐标可视化结果,连接线可以使用折线或其他曲线。附图5是针对实施例数据集,使用折线连接的非均匀分段映射平行坐标可视化结果示例。

与传统平行坐标可视化结果相比,该可视化结果的改进之处在于:

(1)通过将数据频次直方图进行变换后合并至坐标系,使得平行坐标系能直观的展示数据中在不同分段中的数据频次,从而可快速获知各维数据的分布规律;

(2)通过对坐标轴进行分段,并对高频次分段增加高度占比,从而降低高数据频次的分段中的数据密度,从而降低可视化结果中的重叠现象,能够在可视分析过程中有效提高交互效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1