一种基于散点图展示数据的可视化方法及系统的制作方法

文档序号:6513191阅读:345来源:国知局
一种基于散点图展示数据的可视化方法及系统的制作方法
【专利摘要】本发明提供一种基于散点图展示数据的可视化方法,该方法包括数据处理和数据展示,数据处理包括:数据源配置、扫描与读取;数据展示包括:采用散点图展示所述处理后的数据;所述散点图展示可以进行上限、下限上单方向的修改与范围的整体拖动。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。另外,本发明还提供一种基于散点图展示数据的可视化系统。
【专利说明】一种基于散点图展示数据的可视化方法及系统【技术领域】
[0001]本发明涉及数据处理领域,尤其涉及一种基于散点图展示数据的可视化方法及系统。
【背景技术】 [0002]散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形。散点图的特点是能够直观地表现出影响因素和预测对象之间的总体关系趋势,其优点是能够通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度。简单的散点图只能表征少量的数据,在数据特别是超数据中会遇到显示的点太多,响应速度异常慢等一系列问题。同时简单的散点图只是个展示工具,没有交互功能,不能查看数据的具体情况,也不具备数据纠错的能力。

【发明内容】

[0003]因此,本发明为了解决上述缺陷之一。
[0004]因而,本发明提供一种基于散点图展示数据的可视化方法及系统,本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
[0005]所以,本发明一个实施例提供一种基于散点图展示数据的可视化方法,该方法包括数据处理和数据展示,所述数据处理包括:
数据源配置步骤;
数据源扫描与读取步骤;
所述数据展示包括:
采用散点图展示数据处理后的数据步骤;其中,
散点图展示数据可进行上限、下限上单方向的修改与范围的整体拖动步骤。
[0006]优选地,所述数据源配置步骤包括自变量X和因变量Y。
[0007]在本发明一个实施例中,所述数据源扫描与读取步骤包括:扫描数据源,获取Y值的分布以及变量X和Y各自的最大值与最小值,并计算出变量X和Y的各自取值区间;依据所述取值区间将所述的变量X和Y的最大值与最小值调整为10的η次方的倍数;将所述X的取值区间划分为一系列等距的Gx,并计算出X轴的4种展示刻度;判断Y值的分布情况,如果Y为离散值则保留原样;否则类同X轴,将对最小值、最大值进行修整,并计算出Y轴的刻度Sy ;再次扫描数据源,读取每条记录的X和Y值:x和y,并计算出X和y对应的数据格Gxy ;在数据读取完毕后分析存储数据,并修正X轴的展示刻度。
[0008]优选地,所述4种展示刻度支持动态识别和相互切换。
[0009]在本发明一个实施例中,优选地所述判断Y值的分布情况包括:自动识别Y值的分布情况,如果Y值出现的不同值的个数小于某特定值时,Y将被视为离散值对待,并保留期具体的数值,即Gy的刻度为O ;否则Y将作为连续值,将Y轴划分成一系列等距的Gy,并依据取值区间自动识别出Gy的间距刻度sy,使得sy的单位为10的η次方的倍数,使等分后Gy的数量约为100个。
[0010]在本发明一个实施例中,所述计算数据格Gxy包括:根据Gx和Gy的刻度值共同计算数据格Gxy的记录数;确定对应的归属数据格后,该数据格记录数加1,所述X轴和Y轴分别加上对应的X值和I值。
[0011]在本发明一个实施例中,所述采用散点图展示处理后的数据包括:所述散点图中的某个点对应的是数据格Gxy的记录点集合;所述数据格Gxy只保存G的记录数。
[0012]优选地,所述采用散点图展示处理后的数据还包括:鼠标定位到散点图某点时展示对应数据格Gxy的具体信息;所述具体信息至少包括范围和该数据格记录数。
[0013]优选地,所述采用散点图展示处理后的数据还包括:鼠标单击散点图某点时将展示对应数据格内数据的详细信息;所述详细信息以列表的形式显示。
[0014]优选地,所述展示对应数据格内数据的详细信息可用于异常数据分析。
[0015]优选地,展示对应数据格内数据的详细信息可选择一片区域进行显示。
[0016]本发明另一个实施例提供一种基于散点图展示数据的可视化系统,包括数据处理单元和数据展示单元,其特征在于,所述数据处理单元包括:数据源配置模块,用于对数据源进行配置;数据源扫描与读取模块,用于对数据源扫描与读取;所述数据展示单元包括:散点图展示模块,用于采用散点图展示数据处理后的数据;其中,散点图调整模块,用于散点图展示数据可进行上限或下限上单方向的修改与范围的整体拖动。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
【专利附图】

【附图说明】
[0017]图1是本发明一个实施例中定义的数据格Gxy的示意图。
[0018]图2是本发明一个实施例提供的一种基于散点图展示数据的可视化方法的具体流程示意图。
【具体实施方式】
[0019]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0020]本发明提供一种基于散点图展示数据的可视化方法及系统,本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
[0021]在本发明实施例中,为了解决简单散点图只能表征少量数据的分布形态,且当简单散点图展示数据量巨大时无法在一个图形中展示出所有的点,因此本发明将对散点图进行扩展,扩展后的散点图中的某一个点将不再对应一个具体的记录点,而是满足{xl〈=x〈x2,yl〈=y〈y2}的所有记录点的集合:数据格Gxy。如图1所示,对数据格Gxy进行如下定义:
定义 Gx{xl,x2}为 G{(x, y) |xl〈=x〈x2},简称 Gx,即所有满足 xl〈=x〈x2 的点(x, y); 定义 Gy{yl,y2}为 G {(x, y) | yl〈=y〈y2},简称 Gy,即所有满足 yl〈=y〈y2 的点(x, y); 定义数据格Gxy为G {Gx, Gy},即同时满足Gx和Gy的点。
[0022]如图2是本发明一个实施例提供的一种基于散点图展示数据的可视化方法的具体流程示意图,该方法具体步骤如下:
步骤SllO:数据处理包括数据源配置步骤和数据源扫描与读取步骤。
[0023]步骤Slll:数据源配置步骤。
[0024]根据上述的数据格Gxy可以看出,本发明实施例中的数据格Gxy并不保存所有满足{ xl〈=x〈x2, yl〈=y〈y2}的记录点的详细坐标,为了节约存储空间,数据格Gxy只保存属于G的记录数。同时为了展示数据格内数据量大小的差异,点的大小也将动态变化,即数据格内数据越多,对应的点就越大。
[0025]本步骤的数据源配置依据自变量X和因变量Y进行,自变量X和因变量Y可以是根据时间定义坐标,也可以根据数据内容进行定义。
[0026]步骤S112:数据源扫描与读取步骤。
[0027]配置好数据源后进行数据源扫描,获取Y值的分布情况和变量X、Y的最小值和最大值,计算出x、y的取值区间,依据取值区间对最小值、最大值进行修整。为了友好,方便人的阅读习惯,本系统将依据X轴取值区间对X的最小值、最大值进行修整,使得最小值、最大值为10的n次方(n为整数)的倍数,即Xmin (或Xmax) = m *10~n。如X的实际取值区间为[0.1,983.7],进行修整后X的最小值为0,最大值为1000,即取值区间变为:[O, 1000]。
[0028]依据X的取值区间计算出X轴的4种展示刻度。本发明将依据修正后的X轴取值区间划分成一系列等距的Gx,Gx的间距刻度Sx将会动态的识别成10的n次方(n为整数),即s=10~n,可能的取值为1、10、100、1000000、0.1、0.01等。同时为了支持缩放功能,本发明将同时支持3种Gx展示刻度,并支持切换(η连续,每切换一次,对应的将放大、缩小10倍)。4种Gx展示刻度将动态识别,识别的标准为使得最大展示刻度时X轴被等分成10-100个Gx,如X数据的分布区间为O到50000,那么本发明支持的Gx的展示刻度将为:1、10、100、1000。
[0029]判断Y值的分布情况,如果Y为离散值则保留原样;否则类同X轴,将对最小值、最大值进行修整,并计算出Y轴的刻度Sy。本发明将自动识别Y的数值分布情况,如果Y出现的不同值的个数小于某特定值(如50)时,Y将被作为离散值对待,并保留其具体的数值,即Gy的刻度为O ;否则Y将作为连续值,Y轴全范围划分成一系列等距的Gy,并依据其取值区间自动识别出Gy的间距刻度Sy,使得单位为10的η次方,且等分后Gy的数量大约为100个。如Y轴取值区间为O到700,那么Sy将为10。
[0030]扫描数据源,取出每条记录的X、Y值X和y,计算出X y对应所处的数据格Gxy。首先对于X轴每个展示刻度,计算X对应数据格的Gx,如x=155.3且X轴刻度为“ 10”时,155.3/10 = 15.53,则Gx为Gx {150,160}。如果Y轴为离散值,则Y值相同的对应于同一Gy,否则类同与X轴计算出Gy。Gx,Gy最终决定Gxy。假设Y轴为非离散型,其刻度为“ 100”,则数据(155.3,2720)和(152.9,2754)同属于数据格 Gxy {Gx {150,160},Gy {2700,2800}}。假设Y轴为离散型,这上述2条记录属于不同的数据格:Gxy{Gx{150,160},Gy {2720}}和Gxy{Gx{150, 160},Gy {2754}}。确定对应的归属数据格后,该数据格记录数加1,X轴总和加上X值,Y轴总和加上y值。
[0031]读取数据完毕后,分析存储的数据,修正X轴展示刻度,如果某个小级别的刻度中有效的Gx数量(Gx中记录数大于O则称该Gx有效)小于上级的有效Gx数量的2倍,则删除该刻度,删除该刻度的原因是当放大到该级别时,信息增加的并不多,实际数据明细并没有得到有效的放大。确定保留的有效展示刻度中最大的为初始展示的刻度。
[0032]步骤S120:数据展示包括采用散点图展示数据处理后的数据步骤;其中,散点图展示数据可进行上限或下限上单方向的修改与范围的整体拖动步骤。
[0033]步骤S121:采用散点图展示数据处理后的数据。
[0034]如图3所示是本发明实施例采用散点图展示数据的可视化示意图。在本步骤中采用散点图展示数据,图中的每一个点代表着一个数据格,对于数据格{[xl,x2),[yl,y2)},点的位置为{(xl+x2)/2,(yl+y2)/2},点的大小依据该数据格内包含的记录数而定。
[0035]步骤S122:散点图展示数据可进行上限、下限上单方向的修改与范围的整体拖动。
[0036]在本发明一个实施例中,采用散点图展示数据,可根据实际查看需求对坐标上限、下限单方向的修改,亦可在整体范围内对数据格进行拖动。
[0037]在本发明一个实施例中,在散点图的右上方有显示X轴上10的η次方的刻度值,鼠标单击可以进行刻度值的相互切换。在散点图中,当鼠标移动到某个点上时,会展示对应数据格的具体信息,具体信息起码包含了数据格范围和该数据格中数据记录数等信息。为了更好的展示数据内容,可以采用鼠标点击散点图中的某点,进而以列表的形式展示对应数据格中的详细信息,便于数据预览、异常数据分析等。
[0038]在本发明一个实施例中,支持采用鼠标选取散点图中的某一连续的区域展示这些数据格的详细信息,以列表的形式将这些数据格内的详细信息予以预览。
[0039]本发明另一个实施例提供一种基于散点图展示数据的可视化系统,包括数据处理单元和数据展示单元,其特征在于,所述数据处理单元包括:数据源配置模块,用于对数据源进行配置;数据源扫描与读取模块,用于对数据源扫描与读取;所述数据展示单元包括:散点图展示模块,用于采用散点图展示数据处理后的数据;其中,散点图调整模块,用于散点图展示数据可进行上限或下限上单方向的修改与范围的整体拖动。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,实现了在数据量巨大情况下的数据展示的可视化,可用于数据展示和数据分析。
【权利要求】
1.一种基于散点图展示数据的可视化方法,包括数据处理和数据展示,其特征在于,所述数据处理包括: 数据源配置步骤; 数据源扫描与读取步骤; 所述数据展示包括: 采用散点图展示数据处理后的数据步骤;其中, 散点图展示可进行上限、下限上单方向的修改与范围的整体拖动步骤。
2.根据权利要求1所述的方法,其特征在于,所述数据源配置步骤包括自变量X和因变量Y。
3.根据权利要求1所述的方法,其特征在于,所述数据源扫描与读取步骤包括: 扫描数据源,获取Y值的分布以及变量X和Y各自的最大值与最小值,并计算出变量X和Y的各自取值区间; 依据所述取值区间将所述的变量X和Y的最大值与最小值调整为10的η次方的倍数; 将所述X的取值区间划分为一系列等距的Gx,并计算出X轴的4种展示刻度; 判断Y值的分布情况,如果Y为离散值则保留原样;否则类同X轴,将对最小值、最大值进行修整,并计算出Y轴的刻度Sy ; 再次扫描数据源,读取每条记录的X和Y值:χ和y,并计算出X和y对应的数据格Gxy ; 在数据读取完毕后分析存储数据,并修正X轴的展示刻度。
4.根据权利要求3所述的方法,其特征在于,所述4种展示刻度支持动态识别和相互切换。
5.根据权利要求3所述的方法,其特征在于,所述判断Y值的分布情况包括: 自动识别Y值的分布情况,如果Y值出现的不同值的个数小于某特定值时,Y将被视为离散值对待,并保留期具体的数值,即Gy的刻度为O ; 否则Y将作为连续值,将Y轴划分成一系列等距的Gy,并依据取值区间自动识别出Gy的间距刻度Sy,使得Sy的单位为10的η次方的倍数,使等分后Gy的数量约为100个。
6.根据权利要求3所述的方法,其特征在于,所述计算出X和y对应的数据格Gxy包括: 根据Gx和Gy的刻度值共同计算数据格Gxy的记录数; 确定对应的归属数据格后,该数据格记录数加1,所述X轴和Y轴分别加上对应的X值和I值。
7.根据权利要求1所述的方法,其特征在于,所述采用散点图展示数据处理后的数据步骤包括: 所述散点图中的某个点对应的是数据格Gxy的记录点集合; 所述数据格Gxy只保存G的记录数。
8.根据权利要求7所述的方法,其特征在于,所述采用散点图展示数据处理后的数据步骤还包括: 鼠标定位到散点图某点时展示对应数据格Gxy的具体信息; 所述具体信息至少包括范围和该数据格记录数。
9.根据权利要求7所述的方法,其特征在于,所述采用散点图展示数据处理后的数据步骤还包括: 鼠标单击散点图某点时将展示对应数据格内数据的详细信息; 所述详细信息以列表的形式显示。
10.根据权利要求9所述的方法,其特征在于,所述展示对应数据格内数据的详细信息可用于异常数据分析。
11.根据权利要求9或10所述的方法,其特征在于,展示对应数据格内数据的详细信息可选择一片区域进行显示。
12.一种基于散点图展示数据的可视化系统,包括数据处理单元和数据展示单元,其特征在于,所述数据处理单元包括: 数据源配置模块,用于对数据源进行配置; 数据源扫描与读取模块,用于对数据源扫描与读取; 所述数据展示单元包括: 散点图展示模块,用于采用散点图展示数据处理后的数据;其中, 散点图调整模块,用于散 点图展示可进行上限或下限上单方向的修改与范围的整体拖动。
【文档编号】G06F3/0481GK103472979SQ201310443520
【公开日】2013年12月25日 申请日期:2013年9月26日 优先权日:2013年9月26日
【发明者】王明兴, 樊文飞, 贾西贝 申请人:深圳市华傲数据技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1