一种基于散点图的数据质量检测方法及系统的制作方法

文档序号:6513182阅读:206来源:国知局
一种基于散点图的数据质量检测方法及系统的制作方法
【专利摘要】本发明提供一种基于散点图的数据质量检测方法,该方法包括:定义数据格Gxy,并对多种趋势线进行拟合;采用散点图展示数据,根据数据的实际趋势选择趋势线进行展示;根据确定好的趋势线类型和参数生成数据质量规则;选取适当的数据质量规则,根据阀值进行数据质量检测。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。另外,本发明另一个实施例提供一种基于散点图的数据质量检测系统。
【专利说明】一种基于散点图的数据质量检测方法及系统【技术领域】
[0001]本发明涉及数据领域,尤其涉及一种基于散点图的数据质量检测方法及系统。
【背景技术】
[0002]散点图又称散点分布图,是以一个变量为横坐标,另一变量为纵坐标,利用散点(坐标点)的分布形态反映变量统计关系的一种图形。特点是能直观表现出影响因素和预测对象之间的总体关系趋势。优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度。简单的散点图只能表征少量的数据,在数据量巨大情况中会遇到显示的点太多,响应速度异常慢等一系列问题。同时简单的散点图只是个展示工具,没有交互功能,不能查看数据的具体情况,也不具备数据纠错的能力。因而需要一种基于散点图展示二维数据分布情况,并具对异常数据进行分析、纠错功能的方法。

【发明内容】

[0003]因此,本发明为了解决上述缺陷之一。
[0004]因而,本发明提供一种基于散点图的数据质量检测方法及系统,本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。
[0005]所以,本发明一个实施例提供一种基于散点图的数据质量检测方法,该方法包括:定义数据格Gxy,并对多种趋势线进行拟合;采用散点图展示数据,根据数据的实际趋势选择趋势线进行展示;根据确定好的趋势线类型和参数生成数据质量规则;选取适当的数据质量规则,根据阀值进行数据质量检测。
[0006]在本发明一个实施例中,定义数据格Gxy,并对多种趋势线进行拟合包括以下步骤:
定义数据格Gxy,对数据源进行扫描;
对数据源进行读取,并分析存储的数据,修正X轴展示刻度;
对每个有效展示刻度的每个有效数据格Gxy,依据总记录数和总和计算出X、Y平均值;对每个有效展示刻度的每个Gx,计算X的总平均值和所有Gy总的平均值,并根据总平均值对每种趋势线进行拟合。
[0007]优选地,采用的趋势线种类包括:直线、对数曲线、指数曲线、二次曲线、龚柏兹曲线、逻辑曲线、周期曲线等。
[0008]优选地,采用散点图展示数据信息至少包括:数据散点信息、所有Gx均值线和拟合出的趋势线等。
[0009]在本发明一个实施例中,根据数据的实际趋势选择趋势线包括:
在散点图上显示趋势线的种类,根据数据实际趋势进行选择; 当拟合出的趋势线参数不满足当前数据显示时,可进行手工调整趋势线的参数;其中,调整方式可在散点图中可直接修改趋势线公式或者对每个参数支持鼠标拖动修改,并在散点图中实时展示鼠标拖动修改时趋势线变化情况。
[0010]在本发明一个实施例中,生成数据质量规则包括:
假设趋势线为y=f (X),即对某个X值,根据趋势线可计算出目标值I ;
给目标值设定一个阀值生成数据质量规则。
[0011]优选地,阀值的设定可为绝对值。
[0012]优选地,阀值的设定可为百分比方式。
[0013]在本发明一个实施例中,数据质量检测包括:
根据散点图中数据展示的实际情况选取合适的数据质量规则,针对每个输入数据(X,y),根据所述规则的趋势线技术计算出X对应的目标值I,;
设定阀值的大小或者百分比,计算出目标值的合理区间进行判断实际值y的数据质量情况。
[0014]本发明另一个实施例提供一种基于散点图的数据质量检测系统,该系统包括: 趋势线拟合单元,用于根据定义数据格Gxy,并获取对多种趋势线进行拟合的信息; 数据展示单元,用于采用散点图展示数据,根据数据的实际趋势选择趋势线进行展
示;
数据质量规则生成单元,用于根据确定好的趋势线类型和参数生成数据质量规则,并获取数据质量规则信息;
数据质量检测单元,用于选取适当的数据质量规则,根据阀值进行数据质量检测,并获取数据质量检测结果。
[0015]优选地,数据展示单元选择趋势线种类包括:直线、对数曲线、指数曲线、二次曲线、龚柏兹曲线、逻辑曲线、周期曲线等。
[0016]在本发明一个实施例中,数据展示单元根据数据的实际趋势选择趋势线进行展示包括:
在散点图上显示趋势线的种类,根据数据实际趋势进行选择;
当拟合出的趋势线参数不满足当前数据显示时,可进行手工调整趋势线的参数;其中,调整方式可在散点图中直接修改趋势线公式或者对每个参数支持鼠标拖动修改,可在散点图中实时展示鼠标拖动修改时趋势线变化情况。
[0017]在本发明一个实施例中,数据质量规则生成单元生成数据质量规则包括:假设趋势线为y=f (X),即对某个X值,根据趋势线可计算出目标值I;给目标值设定一个阀值生成数据质量规则。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。
【专利附图】

【附图说明】
[0018]图1是本发明一个实施例提供的一种基于散点图的数据质量检测方法的具体流程不意图。
[0019]图2是本发明一个实施例中定义的数据格Gxy的示意图。【具体实施方式】
[0020]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
[0021]本发明提供一种基于散点图的数据质量检测方法及系统,本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。
[0022]如图1是本发明一个实施例提供的一种基于散点图的数据质量检测方法的具体流程示意图,该方法具体步骤如下:
步骤SllO:定义数据格Gxy,并对多种趋势线进行拟合。
[0023]步骤Slll:定义数据格Gxy,对数据源进行扫描。
[0024]在本发明实施例中,为了解决简单散点图只能表征少量数据的分布形态,且当简单散点图展示数据量巨大时无法在一个图形中展示出所有的点,因此本发明将对散点图进行扩展,扩展后的散点图中的某一个点将不再对应一个具体的记录点,而是满足{xl〈=x〈x2,yl〈=y〈y2}的所有记录点的集合:数据格Gxy。如图2所示,对数据格Gxy进行如下定义:
定义 Gx{xl,x2}为 G{(x, y) |xl〈=x〈x2},简称 Gx,即所有满足 xl〈=x〈x2 的点(x, y); 定义 Gy{yl,y2}为 G {(x, y) | yl〈=y〈y2},简称 Gy,即所有满足 yl〈=y〈y2 的点(x, y); 定义数据格Gxy为G {Gx, Gy},即同时满足Gx和Gy的点。
[0025]步骤S112:对数据源进行读取,并分析存储的数据,修正X轴展示刻度。
[0026]对数据进行读取前需要对数据源进行配置,包括配置数据来源依据自变量X和因变量Y。然后扫描数据源,获取Y值的分布情况和变量X、Y的最小值和最大值,计算出X、Y的取值区间,依据取值区间对最小值、最大值进行修整,依据X的取值区间计算出X轴的4种展示刻度。根据每条记录的X、Y值X和y,计算出X y对应所处的数据格Gxy,并且分析存储的数据,修正X轴展示刻度,如果某个小级别的刻度中有效的Gx数量(Gx中记录数大于O则称该Gx有效)小于上级的有效Gx数量的2倍,则删除该刻度。删除该刻度的原因是当放大到该级别时,信息增加的并不多,实际数据明细并没有得到有效的放大。确定保留的有效展示刻度中最大的为初始展示的刻度。
[0027]步骤S113:对每个有效展示刻度的每个有效数据格Gxy,依据总记录数和总和计算出X、Y平均值。
[0028]步骤S114:对每个有效展示刻度的每个Gx,计算X的总平均值和所有Gy总的平均值,并根据总平均值对每种趋势线进行拟合。
[0029]趋势线种类包括:
直线:y = a + b * X ;
对数曲线:y = a + b*ln(x + I);
指数曲线:y = k + a* b"x ;
二次曲线:y = a + b*x + c* x'2 ; 袭柏兹曲线:y = k * a" (b"x);
逻辑曲线:y = I/ (k + a* b'x);
周期曲线:y = a*x + b*sin (c*x+d)。
[0030]步骤S120:采用散点图展示数据,根据数据的实际趋势选择趋势线进行展示。
[0031]在本发明一个实施例中,用散点图的方式来展示处理后的数据,处理后的数据中每个数据格代表散点图中的一个点,对于数据格{[xl,x2),[yl,y2)},点的位置为{(xl+x2)/2, (yl+y2)/2},点的大小依据该数据格内包含的记录数而定。采用散点图展示数据信息至少包括:数据散点信息、所有Gx均值线和拟合出的趋势线等。
[0032]在本发明一个实施例中,根据数据的实际趋势选择趋势线包括:在散点图上显示趋势线的种类,根据数据实际趋势进行选择;当拟合出的趋势线参数不满足当前数据显示时,可进行手工调整趋势线的参数;其中,调整方式可在散点图中直接修改趋势线公式或者对每个参数支持鼠标拖动修改,可在散点图中实时展示鼠标拖动修改时趋势线变化情况。
[0033]步骤S130:根据确定好的趋势线类型和参数生成数据质量规则。
[0034]在本发明一个实施例中,生成数据质量规则包括:假设趋势线为y=f (X),即对某个X值,根据趋势线可计算出目标值y;给目标值设定一个阀值生成数据质量规则;其中,阀值的设定可为绝对值或者百分比方式。假设趋势线为y=f (X),即对某个X值,根据趋势线可计算出目标值y,给目标值一个合理的浮动范围(阈值),则构成数据质量规则。浮动范围有两种定义方式,一种是绝对值,如定义上限为50,下限为40,则当目标值为200时,实际值在区间[160,250]内都是合理的。另一种方式是百分比,如上下限都是20%且目标值为200时,实际值在区间[160,240]内都是合理的。数据规则定义好后可以保存到规则库中,以后需要时可直接从规则库中取出相应的规则使用。
[0035]步骤S140:选取适当的数据质量规则,根据阀值进行数据质量检测。
[0036]在本发明一个实施例中,数据质量检测包括:根据散点图中数据展示的实际情况选取合适的数据质量规则,针对每个输入数据(x,y),根据所述规则的趋势线技术计算出X对应的目标值y’ ;设定阀值的大小或者百分比,计算出目标值的合理区间进行判断实际值y的数据质量情况。假设数据规则的趋势部分为y=37.9 + 20*x/1000,阈值部分为百分比20%。对于输入数据(10000,213),可计算出目标值为37.9+20*10/1000=237.9,合理区间为[237.9*0.8,237.9*1.2] = [190.32,285.48],实际值213属于该区间,则数据(10000,213)是合理数据。同理可判定(32000,511)是异常数据。
[0037]本发明另一个实施例提供一种基于散点图的数据质量检测系统,该系统包括: 趋势线拟合单元,用以根据定义数据格Gxy,并获取对多种趋势线进行拟合的信息;
数据展示单元,用以采用散点图展示数据,根据数据的实际趋势选择趋势线进行展
示;
数据质量规则生成单元,用以根据确定好的趋势线类型和参数生成数据质量规则,并获取数据质量规则信息;
数据质量检测单元,用以选取适当的数据质量规则,根据阀值进行数据质量检测,并获取数据质量检测结果。
[0038]优选地,数据展示单元选择趋势线种类包括:直线、对数曲线、指数曲线、二次曲线、龚柏兹曲线、逻辑曲线、周期曲线等。[0039]在本发明一个实施例中,数据展示单元根据数据的实际趋势选择趋势线进行展示包括:
在散点图上显示趋势线的种类,根据数据实际趋势进行选择;
当拟合出的趋势线参数不满足当前数据显示时,可进行手工调整趋势线的参数;其中,调整方式可在散点图中直接修改趋势线公式或者对每个参数支持鼠标拖动修改,可在散点图中实时展示鼠标拖动修改时趋势线变化情况。
[0040]在本发明一个实施例中,数据质量规则生成单元生成数据质量规则包括:假设趋势线为y=f (X),即对某个X值,根据趋势线可计算出目标值I;给目标值设定一个阀值生成数据质量规则。本发明通过定义数据格Gxy来存储数据,并利用散点图来展示数据,并根据已确定的趋势线来生成数据质量规则,进而根据该规则设定阀值进行数据质量检测,实现了数据量巨大情况下对数据的展示和异常数据分析、数据纠错等应用。
【权利要求】
1.一种基于散点图的数据质量检测方法,其特征在于,所述方法包括以下步骤: 定义数据格GXy,并对多种趋势线进行拟合; 采用散点图展示数据,根据数据的实际趋势选择趋势线进行展示; 根据确定好的趋势线类型和参数生成数据质量规则; 选取适当的数据质量规则,根据阀值进行数据质量检测。
2.根据权利要求1所述的方法,其特征在于,所述定义数据格Gxy,并对多种趋势线进行拟合包括以下步骤: 定义数据格Gxy,对数据源进行扫描; 对数据源进行读取,并分析存储的数据,修正X轴展示刻度; 对每个有效展示刻度的每个有效数据格Gxy,依据总记录数和总和计算出X、Y平均值;对每个有效展示刻度的每个Gx,计算X的总平均值和所有Gy总的平均值,并根据总平均值对每种趋势线进行拟合。
3.根据权利要求1或2所述的方法,其特征在于,所述趋势线包括:直线、对数曲线、指数曲线、二次曲线、龚柏兹曲线、逻辑曲线、周期曲线等。
4.根据权利要求1所述的方法,其特征在于,所述采用散点图展示数据信息至少包括:数据散点信息、所有Gx均值线和拟合出的趋势线等。
5.根据权利要求1所述.的方法,其特征在于,所述根据数据的实际趋势选择趋势线包括: 在散点图上显示趋势线的种类,根据数据实际趋势进行选择; 当拟合出的趋势线参数不满足当前数据显示时,可进行手工调整趋势线的参数;其中,调整方式可在散点图中直接修改趋势线公式或者对每个参数支持鼠标拖动修改,可在散点图中实时展示鼠标拖动修改时趋势线变化情况。
6.根据权利要求1所述的方法,其特征在于,所述生成数据质量规则包括: 假设趋势线为y=f (X),即对某个X值,根据趋势线可计算出目标值I ; 给目标值设定一个阀值生成数据质量规则。
7.根据权利要求6所述的方法,其特征在于,所述阀值的设定为绝对值。
8.根据权利要求6所述的方法,其特征在于,所述阀值的设定为百分比方式。
9.根据权利要求1所述的方法,其特征在于,所述数据质量检测包括: 根据散点图中数据展示的实际情况选取数据质量规则,针对每个输入数据U,y),根据所述规则的趋势线技术计算出X对应的目标值r ; 设定阀值的大小或者百分比,计算出目标值的合理区间进行判断实际值y的数据质量情况。
10.一种基于散点图的数据质量检测系统,其特征在于,所述系统包括: 趋势线拟合单元,用于根据定义数据格Gxy,并获取对多种趋势线进行拟合的信息; 数据展示单元,用于采用散点图展示数据,根据数据的实际趋势选择趋势线进行展示; 数据质量规则生成单元,用于根据确定好的趋势线类型和参数生成数据质量规则,并获取数据质量规则信息; 数据质量检测单元,用于选取适当的数据质量规则,根据阀值进行数据质量检测,并获取数据质量检测结果。
11.根据权利要求10所述的系统,其特征在于,所述数据展示单元选择趋势线种类包括:直线、对数曲线、指数曲线、二次曲线、龚柏兹曲线、逻辑曲线、周期曲线等。
12.根据权利要求10或11所述的系统,其特征在于,所述数据展示单元根据数据的实际趋势选择趋势线进行展示包括: 在散点图上显示趋势线的种类,根据数据实际趋势进行选择; 当拟合出的趋势线参数不满足当前数据显示时,可进行手工调整趋势线的参数;其中,调整方式可在散点图中直接修改趋势线公式或者对每个参数支持鼠标拖动修改,可在散点图中实时展示鼠标拖动修改时趋势线变化情况。
13.根据权利要求10所述的系统,其特征在于,所述数据质量规则生成单元生成数据质量规则包括: 假设趋势线为y=f (X),即对某个X值,根据趋势线可计算出目标值I ; 给目标值设定一个阀值 生成数据质量规则。
【文档编号】G06F19/00GK103473473SQ201310443454
【公开日】2013年12月25日 申请日期:2013年9月26日 优先权日:2013年9月26日
【发明者】王明兴, 樊文飞, 贾西贝 申请人:深圳市华傲数据技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1