一种基于空间色散原理的数据质量检测方法与流程

文档序号:11134942阅读:711来源:国知局
一种基于空间色散原理的数据质量检测方法与制造工艺

本发明涉及数据质量检测技术领域,具体涉及一种基于空间色散原理的数据质量检测方法。



背景技术:

信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然而随着数据量的不断增大,数据质量问题也随之而来。数据缺失、错误、不一致等问题使企业对其的应用受到阻碍,严重的甚至会导致企业做出错误决策,损失重要价值进而引发信任危机。针对这些脏数据,许多数据质量检测和清洗方案应运而生。而数据依赖在其中则是比较难以检测的一种数据质量问题。由于系统往往并不知道隐藏在数据表内部字段间的逻辑关系,所以数据依赖问题一般是通过外部参考文件来进行检查。

现有的大多数数据质量检测方法都是基于数据库或者软件实现数据质量的标示,过分依赖评分者当时的主观选择,大多数结果以表格或者文字形式表示,不能达到简单明了的直观效果。



技术实现要素:

本发明的目的在于提供一种基于空间色散原理的数据质量检测方法,利用空间色散原理,对数据质量的检测结果进行颜色标识,实现数据质量的量化显示。

为实现上述目的,本发明采用了以下技术方案:

一种基于空间色散原理的数据质量检测方法,包括以下步骤;

(1)构建数据质量检模型:

M=<D,I,R,W,E,S>

其中,M表示数据质量,D表示需要进行检测的数据节点,I表示与数据节点对应的数据指标,R表示与数据指标相对应的集合,W表示赋予规则R的权值,E表示对规则R给出的期望值,S表示对规则R给出的最终结果;

(2)计算数据质量绝对量化值;

(3)计算数据质量相对量化值;

(4)根据数据质量相对量化值,显示质量检测结果。

所述的基于空间色散原理的数据质量检测方法,所述数据指标包括精确性、一致性、完整性、有效性、唯一性、使用质量、存贮质量和传输质量。

所述的基于空间色散原理的数据质量检测方法,步骤(2),所述计算数据质量绝对量化值,采用以下公式:

其中,SA表示R所得结果得分的加权平均值,Wi表示对应指标的权值,Si表示当前指标对应的计算值。

所述的基于空间色散原理的数据质量检测方法,步骤(3),所述计算数据质量相对量化值,采用以下公式:

其中,SR表示数据质量相对量化值,Ei表示当前指标期望值。

由上述技术方案可知,本发明所述的基于空间色散原理的数据质量检测方法,通过对数据质量相对量化值的计算,将数据质量检测结果均以图形化界面进行展示,其展示结果简单明了,效果直观有效,能迅速达到数据质量定量化显示的目的。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图对本发明做进一步说明:

一种基于空间色散原理的数据质量检测方法,包括以下步骤:

S1:构建数据质量检模型:

M=<D,I,R,W,E,S>

其中,M表示数据质量,D表示需要进行检测的数据节点,I表示与数据节点对应的数据指标,R表示与数据指标相对应的集合,W表示赋予规则R的权值,E表示对规则R给出的期望值,S表示对规则R给出的最终结果;

该步骤中,赋予集合R的权值的取值范围为大于0的整数,描述了该集合在所有集合中所占的比重;对集合R给出的期望值E是在检测之前对该规则所期望得到的结果,其取值为介于0至100之间的实数,对集合R给出的最终结果是在检测该规则后得到的结果,其取值介于0至100之间的实数。

所述数据指标包括精确性、一致性、完整性、有效性、唯一性、使用质量、存贮质量和传输质量。

对于录入节点:

完整性:即检测数据节点是否存在缺失记录或者缺失字段,可通过以下公式检测,1-A2/(A1*A2),其中,A1表示记录数,A2表示缺少记录数。当其计算结果等于零时,则表示数据节点完整无缺失,否则存在缺失字段。

一致性:同一录入来源的节点信息是否一致,1-B4/B3(B1-B2),其中,B1表示元数据定义数据项个数,B2表示缺失数据项个数,B3表示除冗余记录数,B4表示除冗余问题数据个数,除冗余记录数=记录数-记录冗余记录数+记录冗余键值数。

精确性:是否与其对应的来源数据的特征相一致,1-C1/A1,其中,C1表示问题记录数;

可用性:冗余度是否符合业务系统需要,1-(D1*D2+D3*D4)/D5*D6,其中D1表示冗余记录数,D2表示元数据定义数据项个数,D3表示冗余数据项个数,D4表示除冗余记录数,D5表示记录数,D6表示元数据定义数据项个数。

对于过程节点:

使用质量:指在数据使用过程中数据出现问题的可能性,1-E1/A1(E2-E3),其中,E1表示问题数据个数,E2表示元数据定义数据个数,E3表示缺少数据项个数。

存贮质量:指在过程节点中数据存贮的质量,1-F1/F2,其中,F1表示问题数据个数,F2表示总的数据个数。

传输质量:指在过程节点之间数据相互传输的质量,1-F1/D4

采用AHP法定义权重:

层次分析法(AHP)是美国著名的运筹学家Satty等人在20世纪70年代提出的将一种定性和定量分析相结合的多准则决策方法。层次分析模型是把复杂的问题分成若干个组成因素,并按支配关系分组形成层次结构。然后通过两两比较的方式,综合决策者的判断,确定决策方案重要性的总排序。具体步骤如下:分析各因素的关系,建立递阶层次结构;对同一层次的多个元素,关于上一层中某一准则的重要性进行两两比较,构建比较判断矩阵;由判断矩阵计算比较元素对于该准则的相对权重,并检验一致性;计算合成权重,即全局权重。

S2:计算数据质量绝对量化值:

假设数据节点T对应的集合RT(R1,R2,R3,……Rn),赋予RT中Ri的权值Wi,计算的结果得分为Si,i=1,2,……n,由此计算数据节点T的数据质量。

计算数据质量绝对量化值,采用以下公式:

其中,SA表示R所得结果得分的加权平均值,Wi表示,Si表示。

SA是规则集RT所得结果得分的加权平均值,反映了数据节点T的真实的数据质量状况。

S3:计算数据质量相对量化值:

计算数据质量相对量化值,采用以下公式:

其中,SR表示数据质量相对量化值,Ei表示。

SR是SA与期望值的差值,它反映了数据集T相对于其期望值的数据质量状况,若SR符号为正,则其数值越大,说明数据质量比预期的更好;若SR符号为负,则其数值越大,说明数据质量比预期的更差。

S4:根据数据质量相对量化值,显示数据质量检测结果:

根据空间色散原理,即依据波段的不同将空间进行分解得到不同的线性大空间色散,实现对入射光束的空间解复用作用,根据不同节点的数据质量检测结果的不同而显示不同颜色标记,以RGB形式展示节点数据质量的定量化显性表示。该方法主要是将数据质量检测结果SR的值对应RGB表示。若SR值大于0,则以RGB(0,255,0)表示;若SR值小于0,则以RGB(255,0,0)表示;若SR值等于0,则以RGB(0,0,255)表示。数据质量检测结果均以图形化界面展示。

以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1