一种数据质量问题报告系统的制作方法

文档序号:11286406阅读:307来源:国知局
一种数据质量问题报告系统的制造方法与工艺

本发明涉及数据质量监控领域,具体涉及一种用于etl过程的数据质量问题报告系统。



背景技术:

信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然而,随着数据量的不断增大,数据质量问题也随之而来。数据缺失、错误、不一致等质量问题使企业对数据的准确应用受到阻碍,严重的甚至会导致企业做出错误决策,损失重要价值进而引发信任危机。

我们称这些有质量问题的数据为脏数据,针对这些脏数据,许多数据质量检测和数据清洗方案应运而生。然而,无论是对于数据质量检测方案还是数据清洗方案而言,数据质量问题的展示报告都是一个不容忽视的挑战。

首先,每一次执行数据质量检测方案时,都有大量数据质量问题出现,这些质量问题如不经过整理就直接呈现在用户面前很容易导致混乱和理解困难。其次,这些数据往往经过一次微小改动就会全部解决,但这些数据却被重复标注为多种数据质量问题,致使得出的质量问题报告过于冗长,甚至可能因为重复标注而错估数据源的数据质量问题级别。最后,数据质量检测方案和数据清洗方案得到的是所有数据的质量问题,然而在某些情况下,不同的用户更关心特定主题数据的质量问题,而不是某张表、某个数据库的质量问题。

为了解决数据质量问题的展示报告问题,专门针对数据质量问题展示及报告的数据质量问题报告系统应运而生。

现有比较常用的数据质量报告系统以工作流的方式检测数据质量问题,导出的问题报告用工作流中检测不同质量问题的各个组件来划分问题的类别,这种分类方式过于死板,不能灵活地处理不同的业务数据,对于数据量过大数据种类繁杂的情况,通过固有的组件分类也不利于错误数据的细分和理解。而其他的数据质量报告系统虽然可以对不同类型的数据质量问题进行编号和注释,但仍没有解决同一数据经过多次标注数据主题,造成工作量大且报告冗长的问题。此外,现有的数据质量问题报告系统也不能按照用户需求进行指定质量问题的问题展示。



技术实现要素:

本发明意在提供一种可以用不同的方式组织有数据质量问题的数据,满足使用不同数据主题的用户的需求的数据质量问题报告系统。

为解决以上问题,提供如下方案:

方案一:本方案中的数据质量问题报告系统,包括

元数据处理模块,用来从数据源中提取并定义待检测数据源的逻辑数据模型和主题域;

模板处理模块,用来从元数据处理模块中获取已经定义好的逻辑数据模型和主题域分别存储并形成逻辑数据模型模板和主题域模板;

报告处理模块,用来从数据质量问题检测系统中获取质量问题,从元数据处理模块中获取定义好的逻辑数据模型和主题域,从模板处理模块中获取逻辑数据模型模板和主题域模板;按照逻辑数据模型和主题域定义质量问题形成并显示数据质量问题报告。

工作原理及有益效果:

通过元数据处理模块,将待检测数据源从存储的数据源中提取出来,并定义待检测数据源的逻辑数据模型和主题域。模板处理模块接收到这些逻辑数据模型和主题域,存储并分别形成逻辑数据模型模板和主题域模板。报告处理模块在通过数据质量问题检测系统中获得质量问题时,将这些质量问题按照定义好的逻辑数据模型和所述主题进行组织,形成数据质量问题报告。当从元数据库处理模块中传来的逻辑数据模型和主题域不能与当前质量问题组织形成数据质量问题报告时,通过从模板处理模块调取逻辑数据结构模型模板和主题域模板来形成数据质量问题报告。

本发明可以通过不同的待检测数据源形成不同的逻辑数据模型和主题域,能够用不同的方式组织有数据质量问题的数据,满足使用不同数据主题的用户的需求。

本发明通过模板处理模块根据不同的待检测数据源形成不同的逻辑数据模型模板和主题域模板进行存储,当再次分析已经分析过的特定业务时,只需要从模板处理模块中调取对应的模型既可以快速完成质量分析,有效简化了分析流程。

方案二:进一步,所述元数据处理模块包括

数据模型提取单元,用来从待检测数据所在的数据库中读取待检测数据包括表结构和在数据库中预定义的主外键约束在内的逻辑数据结构;

主题域定义单元,用来对数据模型提取单元中读取到的表结构进行主题域定义,各个主题域之间可以发生重合。

通过数据模型提取单元提取待检测数据的逻辑数据结构,通过主题域定义单元定义逻辑数据结构的表结构主题进行定义。因为各个主题域之间可以发生重合,使属于同一主题域的不同的表结构都能定义在同一主题域下,避免一个数据在不同的组织方式下被标注多次的问题,使一个数据只能被同一个主题域标注一次,有效减少了冗余数据。

方案三:在方案二的基础上进一步,所述主题域定义单元定义各个主题域的权重以及主题域中各表的权重,并通过计算权重和得到待检测数据质量得分。

主题域定义单元通过计算各个主题域及主题域内各表的权重之和,来计算得到对应的待检测数据的质量得分,通过质量得分可以更加清楚地得到待检测数据的质量分析情况。

方案四:在方案一的基础上进一步,所述模板处理模块包括

模板存储单元,用来从元数据处理模块中获取逻辑数据模型和主题域定义,并将获取的逻辑数据模型和主题域定义转化为模板存入资源库。

模板提取单元,从资源库中提取逻辑数据模型模板和主题域定义模板传递给报告处理模块。

模板存储单元将每次进行分析的待测数据的逻辑数据模型和主题域都提取出来并形成模板保存,待后续有新增数据参与检测时重复使用。在需要时,模板提取单元直接从资源库中提取逻辑数据结构和主题域定义转化的模板用于数据质量报告的组织与展示。

方案五:在方案一的基础上进一步,所述报告处理模块包括

报告组织单元,用来将从数据质量问题检测系统中检测到的各种数据问题按照问题类别、表和主题级别进行组织并检测待检测数据源的数据质量得分;

报告显示单元,用来将报告组织单元组织好的数据质量问题形成数据质量问题报告并进行展示。

通过报告组织单元,将从数据质量检测系统中检测到各种数据问题进行组织,并与数据质量得分一一对应,报告显示单元将组织好的数据质量问题形成数据质量问题报告并展示出来。

方案六:在方案五的基础上进一步,所述报告组织单元采用以下策略计算待检测数据源的数据质量得分:

其中score(topic)j和score(data)分别是第j个主题域的数据质量得分和待检测数据源的数据质量得分,tji是第j个主题域第i张表中数据质量符合要求的记录占全部记录的百分比,wji是第j个主题域第i张表在该主题的权限级别,wj是第j个主题域在待检测数据源中的权限级别,nj是第j个主题域拥有的表的数量,n是待检测数据源拥有的主题域的数量。

报告组织单元按照主题组织的方式可以计算出待测数据的质量得分,从而考察业务数据的总体质量水平。

方案七:在方案五的基础上进一步,所述报告显示单元选择将数据质量问题按照问题类别、表和主题级别进行分别展示。

方案八:在方案一的基础上进一步,所述报告处理模块对展示出的数据质量问题进行修改,每次修改都要重新审查已有的其他数据质量问题是否解决以及是否产生了新的数据质量问题,并重新对数据质量报告进行组织与展示。

每次在进行修改的时候,都会重新审查所有数据质量问题,数据质量问题报告实时更新。不会出现已经解决的质量问题仍然被重复标注的问题,解决了同一数据会被多次标注的问题。随着每次修改实时更新的数据质量问题报告也能使人更加清楚地掌握当前数据质量问题的实际情况。

附图说明

图1是本实施例的数据质量问题报告系统的逻辑框图。

图2是本实施例的数据质量问题报告系统的数据表结构和主题域的逻辑框图。

具体实施方式

下面通过具体实施方式对本发明作进一步详细的说明:

说明书附图中的附图标记包括:元数据处理模块10、数据模型提取单元11、主题域定义单元12、模板处理模块20、模板存储单元21、模板提取单元22、报告处理模块30、报告组织单元31、报告显示单元32。

如图1所示,本实施例的一种数据质量问题报告系统由元数据处理模块10、模板处理模块20和报告处理模块30组成。

所述元数据处理模块10负责提取和定义待检测数据源的逻辑数据模型和所属主题,由数据模型提取单元11、主题域定义单元12组成。

所述数据模型提取单元11负责从待检测数据所在的数据库中读取待检测数据的逻辑数据结构,包括表结构,在数据库中预定义的主外键约束等。

所述主题域定义单元12对数据模型提取单元11读取到的表结构进行主题域定义,各个主题域之间可以发生重合。另外,数据质量分析员还可以定义各个主题域的权重,以及主题域中各表的权重,用于待检测数据质量得分的计算。

所述模板处理模块20负责在资源库中存储和提取元数据处理模块10得到的逻辑数据结构和主题域定义。由模板存储单元21,模板提取单元22组成。

所述模板存储单元21将获取的逻辑数据结构和主题域定义转化为模板存入资源库,待后续有新增数据参与检测时重复使用。

所述模板提取单元22在需要时从资源库中提取逻辑数据结构和主题域定义转化的模板用于数据质量报告的组织与展示。

所述报告处理模块30负责组织并显示数据质量问题报告。由报告组织单元31,报告显示单元32组成。

所述报告组织单元31将数据质量问题检测系统检测到的各种数据问题按照问题类别、表和主题等级别进行组织。其中按照主题组织的方式可以计算待检测数据源的数据质量得分,从而考察业务数据的总体质量水平。各主题的数据质量得分和待检测数据源的整体得分计算如下所示:

其中score(topic)j和score(data)分别是第j个主题域的数据质量得分和待检测数据源的数据质量得分,tji是第j个主题域第i张表中数据质量符合要求的记录占全部记录的百分比,wji是第j个主题域第i张表在该主题的权限级别,wj是第j个主题域在待检测数据源中的权限级别,nj是第j个主题域拥有的表的数量,n是待检测数据源拥有的主题域的数量。

所述报告显示单元32将报告组织单元31组织好的数据质量问题进行展示,用户可以选择将数据质量问题按照问题类别、表和主题级别进行展示。数据质量分析员可直接对展示出的数据质量问题进行修改,每次修改时都要重新审查已有的其他数据质量问题是否解决以及是否产生了新的数据质量问题,并重新对数据质量报告进行组织与展示。

如上所述,本系统可以用不同的方式组织有数据质量问题的数据,满足使用不同数据主题的用户的需求。本系统通过模板机制实现了已分析过的特定业务的模板复用,简化了分析流程。

如图2所示,本实施例待检测数据的数据表结构及定义的主题域中,关系表两端括号里的数字分别表示关系表两端实体的最小和最大参与度。假设购买关系表中的购买价格比供应关系表对应商品的供货价格高15%。

s1:元数据处理模块10的数据模型提取单元11从待检测数据源所在的数据库中读取待检测数据的逻辑数据结构和主外键约束。

s2:主题域定义单元12通过与数据质量分析员交互确定各个主题域及其所拥有的表,如图2所示,各个主题域之间可以发生重合。

另外,数据质量分析员还可以定义各个主题域的权重,以及主题域中各表的权重,如表1所示,是各主题域的权重及顾客主题域中各表的权重,权重级别在1~5之间。

表1

待检测数据源的逻辑数据结构和主题域,以及各主题域和表所对应的权重相结合可以生成模板。

s3:模板存储单元21将从主题域定义单元获取的模板存入资源库,待后续有新增数据进入或重复进行数据质量检测时,由模板提取单元22从资源库中提取相应模板用于数据质量报告的组织与展示。

s4:数据质量问题监测系统根据定义好的数据质量规则对待检测数据源进行数据质量检测。该过程不是本技术关注的主要内容,不进行主要阐述。

假设在该实施例带检测数据库中存在以下错误:

在购买关系表中主键为b51的记录中的购买价格字段,与供应关系表对应商品(记录主键为s30)的供货价格字段不满足(购买价格-供应价格)/供应价格=15%,则对于此错误出错的可能是购买关系表,也可能是供应关系表。

在商品表中主键为p01的记录在数据操作过程中发生了错误,主键字段商品id由p01变成了p001,这会导致数据库中的一系列错误。首先在供应关系表、购买关系表和仓储关系表中外键p01不能在商品表中找到对应参照。其次,由图2可知商品表在供应关系表和仓储关系表中的重复度(与参与度相反,重复度等于关系另一端实体的参与度)都是(1,n),因此主键错误的记录在两张关系表中的重复度小于最小值从而产生错误。

s5:报告组织单元31将数据质量问题检测系统检测到的各种数据问题按照问题类别、表、主题级别进行组织。

s5.1:其中将待检测数据的质量问题按照问题类别进行组织如表2所示。

表2

s5.2:其中将待检测数据的质量问题按照表进行组织与按照问题类别组织不同的是发现的质量问题按照所属表的不同进行分类,而不是按照违反的数据质量规则类型。

s5.3:其中将待检测数据的质量问题按照主题进行组织则将表按照主题进行分类,再对主题内每张表的质量问题进行展示,同时根据主题内每张表的权重级别和每张表中记录的正确率来计算各主题的数据质量得分,根据主题得分及其权重可以计算整个待检测数据源的质量得分,如表3是顾客主题得分的计算,表4是整个待检测数据源的得分的计算。

表3

表4

s6:报告显示单元32将报告组织单元31组织好的数据质量问题进行展示,用户可以选择将数据质量问题按照问题类别、表和主题级别进行展示。

s7:数据质量分析员对报告显示单元32展示出的数据质量问题进行修改,每次修改时都要重新审查已有的其他数据质量问题是否解决以及是否产生了新的数据质量问题,并重新进行数据质量报告的组织与展示。

如该实施例中商品表中的错误主键值p001修改回正确的主键值p01,则所有的关系完整性数据质量问题都会消失,待检测数据源多个主题的数据质量得分也会有所改善,而不仅仅是商品表所属的主题域提高了数据质量得分。

以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1