一种关系型数据质量的评估方法

文档序号:6640191阅读:304来源:国知局
一种关系型数据质量的评估方法
【专利摘要】本发明涉及计算机领域,具体而言,涉及一种关系型数据质量的评估方法,包括如下步骤:步骤1,用户终端向评估系统终端发送数据库质量评估请求;步骤2,评估系统终端响应请求;步骤3,配置关系型数据库数据源;步骤4,评估数据;步骤5,储存评估值并记录即时评估时间;步骤6,输出评估值。上述方法可实现关系型数据的质量评估,能更准确的分析数据,以便数据进行进一步的利用。
【专利说明】一种关系型数据质量的评估方法

【技术领域】
[0001] 本发明涉及计算机领域,具体而言,涉及一种关系型数据质量的评估方法。

【背景技术】
[0002] 我国目前各个行业的信息化建设已经如火如荼的开展了很多年,积累了丰富的数 据。这些数据五花八门,存储结构也是千变万化。但是这些数据的数据质量却普遍不高,导 致基于这些数据的分析结果不准确,数据无法很好的被利用。由于这些数据存储在数据库 里面,信息部门的管理人员很难真正掌握这些数据的数据质量。
[0003]目前,针对关系型数据库所存储数据内容的数据质量分析方法不多,尤其是对于 特定的应存储国家标准数据的数据内容的分析更是处于空白状态。该类存储代码的数据, 比如性别,国家有专门的标准,必须取值范围在一定的数字之内,但是实际的情况却是大多 数的数据完全与国家标准代码不符。导致数据不标准,不统一,无法被很好的使用。


【发明内容】

[0004] 为了克服上述【背景技术】中存在的缺陷,本发明要解决的技术问题是提供一种关系 型数据质量的评估方法。
[0005] 为解决上述技术问题,本发明的关系型数据质量的评估方法,包括如下步骤:
[0006] 步骤1,用户终端向评估系统终端发送数据库质量评估请求;
[0007]步骤2,评估系统终端响应请求;
[0008] 步骤3,配置关系型数据库数据源,包括如下步骤:
[0009] 3. 1,输入被评估数据库的信息,所述信息包括数据库的IP地址,数据库用户名, 密码或端口,并将所述信息储存至评估系统;
[0010] 3. 2,建立与被评估数据库的链接;
[0011] 3. 3,获取所述被评估数据库所对应的表及字段的结构,所述评估系统可以选择任 意一个表的任意一个字段进行配置;
[0012] 3. 4,初始化字段分析规则;
[0013] 步骤4,评估数据,包括如下步骤:
[0014] 4. 1,选择被评估数据库中的待评估数据,所述待评估数据包括若干个待评估的 表,所述表结构下包括一个或多个待评估字段;
[0015] 4. 2,所述评估系统配置待评估的字段的分析规则对待评估的字段进行评估得出 评估值,所述评估值可根据分析字段类型的不同而分类,所述分析规则包括与国家标准代 码的匹配,包括如下步骤:
[0016] 4. 2. 1,读取所述待评估的字段对应的国家标准代码,将所述待评估的字段与对应 的国家标准代码进行匹配;
[0017] 4. 2. 2,其中,在所述待评估字段与国家标准代码匹配符合的情况下,将所述待评 估字段对应的权重值加至对应的评估值;
[0018] 步骤5,储存评估值并记录即时评估时间;
[0019] 步骤6,输出评估值。
[0020] 进一步地,所述分析规则还包括字段长度比对,包括如下步骤:预先设置标准字段 的长度,将所述待评估的字段与所述标准字段的长度进行比对;其中,在所述待评估字段长 度与所述标准字段的长度符合的情况下,将所述待评估字段对应的权重值加至对应的评估 值。
[0021] 进一步地,所述分析规则还包括字段缺失检测,所述包括如下步骤:将所述待评估 的字段逐个对比检测,所述检测的范围包括数字、文字、图案等所有记录性信息;其中,在所 述待评估字段不缺失的情况下,将所述待评估字段对应的权重值加至对应的评估值。
[0022] 进一步地,所述分析规则还包括同类字段匹配,包括如下步骤:将所述待评估的字 段逐个对比检测,所述检测的范围包括数字、文字、图案或极其相结合等所有相关记录性信 息;其中,在所述待评估字段为同一类字段的情况下,所述同一类字段包括所只为数字或只 为文字或只为图形或以相同形式结合的字段,将所述待评估的重复字段对应的权重值加至 对应的评估值。
[0023] 进一步地,所述分析规则可联合使用对待评估字段进行匹配。
[0024] 本发明数据质量的评估方法可将数据库里面的数据按照预先设定的分析规则进 行评估,能更准确的分析数据,以便数据进行进一步的利用。具体的,所使用的分析规则包 括与国家标准代码的匹配、字段长度比对、字段缺失检测和同类字段匹配,将字段数据与上 述分析规则进行比对校检,形成匹配结果,数据的比对是一种简便高效的评估手段,数据比 对的对象可包括数字、文字、图案或及其相结合等所有相关记录性信息,匹配形成的结果可 显示数据的完整性,数据的相关度,数据的同步性,数据的合理性,进一步根据权重累加来 评估数据的质量。

【专利附图】

【附图说明】
[0025] 为了更清楚地说明发明实施例或现有技术中的技术方案,下面将对本发明实施例 或现有技术描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可根据 这些附图获得其它的附图;
[0026] 图1为本发明一种关系型数据质量的评估方法实施例的流程图;
[0027] 图2为本发明一种关系型数据质量的评估方法实施例中配置关系型数据库数据 源的流程图;
[0028] 图3为本发明一种关系型数据质量的评估方法实施例中国家标准代码数据评估 的流程图;
[0029] 图4为本发明一种关系型数据质量的评估方法实施例中另一种评估方法的流程 图。

【具体实施方式】
[0030] 图1所示为本发明一种关系型数据质量的评估方法实施例的流程图,包括如下步 骤:步骤1,用户终端向评估系统终端发送数据库质量评估请求;步骤2,评估系统终端响应 请求;步骤3,配置关系型数据库数据源;步骤4,评估数据;步骤5,储存评估值并记录即时 评估时间;步骤6,输出评估值。上述方法可实现关系型数据的质量评估,能更准确的分析 数据,以便数据进行进一步的利用。
[0031] 图2所示为本发明一种关系型数据质量的评估方法实施例中配置关系型数据库 数据源的流程图,包括如下步骤:步骤3. 1,输入被评估数据库的信息,信息包括数据库的 IP地址,数据库用户名,密码或端口,并将信息储存至评估系统;步骤3. 2,建立与被评估数 据库的链接;步骤3. 3,获取被评估数据库所对应的表及字段的结构,评估系统可以选择任 意一个表的任意一个字段进行配置;步骤3. 4,初始化字段分析规则。
[0032] 图3所示为本发明一种关系型数据质量的评估方法实施例中国家标准代码数据 评估的流程图,包括如下步骤:步骤401,选择被评估数据库中的待评估数据,待评估数据 包括若干个待评估的表,表结构下包括一个或多个待评估字段;步骤402,评估系统配置待 评估的字段的分析规则对待评估的字段进行评估得出评估值,评估值可根据分析字段类型 的不同而分类,分析规则为与国家标准代码的匹配,读取待评估的字段对应的国家标准代 码;步骤403,将待评估的字段与对应的国家标准代码进行匹配;步骤404,其中,在待评估 字段与国家标准代码匹配符合的情况下,将待评估字段对应的权重值加至对应的评估值。
[0033] 比如,对于性别这个国家标准代码,可以进行如下编排:
[0034] 代码分类名称:性别;
[0035] 代码值域:1,2,3,4;
[0036] 比如对于民族这个国家标准代码,可以进行如下编排:
[0037] 代码分类名称:民族;
[0038] 代码值域:1,2,3,4,5...56;
[0039] 以此类推,将用得到的国家标准代码维护起来。放到系统里面供后续步骤使用。这 些数据将使用表T_GGZY进行存储,以性别为例,该表核心字段如下:
[0040]

【权利要求】
1. 一种关系型数据质量的评估方法,包括如下步骤: 步骤1,用户终端向评估系统终端发送数据库质量评估请求; 步骤2,评估系统终端响应请求; 步骤3,配置关系型数据库数据源,包括如下步骤: 3. 1,输入被评估数据库的信息,所述信息包括数据库的IP地址,数据库用户名,密码 或端口,并将所述信息储存至评估系统; 3. 2,建立与被评估数据库的链接; 3. 3,获取所述被评估数据库所对应的表及字段的结构,所述评估系统可以选择任意一 个表的任意一个字段进行配置; 3. 4,初始化字段分析规则; 步骤4,评估数据,包括如下步骤: 4. 1,选择被评估数据库中的待评估数据,所述待评估数据包括若干个待评估的表,所 述表结构下包括一个或多个待评估字段; 4. 2,所述评估系统配置待评估的字段的分析规则对待评估的字段进行评估得出评估 值,所述评估值可根据分析字段类型的不同而分类,所述分析规则包括与国家标准代码的 匹配,包括如下步骤: 4. 2. 1,读取所述待评估的字段对应的国家标准代码,将所述待评估的字段与对应的国 家标准代码进行匹配; 4. 2. 2,其中,在所述待评估字段与国家标准代码匹配符合的情况下,将所述待评估字 段对应的权重值加至对应的评估值; 步骤5,储存评估值并记录即时评估时间; 步骤6,输出评估值。
2. 根据权利要求1所述的一种关系型数据质量的评估方法:所述分析规则还包括字段 长度比对,包括如下步骤:预先设置标准字段的长度,将所述待评估的字段与所述标准字段 的长度进行比对;其中,在所述待评估字段长度与所述标准字段的长度符合的情况下,将所 述待评估字段对应的权重值加至对应的评估值。
3. 根据权利要求1或2所述的一种关系型数据质量的评估方法:所述分析规则还包括 字段缺失检测,所述包括如下步骤:将所述待评估的字段逐个对比检测,所述检测的范围包 括数字、文字、图案等所有记录性信息;其中,在所述待评估字段不缺失的情况下,将所述待 评估字段对应的权重值加至对应的评估值。
4. 根据权利要求3所述的一种关系型数据质量的评估方法:所述分析规则还包括同类 字段匹配,包括如下步骤:将所述待评估的字段逐个对比检测,所述检测的范围包括数字、 文字、图案或极其相结合等所有相关记录性信息;其中,在所述待评估字段为同一类字段 的情况下,所述同一类字段包括所只为数字或只为文字或只为图形或以相同形式结合的字 段,将所述待评估的重复字段对应的权重值加至对应的评估值。
5. 根据权利要求4所述的一种关系型数据质量的评估方法:所述分析规则可联合使用 对待评估字段进行匹配。
【文档编号】G06F17/30GK104484448SQ201410827598
【公开日】2015年4月1日 申请日期:2014年12月26日 优先权日:2014年12月26日
【发明者】叶建锋 申请人:浙江协同数据系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1