数据质量评估方法及系统与流程

文档序号:31211437发布日期:2022-08-20 03:38阅读:71来源:国知局
数据质量评估方法及系统与流程

1.本发明涉及数据分析处理技术领域,具体地说是数据质量评估方法及系统。


背景技术:

2.目前,我国大数据产业在高速发展的阶段,同时也面临着诸多挑战。例如,生产中通过大数据分析结果来引导管理者作出相应决策,但数据质量的好坏,将决定数据分析结果的有效性,一旦数据质量恶劣,必将对决策产生误导,对企业甚至社会造成不利影响。
3.如何对数据进行质量评估,以降低因劣质数据产生错误决策的风险,是需要解决的技术问题。


技术实现要素:

4.本发明的技术任务是针对以上不足,提供数据质量评估方法及系统,来解决如何对数据进行质量评估,以降低因劣质数据产生错误决策的风险的技术问题。
5.第一方面,本发明的一种数据质量评估方法,基于配置的质量评估指标对信用数据进行质量检测,所述方法包括如下步骤:
6.在数据生产过程中数据分为两个阶段,分别为源数据和加工数据;
7.基于源数据应用场景配置源数据的评估指标,并为每个评估指标配置指标计算规则形成源数据检测规则,所述源数据检测规则用于在每个评估指标下对源数据进行质量分析并筛选出异常数据;
8.基于加工数据应用场景配置加工数据的评估指标,并为每个评估指标配置指标计算规则形成加工数据检测规则,所述加工数据检测规则用于在每个评估指标下对加工数据进行质量分析并筛选出异常数据;
9.对于源数据,基于源数据检测规则中各项指标计算规则分析得到源数据中异常数据,并根据各项评估指标下异常数据占比,计算源数据在每项评估指标下对应的基础分值,并基于源数据在各项评估指标下的基础分值分生成源数据质量报告;
10.对于加工数据,基于加工数据检测规则中各项指标计算规则分析得到加工中异常数据,并根据各项评估指标下异常数据占比,计算加工数据在每项评估指标下对应的基础分值,并基于加工数据在各项评估指标下的基础分值分生成加工数据质量报告。
11.更优的,所述方法还包括如下步骤:
12.为源数据检测规则中每个评估指标配置权重系数,并为加工数据检测规则中每个评估指标配置权重系数;
13.对于源数据,基于各项评估指标的权重系数、为源数据在各项评估指标下的基础分值进行权重赋值,计算源数据在各项评估指标下的质量评分;
14.对于加工数据,基于各项评估指标的权重系数、为加工数据在各项评估指标下的基础分值进行权重赋值,计算加工数据在各项评估指标下的质量评分;
15.汇总源数据在各项评估指标下的质量评分得到源数据质量总评分,并汇总加工数
据在各项评估指标下的质量评分得到加工数据质量总评分;
16.基于源数据在每项评估指标下的质量评分、源数据在各项评估指标下的质量总评分、加工数据在每项评估指标下的质量评分以及加工数据在各项评估指标下的质量总评分构建数据质量报告。
17.作为优选,所述源数据的评估指标包括准确性、完整性、时效性和规范性;
18.所述准确性对应的指标计算规则包括数据类型是否与业务含义匹配、以及字符串类型的数据格式是否一致;
19.所述时效性对应的指标计算规则包括源数据更新频率是否满足业务需求、以及数据是否为最新或次新数据;
20.所述完整性对应的指标计算规则包括数据表各字段的空值率是否小于阈值;
21.所述准确性对应的指标计算规则包括各数据字段是否满足业务逻辑、以及数据是否为超出阈值的异常数据。
22.作为优选,所述加工数据的评估指标包括安全性、准确性、完整性、规范性;
23.所述安全性对应的指标计算规则包括数据是否符合数据安全法、以及对敏感数据是否已脱敏处理;
24.所述准确性对应的指标计算规则包括各数据字段是否满足业务逻辑、数据是否为超出阈值的异常数据、以及数据是否准确继承了原始数据;
25.所述完整性对应的指标计算规则包括数据表各字段空值率是否因处理任务发生了增长,基于所述指标计算规则进行判断时除去因过滤异常数据导致的空值率增长;
26.所述规范性对应的指标计算规则包括数据是否满足需求定义。
27.作为优选,对于源数据,将源数据在每项评估指标下异常数据占作为错误率,将源数据在每项评估指标下对应的基础分值按照错误率等距分段;
28.对于加工数据,将加工数据在每项评估指标下异常数据占作为错误率,将加工数据在每项评估指标下对应的基础分值按照错误率等距分段。
29.第二方面,本发明的一种数据质量评估系统,其特征在于用于通过如第一方面任一项所述的方法对信用数据进行质量检测,所述系统包括:
30.指标配置模块,所述指标配置模块对于源数据,所述指标配置模块用于基于源数据应用场景配置源数据的评估指标,并为每个评估指标配置指标计算规则形成源数据检测规则,所述源数据检测规则用于在每个评估指标下对源数据进行质量分析并筛选出异常数据;对于加工数据,所述指标配置模块用于基于加工数据应用场景配置加工数据的评估指标,并为每个评估指标配置指标计算规则形成加工数据检测规则,所述加工数据检测规则用于在每个评估指标下对加工数据进行质量分析并筛选出异常数据;
31.质量检测评估模块,对于源数据,所述质量检测评估模块用于基于源数据检测规则中各项指标计算规则分析得到源数据中异常数据,并根据各项评估指标下异常数据占比,计算源数据在每项评估指标下对应的基础分值,并基于源数据在各项评估指标下的基础分值分生成源数据质量报告;对于加工数据,所述质量检测评估模块用于基于加工数据检测规则中各项指标计算规则分析得到加工中异常数据,并根据各项评估指标下异常数据占比,计算加工数据在每项评估指标下对应的基础分值,并基于加工数据在各项评估指标下的基础分值分生成加工数据质量报告。
32.更优的,所述指标配置模块用于为源数据检测规则中每个评估指标配置权重系数,并用于为加工数据检测规则中每个评估指标配置权重系数;
33.对于源数据,所述质量检测评估模块用于基于各项评估指标的权重系数、为源数据在各项评估指标下的基础分值进行权重赋值,计算源数据在各项评估指标下的质量评分;
34.对于加工数据,所述质量检测评估模块用于基于各项评估指标的权重系数、为加工数据在各项评估指标下的基础分值进行权重赋值,计算加工数据在各项评估指标下的质量评分;
35.所述质量检测评估模块用于汇总源数据在各项评估指标下的质量评分得到源数据质量总评分,并汇总加工数据在各项评估指标下的质量评分得到加工数据质量总评分;并用于基于源数据在每项评估指标下的质量评分、源数据在各项评估指标下的质量总评分、加工数据在每项评估指标下的质量评分以及加工数据在各项评估指标下的质量总评分构建数据质量报告。
36.作为优选,所述源数据的评估指标包括准确性、完整性、时效性和规范性;
37.所述准确性对应的指标计算规则包括数据类型是否与业务含义匹配、以及字符串类型的数据格式是否一致;
38.所述时效性对应的指标计算规则包括源数据更新频率是否满足业务需求、以及数据是否为最新或次新数据;
39.所述完整性对应的指标计算规则包括数据表各字段的空值率是否小于阈值;
40.所述准确性对应的指标计算规则包括各数据字段是否满足业务逻辑、以及数据是否为超出阈值的异常数据。
41.作为优选,所述加工数据的评估指标包括安全性、准确性、完整性、规范性;
42.所述安全性对应的指标计算规则包括数据是否符合数据安全法、以及对敏感数据是否已脱敏处理;
43.所述准确性对应的指标计算规则包括各数据字段是否满足业务逻辑、数据是否为超出阈值的异常数据、以及数据是否准确继承了原始数据;
44.所述完整性对应的指标计算规则包括数据表各字段空值率是否因处理任务发生了增长,基于所述指标计算规则进行判断时除去因过滤异常数据导致的空值率增长;
45.所述规范性对应的指标计算规则包括数据是否满足需求定义。
46.作为优选,对于源数据,所述质量检测评估模块用于将源数据在每项评估指标下异常数据占作为错误率,将源数据在每项评估指标下对应的基础分值按照错误率等距分段;
47.对于加工数据,所述质量检测评估模块用于将加工数据在每项评估指标下异常数据占作为错误率,将加工数据在每项评估指标下对应的基础分值按照错误率等距分段。
48.本发明的数据质量评估方法及系统具有以下优点:
49.1、通过配置的评估指标对源数据和加工数据进行质量检测,筛选出异常数据,并根据各项评估指标下异常数据占比,计算数据在每项评估指标下对应的基础分值,得到源数据质量报告和加工数据质量报告,通过源数据和加工数据对应的数据质量报告可以直观得到数据质量优劣,判断数据分析结果的可信度,降低因劣质数据导致产生错误决策的风
险;
50.2、对评估指标配置权重系数,基于权重系数对基础分值进行权重赋值得到源数据和加工数据在各项评估指标下的质量评分,通过数据质量各维度指标的得分情况可判断数据对特殊应用场景的适配度,比如数据在准确性上有较大可信度但时效性较差,可作为历史特征的提取,比如数据的安全性一旦存在违反相关法律法规的情况,则直接禁止使用,重新调整数据加工流;
51.3、根据数据质量报告可以定位数据在不同阶段的质量问题,对提高数据质量起到一定指导作用。
附图说明
52.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
53.下面结合附图对本发明进一步说明。
54.图1为实施例1一种数据质量评估方法的流程框图。
具体实施方式
55.下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
56.本发明实施例提供数据质量评估方法及系统,用于解决如何对数据进行质量评估,以降低因劣质数据产生错误决策的风险的技术问题。
57.实施例1:
58.本发明一种数据质量评估方法,基于配置的质量评估指标对信用数据进行质量检测,该方法包括如下步骤:
59.s100、在数据生产过程中数据分为两个阶段,分别为源数据和加工数据;
60.基于源数据应用场景配置源数据的评估指标,并为每个评估指标配置指标计算规则形成源数据检测规则,所述源数据检测规则用于在每个评估指标下对源数据进行质量分析并筛选出异常数据;
61.基于加工数据应用场景配置加工数据的评估指标,并为每个评估指标配置指标计算规则形成加工数据检测规则,所述加工数据检测规则用于在每个评估指标下对加工数据进行质量分析并筛选出异常数据;
62.s200、对于源数据,基于源数据检测规则中各项指标计算规则分析得到源数据中异常数据,并根据各项评估指标下异常数据占比,计算源数据在每项评估指标下对应的基础分值,并基于源数据在各项评估指标下的基础分值分生成源数据质量报告;
63.对于加工数据,基于加工数据检测规则中各项指标计算规则分析得到加工中异常数据,并根据各项评估指标下异常数据占比,计算加工数据在每项评估指标下对应的基础分值,并基于加工数据在各项评估指标下的基础分值分生成加工数据质量报告。
64.本实施例参考iso/iec 25024数据质量模型中定义的特性,根据信用数据使用的业务场景,筛选出信用数据的数据质量评估指标,包括安全性、准确性、完整性、时效性、规范性。
65.数据生产过程中数据可分为两个阶段,第一个阶段是原始数据,此处称为源数据,第二个阶段是加工后数据,此处称为加工数据。本实施例对于数据质量的检测分为两部分,一部分是对源数据的检测,一部分是对加工数据的检测。通过两部分数据的质量检测,可以经由各数据质量评估指标纵向观察数据质量情况,同时还可以横向对比源数据到加工数据的数据质量变化情况,从而分析加工过程是否出现纰漏。
66.对于源数据,质量评估指标包括准确性、完整性、时效性、规范性。各评价指标规则如下:
67.(1)规范性:数据类型是否与业务含义匹配;对于字符串类型,数据格式是否一致。
68.(2)时效性:源数据更新频率是否满足业务需求;数据是否为最新或次新数据。
69.(3)完整性:数据表各字段的空值率是否小于阈值。
70.(4)准确性:各数据字段是否满足业务逻辑;是否为超出阈值的异常数据。
71.根据各指标计算规则,分析得到源数据中异常数据。根据各指标异常数据占比计算出源数据各指标基础评分,生成源数据数据质量报告。基础分值按数据错误率等距分段,如准确性维度指标的基础分值与数据错误率的对应关系如下:
[0072][0073][0074]
对于加工数据,加工数据质量评估指标包括安全性、准确性、完整性、规范性。各评价指标规则如下:
[0075]
(1)安全性:提供数据是否符合数据安全法;对敏感数据是否已脱敏处理。
[0076]
(2)准确性:各数据字段是否满足业务逻辑;是否为超出阈值的异常数据;是否准确继承了原始数据。
[0077]
(3)完整性:数据表各字段空值率是否因处理任务发生了增长。(除去因过滤异常数据导致的空值率增长)
[0078]
(4)规范性:提供数据是否满足需求定义。
[0079]
根据各指标计算规则,分析得到加工数据中异常数据。根据各指标异常数据占比计算出加工数据各指标基础评分,生成加工数据数据质量报告。同源数据计算基础分值规则一致,基础分值按数据错误率等距分段。
[0080]
通过上述操作,可得到源数据质量报告和加工数据质量报告,通过质量报告可以对源数据和加工数据进行分析,并可进行对比文件。
[0081]
作为改进,基于源数据质量报告和加工数据质量报告,对各个评估指标配置权重系数,基于权重系数计算数据质量评分,并基于数据质量评分构建数据质量报告。具体操作为:
[0082]
(1)对于源数据,基于各项评估指标的权重系数、为源数据在各项评估指标下的基础分值进行权重赋值,计算源数据在各项评估指标下的质量评分;对于加工数据,基于各项评估指标的权重系数、为加工数据在各项评估指标下的基础分值进行权重赋值,计算加工数据在各项评估指标下的质量评分;
[0083]
(2)汇总源数据在各项评估指标下的质量评分得到源数据质量总评分,并汇总加工数据在各项评估指标下的质量评分得到加工数据质量总评分;
[0084]
(3)基于源数据在每项评估指标下的质量评分、源数据在各项评估指标下的质量总评分、加工数据在每项评估指标下的质量评分以及加工数据在各项评估指标下的质量总评分构建数据质量报告。
[0085]
在该改进的实施中,根据信用数据应用场景,对数据质量评估指标进行权重赋值,首先判断矩阵如下。
[0086]
表1、源数据数据质量评估指标判断矩阵:
[0087] 准确性完整性时效性规范性准确性1235完整性1/2135时效性1/31/313规范性1/51/51/31
[0088]
表2、加工数据数据质量评估指标判断矩阵:
[0089] 安全性准确性完整性规范性安全性1233准确性1/2122完整性1/31/211规范性1/31/211
[0090]
根据特征值法计算得到各指标权重。
[0091]
源数据数据质量评估指标权重:
[0092]
准确性完整性时效性规范性0.460.320.150.07
[0093]
加工数据数据质量评估指标权重:
[0094]
安全性准确性完整性规范性0.460.260.140.14
[0095]
源数据的数据质量和加工数据的数据质量评分等于各指标基础评分*指标权重。
[0096]
数据质量评估报告可以输出源数据和加工数据在质量检测中存在的数据质量问题,这类明细报告来详细定位异常数据,用来辅助数据质量优化等措施;可以输出源数据和加工数据各维度指标基础得分,用来判断各维度指标的数据质量情况;可以输出源数据和加工数据的综合得分,用来综合判断数据质量情况,判断数据的可用性等。数据质量评估报告输出的具体内容可以根据实际需求进行增删。
[0097]
该实施例根据信用数据使用场景预定义数据质量评估指标,分别对源数据和加工数据进行检测,根据检测结果生成各数据质量评估指标基础评分。根据业务重要性对各数据质量评估指标进行权重赋值,得到数据质量最终评分。输出数据质量检测结果和数据质量评分,得到数据质量的量化评价。
[0098]
实施例2:
[0099]
本发明一种数据质量评估系统,包括指标配置模块和质量检测评估模块,该系统通过执行实施例1公开的方法对信用数据进行质量检测。
[0100]
对于源数据,所述指标配置模块用于基于源数据应用场景配置源数据的评估指标,并为每个评估指标配置指标计算规则形成源数据检测规则,所述源数据检测规则用于在每个评估指标下对源数据进行质量分析并筛选出异常数据。
[0101]
对于加工数据,所述指标配置模块用于基于加工数据应用场景配置加工数据的评估指标,并为每个评估指标配置指标计算规则形成加工数据检测规则,所述加工数据检测规则用于在每个评估指标下对加工数据进行质量分析并筛选出异常数据。
[0102]
对于源数据,质量检测评估模块用于基于源数据检测规则中各项指标计算规则分析得到源数据中异常数据,并根据各项评估指标下异常数据占比,计算源数据在每项评估指标下对应的基础分值,并基于源数据在各项评估指标下的基础分值分生成源数据质量报告。
[0103]
对于加工数据,所述质量检测评估模块用于基于加工数据检测规则中各项指标计算规则分析得到加工中异常数据,并根据各项评估指标下异常数据占比,计算加工数据在每项评估指标下对应的基础分值,并基于加工数据在各项评估指标下的基础分值分生成加工数据质量报告。
[0104]
作为具体实施,参考iso/iec 25024数据质量模型中定义的特性。对于源数据,质量评估指标包括准确性、完整性、时效性、规范性。各评价指标规则如下:
[0105]
(1)规范性:数据类型是否与业务含义匹配;对于字符串类型,数据格式是否一致。
[0106]
(2)时效性:源数据更新频率是否满足业务需求;数据是否为最新或次新数据。
[0107]
(3)完整性:数据表各字段的空值率是否小于阈值。
[0108]
(4)准确性:各数据字段是否满足业务逻辑;是否为超出阈值的异常数据。
[0109]
对于加工数据,加工数据质量评估指标包括安全性、准确性、完整性、规范性。各评价指标规则如下:
[0110]
(1)安全性:提供数据是否符合数据安全法;对敏感数据是否已脱敏处理。
[0111]
(2)准确性:各数据字段是否满足业务逻辑;是否为超出阈值的异常数据;是否准确继承了原始数据。
[0112]
(3)完整性:数据表各字段空值率是否因处理任务发生了增长。(除去因过滤异常
数据导致的空值率增长)
[0113]
(4)规范性:提供数据是否满足需求定义。
[0114]
对于源数据,该质量检测评估模块用于根据各指标计算规则,分析得到源数据中异常数据。根据各指标异常数据占比计算出源数据各指标基础评分,生成源数据数据质量报告。基础分值按数据错误率等距分段,如准确性维度指标的基础分值与数据错误率的对应关系如下:
[0115][0116]
对于加工数据,该质量检测评估模块用于根据各指标计算规则,分析得到加工数据中异常数据。根据各指标异常数据占比计算出加工数据各指标基础评分,生成加工数据数据质量报告。同源数据计算基础分值规则一致,基础分值按数据错误率等距分段。
[0117]
通过上述操作,执行实施例1公开的方法,可得到源数据质量报告和加工数据质量报告,通过质量报告可以对源数据和加工数据进行分析,并可进行对比文件。
[0118]
作为该实施例的改进,该系统基于源数据质量报告和加工数据质量报告,对各个评估指标配置权重系数,基于权重系数计算数据质量评分,并基于数据质量评分构建数据质量报告。
[0119]
其中,指标配置模块用于为源数据检测规则中每个评估指标配置权重系数,并用于为加工数据检测规则中每个评估指标配置权重系数。质量检测评估模块用于执行如下操作:
[0120]
(1)对于源数据,基于各项评估指标的权重系数、为源数据在各项评估指标下的基础分值进行权重赋值,计算源数据在各项评估指标下的质量评分;对于加工数据,基于各项评估指标的权重系数、为加工数据在各项评估指标下的基础分值进行权重赋值,计算加工数据在各项评估指标下的质量评分;
[0121]
(2)汇总源数据在各项评估指标下的质量评分得到源数据质量总评分,并汇总加工数据在各项评估指标下的质量评分得到加工数据质量总评分;
[0122]
(3)基于源数据在每项评估指标下的质量评分、源数据在各项评估指标下的质量总评分、加工数据在每项评估指标下的质量评分以及加工数据在各项评估指标下的质量总
评分构建数据质量报告。
[0123]
本改进的具体实施可实现实施例1公开的改进后方法,对源数据和加工数据进行质量分析,得到数据质量报告,通过数据质量报告可以直观得到数据质量优劣,判断数据分析结果的可信度,降低因劣质数据导致产生错误决策的风险。另外,通过数据质量各维度指标的得分情况可判断数据对特殊应用场景的适配度。比如数据在准确性上有较大可信度但时效性较差,可作为历史特征的提取;比如数据的安全性一旦存在违反相关法律法规的情况,则直接禁止使用,重新调整数据加工流程。还有,根据数据质量评估报告可以定位数据在不同阶段的质量问题,对提高数据质量起到一定指导作用。
[0124]
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1