本发明涉及数据质量综合评估,尤其涉及一种基于动态权重的数据质量综合评估方法。
背景技术:
1、随着数字经济的蓬勃发展,数据作为关键生产要素的价值和潜力日益凸显。数据资产质量是影响数据资产价值的重要因素之一,这是因为质量差的数据资产被个人或组织继续使用时,会降低决策的准确性。因此,在评估数据资产价值之前,评估数据资产的质量是重要的一个步骤。数据资产质量是指使用数据资产质量评估方法对数据资产进行质量评估,以数据质量的权重体系为基础,结合具体的数据质量指标,能够搭建数据质量评估模型,以实现数据质量的全面评估,并生成数据资产质量评估报告。
2、目前,传统的质量评估方法包括层次分析法、德尔菲法和最优最劣法。然而上述方法均存在以下的不足:传统数据质量评估方法中采用单一方法赋权无法同时考虑所有重要指标权重,而组合权又存在权重分配不均且忽略了各指标关联性、短板性。因此,如何提供一种基于动态权重的数据质量综合评估方法是本领域技术人员亟需解决的问题。
技术实现思路
1、本发明的一个目的在于提出一种基于动态权重的数据质量综合评估方法,本发明通过对各评价指标进行评估与优劣排序,得到动态权重优化的评价指标集合,达到了同时考虑所有重要指标权重,组合权的权重分配均匀的优点。
2、根据本发明实施例的一种基于动态权重的数据质量综合评估方法,包括如下方法步骤:
3、s1、构建质量评估指标体系;
4、s2、获取待评估数据,基于质量评估指标体系对待评估数据预处理得到本体数据;
5、s3、使用层次分析法确定质量评估指标体系中的指标权重层次,然后采用最优最劣法计算每个评审人员对每个指标权重的最优权重;
6、s4、对本体数据进行质量评估,在确定指标最优权重的基础上,依据每个质量评估指标体系中的具体评分方式对数据资产的质量进行评分;
7、s5、生成数据资产质量评估报告。
8、可选的,所述质量评估指标体系基本属性包括数据准确性、数据完整性、数据规范性、数据一致性、数据可访问性和数据时效性。
9、可选的,所述数据准确性包括数据内容准确率、数据精度准确率、数据内容重复率和脏数据出现率四个次要指标,所述数据完整性包括记录完整性、属性完整性和数据项填充率三个次要指标,所述数据规范性包括数据标准、数据模型、元数据、业务规则、权威参考数据和安全规范六个次要指标,所述数据一致性包括相同数据的一致性和关联数据的一致性两个二级指标,所述数据可访问性包括可访问和可用性二级指标,所述数据时效性包括基于时间段的正确性、基于时间点的及时性和时序性二级指标。
10、可选的,所述s3具体包括:
11、s31、定义质量评估指标体系基本属性的一级指标;
12、s32、通过层次分析法构建包括目标层、准则层和方案层的递阶层次结构模型;
13、s33、采用最优最劣法计算每个评审人员对每个指标的最优权重;
14、s34、引入基于动态权重的调整综合权重,根据近似程度得到动态权重优化后的评价指标集合,再结合每个指标评分得到数据质量的综合评估结果。
15、可选的,所述一级指标包括数据完整性:
16、;
17、其中,所述记录完整性:
18、;
19、其中,表示数据中赋值完整的记录条数,表示应记录在数据表中的数据项的总数;
20、所述属性完整性:
21、;
22、其中,表示数据集属性都赋值完整的元素数量,表示应记录在数据表中的数据项的总数;
23、所述数据项填充率:
24、;
25、其中,表示数据中必须赋值的字段的记录条数,表示应记录在数据表中的数据项的总数;
26、所述数据准确性:
27、;
28、其中,所述数据内容准确率:
29、;
30、其中,表示数据集内容表述正确的元素数量,表示数据集中已分配元素的总数量;
31、所述数据精度准确率:
32、;
33、其中,表示数据项精度符合标准规范的元素数量,表示数据集中已分配元素的总数量;
34、所述数据内容重复率:
35、;
36、其中,表示数据集重复记录条数,表示数据集中已分配元素的总数量;
37、所述脏数据出现率:
38、;
39、其中,表示数据集无效数据元素数量,表示数据集中已分配元素的总数量;
40、所述数据时效性:
41、;
42、其中,表示周期及时性,表示实时及时性,表示时序性;
43、其中,所述周期及时性:
44、;
45、其中,表示数据集赋值满足业务周期频率要求的元素数量,表示应记录在数据表中的数据项的总数;
46、所述实时及时性:
47、;
48、其中,表示数据集赋值延迟时间满足业务要求的元素数量,表示应记录在数据表中的数据项的总数;
49、所述时序性:
50、;
51、其中,表示数据集赋值延迟时间满足业务要求的元素数量,表示应记录在数据表中的数据项的总数;
52、所述一致性:
53、;
54、其中,所述相同数据的一致性:
55、;
56、其中,表示数据集具有相同含义数据赋值一致的元素数量,表示应记录在数据表中的数据项的总数;
57、所述关联数据的一致性:
58、;
59、其中,表示数据项精度符合标准规范的元素数量,表示应记录在数据表中的数据项的总数;
60、所述数据规范性:
61、;
62、其中,所述数据标准的规范性:
63、;
64、其中,表示数据项值域符合数据标准规范的元素数量,表示应记录在数据表中的数据项的总数;
65、所述数据模型的规范性:
66、;
67、其中,表示数据集符合数据规范的元素数量,表示应记录在数据表中的数据项的总数;
68、所述元数据的规范性:
69、;
70、其中,表示数据集符合数据组织结构的元素数量,表示应记录在数据表中的数据项的总数;
71、所述业务规则的规范性:
72、;
73、其中,表示数据集格式符合业务标准规范的元素数量,表示数据集中已分配元素的总数量;
74、所述权威参考数据的规范性:
75、;
76、其中,表示数据集中符合权威参考数据的规范性要求的元素数量,表示数据集中已分配元素的总数量;
77、所述安全规范的规范性:
78、;
79、其中,表示数据集符合适用法律法规和行业安全规范的元素数量,表示数据集中已分配元素的总数量;
80、所述数据可访问性:
81、;
82、其中,所述可访问度:
83、;
84、其中,表示数据集请求访问成功的元素数量,表示数据集请求访问元素总数量;
85、所述可用性:
86、;
87、其中,表示数据集请求访问成功的元素数量,表示数据集请求访问元素总数量。
88、可选的,所述数据资产的质量进行评分,根据各一级指标得分及一级指标的权重,计算评估后所有指标的总分:
89、;
90、其中,y表示评估数据的总分,表示指标权重,表示指标得分,n表示一级指标编号,在对数据进行评估时,各指标的评分范围为0到100分;
91、每个所述一级指标由若干个二级指标构成,对于数据资产的质量进行评分,使用评分规则的单指标得分及相应二级指标的得分,通过加权来计算评估后所有指标的总分:
92、;
93、其中,表示一级指标得分,表示各二级指标权重,表示二级指标得分,n表示一级指标编号,m表示二级指标编号。
94、可选的,所述目标层为数据质量评估指标体系,所述准则层为质量评估指标体系基本属性的一级指标,所述方案层为一级指标所包含的二级指标。
95、可选的,所述s32具体包括:
96、根据层次结构模型,假设存在n个评审人员:
97、;
98、针对数据集进行评价:
99、
100、n个评审人员确定需要m个一级评估指标:
101、;
102、对n个评审人员进行指标的重要性排序评分,形成两两判断矩阵,分别比较各对要素的相对重要程度,对判断矩阵进行一致性检验,只有判断矩阵一致性检验结果通过后,再进行各指标元素权重计算,否则,n个评审人员重新进行指标的重要性排序评分,根据一级指标的判别矩阵进行对相应的二级指标权重分别进行计算以及推导运算,得到每个一级指标和二级指标的所有项权重值。
103、可选的,所述第i个评审人员确定指标权重:
104、第i个评审人员判断上述m个指标中最重要的指标和最不重要的指标,打分度量确定最重要指标相对于其他评估指标的重要程度,打分度量确定其他评估指标相对于最不重要指标的重要程度;
105、确定基于第i个评审人员的第j个指标最优权重,则和应该最小化,通过求解如下方程组确定指标的最优权重:
106、;
107、对i个评审人员的指标权重的综合结果,得到i个评审人员的最优权重矩阵:
108、{w}_{b}=\left [ {{a}_{i}{w}^{i}_{j}} \right ];
109、其中,表示第i个评审人员的权重,表示最优指标权重。
110、可选的,所述动态权重具体包括:
111、根据每位评审人员对评价指标的所打分值建立初始评价矩阵:
112、;
113、其中,m表示评审人员的个数,n表示各一级评价指标数;
114、将最优权重矩阵与初始评价矩阵相乘得到加权决策矩阵;
115、;
116、确定初始最优最劣解序列,:
117、;
118、最优最劣解序列间的距离来近似:
119、;
120、计算到加权决策矩阵任意两序列关于指标j的相关系数:
121、;
122、其中,、、表示分辨系数,相关系数表示关于指标的相关程度,相关系数的值越大说明这两序列对于指标j上的相关程度越高;
123、根据相关系数的结果求得加权决策矩阵关于最优最劣解序列的正负相关度:
124、;
125、将求得的待评估方案关于最优最劣解序列的距离b与相关度e进行拟合得到新的特征指标s:
126、;
127、其中,和分别表示拟合权重系数;
128、根据特征指标计算近似程度:
129、。
130、本发明的有益效果是:
131、本发明提出了基于动态权重的数据资产价值综合评估方法,根据数据特征信息的实际情况,建立了用于数据质量综合评估的指标体系,其次,分别采用层次分析法和最优最劣法得到了各指标权重,最后,基于动态权重优化对组合权重进行动态调整,考虑到指标之间的相关性,通过对各评价指标进行评估与优劣排序,得到动态权重优化的评价指标集合,达到了同时考虑所有重要指标权重,组合权的权重分配均匀的优点。