基于改进AHP的数据元件质量动态评估方法及设备与流程

文档序号:29598680发布日期:2022-04-09 10:20阅读:201来源:国知局
基于改进AHP的数据元件质量动态评估方法及设备与流程
基于改进ahp的数据元件质量动态评估方法及设备
技术领域
1.本发明涉及数据元件评估技术领域,尤其涉及一种基于改进ahp的数据元件质量动态评估方法及设备。


背景技术:

2.数据元件是原始数据资源到数据应用之间的标准中间态,具备安全属性和价值属性,一组数据元件能够规模化应用到不同的场景。数据元件相较于原始数据,不同的数据元件从安全、合规、标准化等方面经过了脱敏、降密级、预处理、特征提取、特征优化等一系列加工处理操作形成标准的初级数据产品。比如相亲市场中,客户需要了解相亲对方的婚姻状况、收入情况、是否有犯罪记录等信息,而婚姻情况、收入明细、犯罪记录等既属于原始数据资源,又属于敏感个人信息,不能直接流通,通过构建是否有离复婚史、收入特征、是否有犯罪记录等特征,经过加密存储、加密传输、加密加工、主体告知或授权使用,形成安全合规的数据元件。数据元件质量的好坏依赖于所使用的原始数据资源质量、数据元件模型的质量及数据元件结果的质量。
3.当前数据元件质量评估主要以专家打分的方式为主,十分依赖专家自身的知识水平。在实际应用过程中,难以客观的对不同领域的数据进行质量评价,甚至同一领域数据评估结果也会有很大差异,评估流程无法量化,难以构建科学模型。而且这种模式自动化水平不足,需要大量的人工评判工作,且无法根据数据更新情况动态调整评价结果,严重制约了数据元件质量评估的标准化水平,从而不利于数据元件大规模流通。


技术实现要素:

4.本发明实施例提供一种基于改进ahp的数据元件质量动态评估方法及设备,用以解决现有技术中数据元件质量评估效率差、效果不佳的问题。
5.根据本发明实施例的基于改进ahp的数据元件质量动态评估方法,包括:基于数据元件,从数据资源、数据元件模型以及数据元件结果三方面出发,构建多层次数据元件质量评估体系;利用层次分析法ahp,构建所述数据元件质量评估体系的权重矩阵;运行所述数据元件,以获取数据元件结果,并基于所述数据元件结果,采用熵权法,计算所述数据元件结果的信息熵值;基于所述信息熵值,根据公式1-2,分别计算所述数据元件模型以及所述数据元件结果的质量评分修正因子:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2,
其中,表示所述信息熵值,表示所述数据元件使用的数据资源的当前质量评分,表示预设数据资源质量较其他指标权重阈值,均为预设权重值;基于所述和所述,计算所述数据元件模型的当前质量评分以及所述数据元件结果的当前质量评分;基于所述数据资源的当前质量评分、所述数据元件模型的当前质量评分以及所述数据元件结果的当前质量评分,结合所述权重矩阵,计算所述数据元件的当前质量评估值。
6.根据本发明的一些实施例,所述数据资源的质量评价指标包括:数据资源完整性、数据资源规范性、 数据资源准确性、数据资源唯一性、数据资源一致性、以及数据资源时效性;所述数据元件模型的质量评价指标包括:数据元件模型准确性、和数据元件模型适用性;所述数据元件结果的质量评价指标包括:数据元件结果规范性、数据元件结果安全性、以及数据元件结果适用性。
7.根据本发明的一些实施例,所述数据资源唯一性包括:主键唯一性和数据唯一性;所述数据资源时效性包括:入时效性和更新时效性。
8.根据本发明的一些实施例,所述利用层次分析法ahp,构建所述数据元件质量评估体系的权重矩阵,包括:利用层次分析法ahp,基于数据质量常识和经验,构造对比矩阵;对所述对比矩阵进行一致性校验,以获得权重矩阵。
9.根据本发明的一些实施例,所述基于所述数据元件结果,采用熵权法,计算所述数据元件结果的信息熵值,包括:基于所述数据元件结果,根据公式3计算所述信息熵值:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3,其中,表示数据元件结果的特征字段个数,表示数据元件结果特征字段中第i个特征取值的概率。
10.根据本发明的一些实施例,所述根据公式4计算获得:t=,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4,满足以下条件:,其中,表示数据元件训练样本个数,和分别表示第i个数据元件训练样本的质量真实值和当前质量评估值。
11.根据本发明的一些实施例,所述质量真实值根据专家打分获得。
12.根据本发明的一些实施例,所述基于所述和所述,计算所述数据元件模型的
当前质量评分以及所述数据元件结果的当前质量评分,包括:将所述数据元件模型的初始质量评分乘以所述,以计算所述数据元件模型的当前质量评分;将所述数据元件结果的初始质量评分乘以所述,以计算所述数据元件结果的当前质量评分。
13.根据本发明实施例的基于改进ahp的数据元件质量动态评估设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于改进ahp的数据元件质量动态评估方法的步骤。
14.根据本发明实施例的计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如上所述的基于改进ahp的数据元件质量动态评估方法的步骤。
15.采用本发明实施例,通过对数据元件质量情况进行分析建模,基于ahp计算权重矩阵,并加入时间因素,通过横向和纵向对比,结合熵权法动态调整指标权重,从而降低了主观因素对ahp所得权重排序的影响,完善数据质量评估模型,极大优化了评估流程,从而使得数据元件质量评估结果接近真实情况。
16.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
17.通过阅读下文实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在附图中:图1是本发明实施例中基于改进ahp的数据元件质量动态评估方法流程图;图2是本发明实施例中基于改进ahp的数据元件质量动态评估流程框图;图3是本发明实施例中基于改进ahp的数据元件质量动态评估方法流程图。
具体实施方式
18.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。另外,在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
19.参照图1,本发明实施例的基于改进ahp的数据元件质量动态评估方法,包括:s1,基于数据元件,从数据资源、数据元件模型以及数据元件结果三方面出发,构建多层次数据元件质量评估体系;数据资源、数据元件模型以及数据元件结果的质量都影响数据元件的质量,因此,从数据资源、数据元件模型以及数据元件结果三方面出发确定多个质量评价指标,以构建
形成多层次数据元件质量评估体系。数据资源层面、数据元件模型层面以及数据元件结果层面可以作为一级评价指标。数据资源、数据元件模型以及数据元件结果下属的各级指标作为下属指标,依次类推,可以形成多层次数据元件质量评估体系。
20.s2,利用层次分析法ahp,构建数据元件质量评估体系的权重矩阵;层次分析法(analytic hierarchy process,简称ahp)是美国运筹学家、匹兹堡大学t. l. saaty教授在20世纪70年代初期提出的, ahp是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断结构(主要是两两比较)把专家意见和分析者的客观判断结果直接而有效地结合起来,将一层次元素两两比较的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。该方法自1982年被介绍到我国以来,以其定性分析与定量分析相结合地处理各种决策因素的特点,以及其系统灵活简洁的优点,迅速地在我国社会经济各个领域内,如能源系统分析、城市规划、经济管理、科研评价等,得到了广泛的重视和应用。
21.采用ahp方法,通过建立一个多层次的递阶结构,按目标的不同、实现功能的差异,将系统分为几个等级层次,如本实施例中的多层次数据元件质量评估体系。确定以上递阶结构中相邻层次元素间相关程度。通过构造两比较判断矩阵及矩阵运算的数学方法,确定对于上一层次的某个元素而言,本层次中与其相关元素的重要性排序
‑‑
相对权值。计算各层元素对系统目标的合成权重,进行总排序,以确定递阶结构图中最底层各个元素的总目标中的重要程度。
22.s3,运行数据元件,以获取运行出的数据元件结果,并基于数据元件结果,采用熵权法,计算数据元件结果的信息熵值;熵是无序程度的一个度量,对于某项指标,例如本发明实施例中的数据元件运行输出的元件结果(简称数据元件结果),可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。
23.s4,基于信息熵值,根据公式1-2,分别计算数据元件模型以及数据元件结果的质量评分修正因子:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2,其中,表示信息熵值,表示数据元件使用的数据资源的当前质量评分,表示预设数据资源质量较其他指标权重阈值,均为预设权重值;可以理解为数据元件模型的评分值相对于数据资源的评分值的相对比例,可以理解为数据元件结果的评分值相对于数据资源的评分值的相对比例;需要注意的是,这里的预设权重值均为提前设置好的,
在设置具体数据时,可以根据具体应用领域、参考专家意见进行设置。例如,数据元件在初始阶段依赖于所使用的数据资源质量,因此数据资源质量相对于数据元件模型和数据元件结果的质量重要性较高,则可以取:,;当所使用的数据资源质量超过阈值时,开发数据元件所使用的数据资源质量与数据元件模型和数据元件结果的质量指标同等重要,则可以取:。
24.开发数据元件所使用的数据资源的当前质量评分之所以强调“当前”,是由于数据资源的评分是随时间动态变化的。数据资源的评分值的计算可以参照国家数据质量标准中评分值计算方式,在此不再赘述。
25.s5,基于和,计算数据元件模型的当前质量评分以及数据元件结果的当前质量评分;s6,基于数据资源的当前质量评分、数据元件模型的当前质量评分以及数据元件结果的当前质量评分,结合权重矩阵,计算数据元件的当前质量评估值。
26.参照图2,数据资源的当前质量评分乘以权重矩阵中其对应的权重值、加上数据元件模型的当前质量评分乘以权重矩阵中其对应的权重值、再加上数据元件结果的当前质量评分乘以权重矩阵中其对应的权重值,就是数据元件的当前质量评估值。
27.采用本发明实施例,通过对数据元件质量情况进行分析建模,基于ahp计算权重矩阵,并加入时间因素,通过横向和纵向对比,结合熵权法动态调整指标权重,从而降低了主观因素对ahp所得权重排序的影响,完善数据质量评估模型,极大优化了评估流程,从而使得数据元件质量评估结果接近真实情况。
28.在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。
29.根据本发明的一些实施例,数据资源的质量评价指标包括:数据资源完整性、数据资源规范性、 数据资源准确性、数据资源唯一性、数据资源一致性、以及数据资源时效性;数据资源完整性、数据资源规范性、 数据资源准确性、数据资源唯一性、数据资源一致性、以及数据资源时效性均为下属于数据资源质量评价指标的二级评价指标。
30.数据资源完整性主要用于描述数据属性信息是否存在缺失数据记录。数据资源完整性可以通过统计数据资源中缺失的记录数与数据记录总数的比例进行评价。
31.数据资源规范性指标主要用于评估数据内容与数据标准的符合度情况。一般来说包含格式合规性和值域有效性。
32.数据资源准确性是指数据记录的信息是否存在异常或错误。准确性指标主要用于描述数据是否与其对应的客观实体的特征相一致。任何字段的数据都应该符合特定的数据格式与值。准确性用于度量哪些数据和信息是不正确的,或者数据是没有可用含义的,如果准确性指标无法满足,那么数据资源质量提供的数据就缺乏实际的业务使用价值。比如人的年龄不应该是负数,概率数字应该在0和1之间取值。不可靠的数据可能会导致错误的结果,由不准确的数据资源开发的数据元件必然也会有严重的问题。
33.数据资源唯一性主要用于度量与评估数据资产内容或相关属性的重复情况,用于识别和度量重复数据、冗余数据。现实世界中的同一个主体,在不同的数据源中常常有多个表达,在语法上相同或相似的不同记录可能会代表现实世界中的同一主体,因而会对同一
主体造成重复性记录。
34.数据资源一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据资源一致性用于评价数据记录的规范和数据内容是否符合逻辑。数据资源的一致性反映的是数据与其它特定上下文中使用的数据无矛盾的程度。一致性分为相同数据的一致性和关联数据的一致性。
35.数据资源时效性是指数据从产生到当前利用的时间间隔。时效性主要用于描述数据的更新周期、更新时间等时间特性对数据应用的满足程度。不同类型的数据应用对数据的时间特性有不同的要求。
36.评价数据资源时效性的意义在于如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
37.数据元件模型的质量评价指标包括:数据元件模型准确性、和数据元件模型适用性;数据元件模型准确性和数据元件模型适用性均为下属于数据元件模型质量评价指标的二级评价指标。
38.数据元件模型准确性是指数据元件模型是否可以准确反映数据特征。如果根据数据元件模型得到的数据元件结果不能准确反映数据的特征,则元件模型实用性和价值就存在问题,很难达到预期效果。通常的指标有模型准确率、信息贡献度等。
39.数据元件模型适用性也称为稳定性。由于数据元件模型是以特定时期特定数量的数据资源(样本)所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。数据元件模型的适用性包括范围适用性和时间适用性。稳定度指标(population stability index ,psi)可衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指针。
40.数据元件结果的质量评价指标包括:数据元件结果规范性、数据元件结果安全性、以及数据元件结果适用性。
41.数据元件结果规范性、数据元件结果安全性、以及数据元件结果适用性均为下属于数据元件结果质量评价指标的二级评价指标。
42.数据元件结果规范性主要用于评估数据元件描述内容与数据元件结果的符合度情况。一般来说包含格式合规性和值域有效性。
43.数据元件结果安全性主要是用于评估数据元件在使用过程中所带来的安全风险大小。主要分析数据元件结果是否涉及国家核心重要数据或包含个人敏感信息等,其次考察数据元件级别与数据应用开发商的一致性。
44.数据元件结果适用性主要用于评估数据元件结果的可用性和用途多样性。可用性包括数据元件能够正常运行的概率或时间占有率期望,用途多样性包括数据元件结果依附于场景的普适性。
45.质量评估一级指标包括数据资源质量评价指标、数据元件模型质量评价指标和数据元件结果质量评价指标,三个指标权重之和为1,每一类一级指标的二级指标权重之和也为1,由此形成初始的数据元件质量的权重矩阵。
46.根据本发明的一些实施例,数据资源唯一性包括:主键唯一性:数据的主键属性值应该确保唯一,不允许重复;
数据唯一性:数据的全部或部分属性值应该确保唯一,不允许重复。
47.数据资源时效性包括:接入时效性:数据接入与数据产生的时间差应该在合理的时间范围内;更新时效性:数据内容更新与数据内容变动的时间差应该在合理的时间范围内。
48.和分别是用于修正数据元件模型评分以及数据元件结果评分的。
49.根据本发明的一些实施例,所述基于和所述,计算数据元件模型的当前质量评分以及数据元件结果的当前质量评分,包括:将数据元件模型的初始质量评分乘以,以计算数据元件模型的当前质量评分;将数据元件结果的初始质量评分乘以,以计算数据元件结果的当前质量评分。
50.数据元件模型的初始质量评分以及数据元件结果的初始质量评分可以参照国家数据质量标准中评分值计算方式,在此不再赘述。
51.数据资源的当前质量评分其实也就是数据资源的初始质量评分。
52.根据本发明的一些实施例,利用层次分析法ahp,构建数据元件质量评估体系的权重矩阵,包括:利用层次分析法ahp,基于数据质量常识和经验,构造对比矩阵;对对比矩阵进行一致性校验,以获得权重矩阵。
53.根据本发明的一些实施例,基于数据元件结果,采用熵权法,计算数据元件结果的信息熵值,包括:基于数据元件结果,根据公式3计算信息熵值:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3,其中,表示数据元件结果的特征字段个数,表示数据元件结果特征字段中第i个特征取值的概率。
54.可以理解,数据元件结果输出有多个特征字段,每个特征字段的取值有多个,运行数据元件后,会输出一个数据元件运行结果,该运行结果中每个特征字段都有一个确切的值,该值的取值概率即为。
55.根据本发明的一些实施例,所述根据公式4计算获得:t=,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4,满足以下条件:,其中,表示数据元件训练样本个数,和分别表示第i个数据元件训练样本的质量真实值和当前质量评估值。
56.换言之,所述根据公式4计算获得:t=公式4,
满足以下条件:当t=,,。
57.可以理解,表示预设数据资源质量较其他指标权重阈值,取值为0到1之间。设第i个数据元件的数据资源质量的评分为,当,,;当,,。阈值取的情况下,最小,即使得数据元件的质量真实值与当前质量评估值误差最小,此时得到数据资源质量较其他指标权重的最优阈值。
58.根据本发明的一些实施例,质量真实值根据专家打分获得。
59.本发明实施例提出一种基于改进ahp的数据元件质量动态评估系统,包括:构建单元,用于基于数据元件,从数据资源、数据元件模型以及数据元件结果三方面出发,构建多层次数据元件质量评估体系;数据资源、数据元件模型以及数据元件结果的质量都影响数据元件的质量,因此,从数据资源、数据元件模型以及数据元件结果三方面出发确定多个质量评价指标,以构建形成多层次数据元件质量评估体系。数据资源层面、数据元件模型层面以及数据元件结果层面可以作为一级评价指标。数据资源、数据元件模型以及数据元件结果下属的各级指标作为下属指标,依次类推,可以形成多层次数据元件质量评估体系。
60.权重设置单元,用于利用层次分析法ahp,构建数据元件质量评估体系的权重矩阵;层次分析法(analytic hierarchy process,简称ahp)是美国运筹学家、匹兹堡大学t. l. saaty教授在20世纪70年代初期提出的, ahp是对定性问题进行定量分析的一种简便、灵活而又实用的多准则决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断结构(主要是两两比较)把专家意见和分析者的客观判断结果直接而有效地结合起来,将一层次元素两两比较的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。该方法自1982年被介绍到我国以来,以其定性分析与定量分析相结合地处理各种决策因素的特点,以及其系统灵活简洁的优点,迅速地在我国社会经济各个领域内,如能源系统分析、城市规划、经济管理、科研评价等,得到了广泛的重视和应用。
61.采用ahp方法,通过建立一个多层次的递阶结构,按目标的不同、实现功能的差异,将系统分为几个等级层次,如本实施例中的多层次数据元件质量评估体系。确定以上递阶结构中相邻层次元素间相关程度。通过构造两比较判断矩阵及矩阵运算的数学方法,确定对于上一层次的某个元素而言,本层次中与其相关元素的重要性排序
‑‑
相对权值。计算各层元素对系统目标的合成权重,进行总排序,以确定递阶结构图中最底层各个元素的总目
标中的重要程度。
62.运行单元,用于运行数据元件,以获取运行出的数据元件结果,并基于数据元件结果,采用熵权法,计算数据元件结果的信息熵值;熵是无序程度的一个度量,对于某项指标,例如本发明实施例中的数据元件运行输出的元件结果(简称数据元件结果),可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大,该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。
63.计算单元,用于基于信息熵值,根据公式1-2,分别计算数据元件模型以及数据元件结果的质量评分修正因子:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式1,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式2,其中,表示信息熵值,表示数据资源的当前质量评分,表示预设数据资源质量较其他指标权重阈值,均为预设权重值;需要注意的是,这里的预设权重值均为提前设置好的,在设置具体数据时,可以根据具体应用领域、参考专家意见进行设置。
64.数据资源的当前质量评分强调当前,是由于数据资源的评分是随时间变化的。数据资源的评分值的计算可以参照相关领域中评分值计算方式,在此不再赘述。
65.基于和,计算数据元件模型的当前质量评分以及数据元件结果的当前质量评分。
66.基于数据资源的当前质量评分、数据元件模型的当前质量评分以及数据元件结果的当前质量评分,结合权重矩阵,计算数据元件的当前质量评估值。
67.参照图2,数据资源的当前质量评分乘以权重矩阵中其对应的权重值、加上数据元件模型的当前质量评分乘以权重矩阵中其对应的权重值、再加上数据元件结果的当前质量评分乘以权重矩阵中其对应的权重值,就是数据元件的当前质量评估值。
68.采用本发明实施例,通过对数据元件质量情况进行分析建模,基于ahp计算权重矩阵,并加入时间因素,通过横向和纵向对比,结合熵权法动态调整指标权重,从而降低了主观因素对ahp所得权重排序的影响,完善数据质量评估模型,极大优化了评估流程,从而使得数据元件质量评估结果接近真实情况。
69.在上述实施例的基础上,进一步提出各变型实施例,在此需要说明的是,为了使描述简要,在各变型实施例中仅描述与上述实施例的不同之处。
70.根据本发明的一些实施例,数据资源的质量评价指标包括:数据资源完整性、数据资源规范性、 数据资源准确性、数据资源唯一性、数据资源一致性、以及数据资源时效性;数据资源完整性、数据资源规范性、 数据资源准确性、数据资源唯一性、数据资源一致性、以及数据资源时效性均为下属于数据资源质量评价指标的二级评价指标。
71.数据资源完整性主要用于描述数据属性信息是否存在缺失数据记录。数据资源完
整性可以通过统计数据资源中缺失的记录数与数据记录总数的比例进行评价。
72.数据资源规范性指标主要用于评估数据内容与数据标准的符合度情况。一般来说包含格式合规性和值域有效性。
73.数据资源准确性是指数据记录的信息是否存在异常或错误。准确性指标主要用于描述数据是否与其对应的客观实体的特征相一致。任何字段的数据都应该符合特定的数据格式与值。准确性用于度量哪些数据和信息是不正确的,或者数据是没有可用含义的,如果准确性指标无法满足,那么数据资源质量提供的数据就缺乏实际的业务使用价值。比如人的年龄不应该是负数,概率数字应该在0和1之间取值。不可靠的数据可能会导致错误的结果,由不准确的数据资源开发的数据元件必然也会有严重的问题。
74.数据资源唯一性主要用于度量与评估数据资产内容或相关属性的重复情况,用于识别和度量重复数据、冗余数据。现实世界中的同一个主体,在不同的数据源中常常有多个表达,在语法上相同或相似的不同记录可能会代表现实世界中的同一主体,因而会对同一主体造成重复性记录。
75.数据资源一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据资源一致性用于评价数据记录的规范和数据内容是否符合逻辑。数据资源的一致性反映的是数据与其它特定上下文中使用的数据无矛盾的程度。一致性分为相同数据的一致性和关联数据的一致性。
76.数据资源时效性是指数据从产生到当前利用的时间间隔。时效性主要用于描述数据的更新周期、更新时间等时间特性对数据应用的满足程度。不同类型的数据应用对数据的时间特性有不同的要求。
77.评价数据资源时效性的意义在于如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。
78.数据元件模型的质量评价指标包括:数据元件模型准确性、和数据元件模型适用性;数据元件模型准确性和数据元件模型适用性均为下属于数据元件模型质量评价指标的二级评价指标。
79.数据元件模型准确性是指数据元件模型是否可以准确反映数据特征。如果根据数据元件模型得到的数据元件结果不能准确反映数据的特征,则元件模型实用性和价值就存在问题,很难达到预期效果。通常的指标有模型准确率、信息贡献度等。
80.数据元件模型适用性也称为稳定性。由于数据元件模型是以特定时期特定数量的数据资源(样本)所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。数据元件模型的适用性包括范围适用性和时间适用性。稳定度指标(population stability index ,psi)可衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指针。
81.数据元件结果的质量评价指标包括:数据元件结果规范性、数据元件结果安全性、以及数据元件结果适用性。
82.数据元件结果规范性、数据元件结果安全性、以及数据元件结果适用性均为下属于数据元件结果质量评价指标的二级评价指标。
83.数据元件结果规范性主要用于评估数据元件描述内容与数据元件结果的符合度
情况。一般来说包含格式合规性和值域有效性。
84.数据元件结果安全性主要是用于评估数据元件在使用过程中所带来的安全风险大小。主要分析数据元件结果是否涉及国家核心重要数据或包含个人敏感信息等,其次考察数据元件级别与数据应用开发商的一致性。
85.数据元件结果适用性主要用于评估数据元件结果的可用性和用途多样性。可用性包括数据元件能够正常运行的概率或时间占有率期望,用途多样性包括数据元件结果依附于场景的普适性。
86.质量评估一级指标包括数据资源质量评价指标、数据元件模型质量评价指标和数据元件结果质量评价指标,三个指标权重之和为1,每一类一级指标的二级指标权重之和也为1,由此形成初始的数据元件质量的权重矩阵。
87.根据本发明的一些实施例,数据资源唯一性包括:主键唯一性:数据的主键属性值应该确保唯一,不允许重复;数据唯一性:数据的全部或部分属性值应该确保唯一,不允许重复。
88.数据资源时效性包括:接入时效性:数据接入与数据产生的时间差应该在合理的时间范围内;更新时效性:数据内容更新与数据内容变动的时间差应该在合理的时间范围内。
89.根据本发明的一些实施例,所述权重设置单元用于:利用层次分析法ahp,基于数据质量常识和经验,构造对比矩阵;对对比矩阵进行一致性校验,以获得权重矩阵。
90.根据本发明的一些实施例,所述计算单元用于:基于数据元件结果,根据公式3计算信息熵值:
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式3,其中,表示数据元件结果的特征字段个数,表示数据元件结果特征字段中第i个特征取值的概率。
91.可以理解,数据元件结果输出有多个特征字段,每个特征字段的取值有多个,运行数据元件后,会输出一个数据元件运行结果,该运行结果中每个特征字段都有一个确切的值,该值的取值概率即为。
92.根据本发明的一些实施例,所述根据公式4计算获得:t=,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4,满足以下条件:,其中,表示数据元件训练样本个数,和分别表示第i个数据元件训练样本的质量真实值和当前质量评估值。
93.换言之,所述根据公式4计算获得:
t=公式4,满足以下条件:当t=,,。
94.可以理解,表示预设数据资源质量较其他指标权重阈值,取值为0到1之间。设第i个数据元件的数据资源质量的评分为,当,,;当,,。阈值取的情况下,最小,即使得数据元件的质量真实值与当前质量评估值误差最小,此时得到数据资源质量较其他指标权重的最优阈值。
95.根据本发明的一些实施例,质量真实值根据专家打分获得。
96.下面参照图2-图3以一个具体的实施例详细描述根据本发明实施例的基于改进ahp的数据元件质量动态评估方法及系统。值得理解的是,下述描述仅是示例性说明,而不是对本发明的具体限制。凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围。
97.本发明实施例提出了一种基于改进层次分析法(ahp)的数据元件质量评估方法,并基于此方法开发一套数据元件质量评估系统。该方法基于数据元件质量检核结果,初期根据各项国家标准和行业标准,选取相关的质量评估指标,利用基本的数据质量常识和经验作为权重分配基础;通过对数据质量情况进行分析建模,改进传统ahp的计算模型,给出一个初始化的质量评估模型;后续加入时间因素,通过横向和纵向对比,并通过熵权法动态调整指标权重。
98.该方法及系统主要包括评估指标定义、权重矩阵设置、评估模型构建、权重矩阵动态改进、质量评估报告生成等关键步骤。参照图3,本发明实施例的方法主要涉及以下关键环节:第1步:选取数据元件质量评估指标;数据元件的指标体系主要由数据资源质量评价指标、数据元件模型质量评价指标和数据元件结果三部分构成。
99.1 数据资源质量评价指标;(1)数据资源完整性;完整性主要用于描述数据属性信息是否存在缺失数据记录。数据资源完整性可以通过统计数据资源中缺失的记录数与数据记录总数的比例进行评价。
100.(2) 数据资源规范性;规范性指标主要用于评估数据内容与数据标准的符合度情况。一般来说包含格式合规性和值域有效性。
101.(3) 数据资源准确性;准确性是指数据记录的信息是否存在异常或错误。准确性指标主要用于描述数据是否与其对应的客观实体的特征相一致。任何字段的数据都应该符合特定的数据格式与值。准确性用于度量哪些数据和信息是不正确的,或者数据是没有可用含义的,如果准确性指标无法满足,那么数据资源质量提供的数据就缺乏实际的业务使用价值。比如人的年龄不应该是负数,概率数字应该在0和1之间取值。不可靠的数据可能会导致错误的结果,由不准确的数据资源开发的数据元件必然也会有严重的问题。
102.(4)数据资源唯一性;唯一性主要用于度量与评估数据资产内容或相关属性的重复情况,用于识别和度量重复数据、冗余数据。现实世界中的同一个主体,在不同的数据源中常常有多个表达,在语法上相同或相似的不同记录可能会代表现实世界中的同一主体,因而会对同一主体造成重复性记录。
103.唯一性包括但不限于以下内容:a)主键唯一性:数据的主键属性值应该确保唯一,不允许重复;b)数据唯一性:数据的全部或部分属性值应该确保唯一,不允许重复。
104.(5)数据资源一致性;一致性是指数据是否遵循了统一的规范,数据集合是否保持了统一的格式。数据资源一致性用于评价数据记录的规范和数据内容是否符合逻辑。数据资源的一致性反映的是数据与其它特定上下文中使用的数据无矛盾的程度。一致性分为相同数据的一致性和关联数据的一致性。
105.(6)数据资源时效性;时效性是指数据从产生到当前利用的时间间隔。时效性主要用于描述数据的更新周期、更新时间等时间特性对数据应用的满足程度。不同类型的数据应用对数据的时间特性有不同的要求。
106.评价数据资源时效性的意义在于如果数据分析周期加上数据建立的时间过长,就可能导致分析得出的结论失去了借鉴意义。时效性包括但不限于以下内容:a)接入时效性:数据接入与数据产生的时间差应该在合理的时间范围内;b)更新时效性:数据内容更新与数据内容变动的时间差应该在合理的时间范围内。
107.2数据元件模型质量评价指标;(1)数据元件模型准确性;数据元件模型准确性是指数据元件模型是否可以准确反映数据特征。如果根据数据元件模型得到的数据元件结果不能准确反映数据的特征,则元件模型实用性和价值就存在问题,很难达到预期效果。通常的指标有模型准确率、信息贡献度等。
108.(2)数据元件模型适用性;数据元件模型的适用性也称为稳定性。由于数据元件模型是以特定时期特定数量的数据资源(样本)所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。数据元件模型的适用性包括范围适用性和时间适用性。稳定度指标(population stability index ,psi)可衡量测试样本及模型开发样本评分的分布差异,
为最常见的模型稳定度评估指针。
109.3数据元件结果质量评价指标;(1)数据元件结果规范性;规范性指标主要用于评估数据元件描述内容与数据元件结果的符合度情况。一般来说包含格式合规性和值域有效性。
110.(2)数据元件结果安全性;安全性指标主要是用于评估数据元件在使用过程中所带来的安全风险大小。主要分析数据元件结果是否涉及国家核心重要数据或包含个人敏感信息等,其次考察数据元件级别与数据应用开发商的一致性。
111.(3)数据元件结果适用性;适用性指标主要用于评估数据元件结果的可用性和用途多样性。可用性包括数据元件能够正常运行的概率或时间占有率期望,用途多样性包括数据元件结果依附于场景的普适性。
112.质量评估一级指标包括数据资源质量评价指标、数据元件模型质量评价指标和数据元件结果,三个指标权重之和为1,每一类一级指标的二级指标权重之和也为1,由此形成初始的数据元件质量的权重矩阵。
113.第2步:给出质量评估指标的初始值;第3步:通过ahp计算方法构建评估指标权重矩阵;将有关的各项指标分解成若干级指标,同一级的指标从属于上一级指标或对上一级指标有影响,最上一层为目标层,表示数据元件质量,中间层由多级指标构成,当指标过多时,进一步分解成对应子指标;构造成对比较阵,从第2层开始,对于从属于上一层的每个指标的影响因素,用数值或计算公式构造成对比较阵,直到最后一层;计算权重向量并进行一致性检验,利用一致性指标、随机一致性指标和一致性比率做一致性检验。若检验通过,特征向量(归一化后)即为权向量:若不通过,需重新构造成对比较阵;计算组合权向量并做组合一致性检验。计算最下层对目标的组合权向量,并根据公式做组合一致性检验,若检验通过,则可按照组合权向量表示的结果进行决策,否则需要重新考虑模型或重新构造那些一致性比率较大的成对比较阵。
114.第4步:构建数据元件质量评估算法模型,可以参照图2。
115.第5步:输入数据元件对象,运行质量评估模型;基于数据随时间动态变化过程,前期数据资源质量较差时,对于数据元件来说影响较大,如会选择弃用,数据资源相对其他一级指标权重占比较大;当数据资源质量较好时,数据资源相对其他一级指标权重占比较小。设数据元件的一级指标所使用数据资源质量相对于数据元件模型、数据元件结果的评分值权重分别为,。,相当于在元件模型、元件结果的评分值前面乘以一个修正因子,用于修正评分值,当然,由于权重值与评分值也是相乘的关系,因此也可以理解为修正权重值。
116.第6步,基于熵权法,动态调整评估指标生产数据元件所使用数据资源的质量评分值,优化质量评估模型。
117.对于数据元件特征字段,可以用熵值来判断该特征的离散程度,其信息熵值越小,特征的离散程度越大, 该特征对综合评价的影响(即权重)就越大,如果特征的值全部相
等,则该特征在综合评价中不起作用。
118.数据元件中的特征字段信息熵值可计算如下:其中表示数据元件中特征字段不同值的取值概率,表示数据元件中特征字段的信息熵值。的信息熵值。
119.其中代表生产数据元件所使用数据资源的质量评分的修正值,其随时间变化,表示一级指标所使用数据资源质量较其他指标权重阈值,可以是针对不同数据元件所使用数据资源质量的修正指标在变化过程中不断优化得到,、表示一级指标所使用数据资源质量相对于其他一级指标动态变化的权重函数。
120.所述根据公式4计算获得:t=,
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
公式4,满足以下条件:,其中,表示数据元件训练样本个数,和分别表示第i个数据元件训练样本的质量真实值和当前质量评估值。
121.换言之,所述根据公式4计算获得:t=公式4,满足以下条件:当t=,,。
122.可以理解,表示预设数据资源质量较其他指标权重阈值,取值为0到1之间。设第i个数据元件的数据资源质量的评分为,当,,;当,,。阈值取的情况下,最小,即使得
数据元件的质量真实值与当前质量评估值误差最小,此时得到数据资源质量较其他指标权重的最优阈值。
123.我们对n个数据元件的质量进行专家打分和模型评估,其中和表示第i个数据元件的质量真实值和综合评估值。
124.第7步:根据运行结果生成质量评估报告;第8步:根据数据元件整体情况,分析质量结果。
125.本发明实施例的创新之处包括:本发明对现有ahp方法的基础上进行改进,在结合现有数据质量管理实践的基础上,构建动态的评估模型,不再依赖专家打分,完全实现数据元件质量的全自动化评估。本发明主要有以下技术关键点:综合各行业特点,依据标准规范选取合适的数据元件质量评估指标;基于改进ahp算法,计算数据元件质量评估指标权重矩阵;通过熵权法优化指标值矩阵,根据评估指标和权重矩阵构建数据元件质量评估模型;基于时间因素动态分析数据质量结果,构建评估指标权重动态修正模型,优化质量评估算法。数据元件质量会随着时间动态变化,不同类型的数据元件时效性不同,完整性、一致性、唯一性等会有较大变化,动态调整不同指标权重修正数据元件质量。
126.本发明实施例具有如下有益效果:基于可量化的数据质量评估指标,构建科学合理的数据计算模型,减少人为因素的依赖,通过统一的标准建立数据元件质量动态评估模型,及时发现、评估、检测数据元件质量变化情况,以保证数据元件质量的稳定可靠。
127.数据元件质量管理是合理分析和高效利用数据信息的前提,是获取数据价值的重要保障。通过开展数据元件质量管理工作,可以获得高价值密度的信息,是对外提供数据服务、发挥数据价值的必要前提,也是开展数据资产管理的重要目标。
128.通过对数据质量情况进行分析建模,改进传统ahp的计算模型,给出一个初始化的质量评估模型;后续加入时间因素,通过横向和纵向对比,并通过熵权法动态调整指标权重,降低主观因素对ahp所得权重排序的影响,完善数据质量评估模型。极大优化评估流程,排除主观因素影响,从而使得数据元件质量评估结果接近真实情况。
129.需要说明的是,以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
130.本发明实施例基于上述评估方法,还提出一种基于改进ahp的数据元件质量动态评估设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如上的基于改进ahp的数据元件质量动态评估方法的步骤。
131.本发明实施例基于上述评估方法,还提出一种计算机可读存储介质,计算机可读存储介质上存储有信息传递的实现程序,程序被处理器执行时实现如上的基于改进ahp的数据元件质量动态评估方法的步骤。
132.本实施例计算机可读存储介质包括但不限于为:rom、ram、磁盘或光盘等。
133.需要说明的是,在本说明书的描述中,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
134.使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
135.参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
136.术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
137.不应将位于括号之内的任何参考符号构造成对权利要求的限制。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1