基于量化指标的数据质量计算方法、设备及存储介质与流程

文档序号:31604553发布日期:2022-09-21 10:07阅读:97来源:国知局
基于量化指标的数据质量计算方法、设备及存储介质与流程

1.本技术涉及数据质量评价技术领域,特别是基于量化指标的数据质量计算方法、计算机设备及存储介质。


背景技术:

2.数据质量评估是从数据综合应用的角度考虑,对信息和数据的采集、存储和产出进行全面的考察和评价,从而提高信息和数据的可信度和有效度,为决策提供更有利的基础。
3.而目前的数据质量评估方法对与数据质量管理的流程性管控缺乏有效的支撑,数据质量评价结果不够全面。


技术实现要素:

4.本技术主要解决的技术问题是提供一种基于量化指标的数据质量计算方法、计算机设备及存储介质,能够基于指标对系统的数据质量进行评价,提升了对系统数据质量的评价功能的客观性。
5.为解决上述技术问题,本技术采用的第一个技术方案是:提供一种基于量化指标的数据质量计算方法,该方法包括:分别获取若干待评测系统对应数据指令评价模型中定义的若干指标的实际值;根据若干待评测系统的同一指标的所有实际值计算同一指标的权重值;根据同一指标下的一待评测系统的实际值和权重值,得到同一指标下的一待评测系统的数据质量分。
6.为解决上述技术问题,本技术采用的第二个技术方案是:提供一种计算机设备,该计算机设备包括处理器、存储器和通信电路,处理器分别连接存储器和通信电路,通信电路用于通信连接,存储器存储有计算机程序,处理器用于执行计算机程序以实现如上述本技术第一个技术方案提供的方法。
7.为解决上述技术问题,本技术采用的第三个技术方案是:提供一种计算机可读的存储介质,该计算机可读的存储介质存储计算机程序,该计算机程序能够被处理器执行以实现如上述本技术第一个技术方案提供的方法。
8.本技术的有益效果是:区别于现有技术的情况,通过分别获取若干待评测系统对应数据质量评价模型中定义的若干指标的实际值,数据质量评价模型包括若干指标,对于同一指标,可以根据若干待评测系统的同一指标对应的所有实际值计算同一指标的权重值,再根据同一指标下的一待评测系统的实际值和权重值,得到同一指标下的一待评测系统的数据质量分。
附图说明
9.图1是本技术基于量化指标的数据质量计算方法第一实施例的流程示意图;
10.图2是本技术基于量化指标的数据质量计算方法第一实施例的数据质量评估模型
导图;
11.图3是本技术计算机设备实施例的结构示意框图;
12.图4是本技术计算机可读的存储介质实施例的结构示意框图。
具体实施方式
13.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
14.若本技术技术方案涉及个人信息,应用本技术技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本技术技术方案涉及敏感个人信息,应用本技术技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或者请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理个人信息种类等信息。
15.参阅图1至图2,本技术描述的基于量化指标的数据质量计算方法可以包括:s100:分别获取若干待评测系统对应数据质量评价模型中定义的若干指标的实际值。s200:根据所述若干待评测系统的同一指标的所有实际值计算所述同一指标的权重值。s300:根据同一指标下的一待评测系统的实际值和权重值,得到同一指标下的一待评测系统的数据质量分。以下进行一一具体描述。
16.s100:分别获取若干待评测系统对应数据质量评价模型中定义的若干指标的实际值。
17.数据质量评价模型是对系统的数据进行质量评价的模型,其中定义了若干指标以通过若干指标所对应的检核规则来对系统进行数据质量评价。
18.指标是反映系统数据的质量特征,可以通过若干检核规则来对指标进行量化。例如,数据质量评价模型中存在指标“客户信息完整性”,与之相对应的检核规则可以有证件信息检核规则、联系电话检核规则、地址检核规则等。服务器可以获取证件信息检核规则并依据证件信息检核规则对系统进行量化评价,所得的检核规则评价实际值作为该系统的指标“客户信息完整性”的实际值。
19.数据质量评价模型中可以对若干指标进行分类,例如将若干指标分为评价指标、整改指标、管控指标等。可选地,针对不同的指标类别可以设定不同的类别系数,类别系数表征该类指标对于整体数据质量评价指标体系的重要程度,对系统进行数据质量评价时可以将类别系数作为评价因子参与系统的数据质量分的计算。
20.可选地,指标存在对应的指标权重以表征该项指标对于整体数据质量评价指标体系的重要程度,为获取权重,服务器需获取待评测系统的若干指标下的若干规则对应的若干实际值,具体可以参见s100包括的如下步骤:
21.s110:获取第一待评测系统对应第一指标下若干第一规则的若干第一实际值,获取第一待评测系统对应第二指标下至少一条第二规则的至少一条第二实际值。
22.指标是反映系统数据的质量特征,可以通过若干检核规则来对指标进行量化。通过获取若干检核规则对应的评价结果来获取待测评系统对应指标下若干规则的若干实际值。
23.一指标下的检核规则是基于全部待评测系统对应该指标的检核规则的集合。例如,全部待参评系统包括系统a、系统b、系统c,系统a对应指标1的检核规则有规则1、系统b对应指标1的检核规则有规则2、规则3,系统c对应指标1的检核规则有规则1、规则4,因此数据质量评价模型中指标1对应的检核规则有4条,分别是规则1、规则2、规则3以及规则4。
24.不同的指标对应的检核规则的数量是不同的,可以是一条,也可以是多条。服务器在对待评测系统进行数据质量评价时,需要获取待评测系统对应数据质量评价模型中定义的所有指标的所有检核规则的实际值。例如,数据质量评价模型中定义了2个指标,分别是指标1和指标2。指标1对应的检核规则只有1条(例如规则1),指标2对应的检核规则有3条(例如规则2、规则3、规则4),在对系统a进行数据质量评价时,需要获取待评测系统a对应指标1下规则1的实际值以及对应指标2下规则2、规则3、规则4的3个实际值。
25.s120:获取第二待评测系统对应第一指标下若干第一规则的若干第三实际值,获取第二待评测系统对应第二指标下至少一条第二规则的至少一条第四实际值。
26.在获取第一待评测系统对应第一指标下若干第一规则的若干第一实际值,以及对应第二指标下至少一条第二规则的至少一条第二实际值,即获取第一待评测系统对应数据质量评价模型中定义的若干指标的若干规则的实际值之后,获取第二待评测系统对应第一指标下若干第一规则的若干第三实际值,获取第二待评测系统对应第二指标下至少一条第二规则的至少一条第四实际值,即获取全部待评测系统对应数据质量评价模型中定义的若干指标的若干规则的实际值。
27.可选地,数据质量评价模型中可以对若干指标进行分类以便于获取待评测系统在某一类的指标下的数据质量情况,具体可以参见如下步骤:
28.s130:若干指标分为质量维度、改进维度以及管控维度的三种指标。
29.质量维度指标是针对系统数据的质量设置的指标类别,改进维度指标是针对系统数据的问题的整改工作进展而设置的指标类别,管控维度指标是针对系统数据的管控工作进展而设置的指标类别。
30.可选地,质量维度、改进维度以及管控维度包括的指标是可以改变的。
31.可选地,质量维度指标包括业务指标和非业务指标,具体可以参见s130包括的如下步骤:
32.s131:质量维度包括业务指标和非业务指标。
33.业务指标是为提高非技术人员参与度而设置的围绕业务管控要求的指标。
34.s132:改进维度包括数据质量问题整改完成率、数据质量问题整改及时率、数据质量问题密度。
35.s133:管控维度包括数据规范定义覆盖率、数据质量检核规则覆盖率、跨系统交互接口规范说明完整性/异常数据拒绝率、数据认责覆盖率、数据质量检核规则有效率。
36.可选地,业务指标和非业务指标包括更具体的指标来对待评测系统进行数据质量
评价,具体可以参见s131包括的如下步骤:
37.s1311:非业务指标包括完整性、唯一性、规范性、一致性。
38.完整性可以指字段空值率,唯一性可以指数据表主键设置完备性,规范性可以指注释信息完整率,一致性可以指与主数据系统数据一致性、与外部权威数据一致性。
39.s1312:业务指标包括连续性、真实性、准确性、完整性。
40.连续性可以是指数据变更连续性及业务数据连贯性(例如客户信息变更日志完整性、账户余额连续性等),真实性可以是指数据间逻辑匹配度(如财政数据之间的逻辑匹配度),准确性可以是指关联业务系统业务数据一致性,完整性可以是指监管报送覆盖率。
41.可选地,业务指标和非业务指标包括的内容可以改变。
42.s200:根据若干待评测系统的同一指标的所有实际值计算同一指标的权重值。
43.为了判断各项指标对于整体数据质量评价指标体系的重要程度,对各项指标设置相应的权重。对于某一指标的权重,是通过若干待评测系统的对应于该指标的所有实际值来计算的。如果单一系统在分析某指标时并未考虑将某一检核规则,可将该系统在该指标下该检核规则的实际值设置未零。例如,全部待评测系统只有系统a和系统b,数据质量评价模型中定义了指标1,指标1下定义了7条检核规则,在计算指标1的权重时,需要获取系统a和系统b在指标1下的7条检核规则对应的实际值,即14个数据。
44.可选地,利用同一指标的实际值之和与所有指标的实际值之和来获取同一指标的权重值,具体可以参见s200包括的以下步骤:
45.s210:获取所有待评测系统同一指标的实际值之和,作为被除数,以及所有待评测系统所有指标的实际值之和,作为除数,获得被除数和所述除数的比值,作为权重值。
46.例如,全部待评测系统有系统a、系统b、系统c。数据质量评价模型中只定义了指标1、指标2,指标1下定义了3条检核规则,分别是规则1、规则2、规则3,指标2下定义了1条检核规则(规则4)。系统a在规则1、规则2、规则3、规则4下的实际值分别是40、0、0、60,系统b在规则1、规则2、规则3、规则4下的实际值分别是50、60、0、70,系统c在规则1、规则2、规则3、规则4下的实际值分别是45、55、45、80。获取所有待评测系统同一指标的实际值之和,是指获取全部待评测系统(系统a、系统b、系统c)的指标1下定义的规则1、规则2、规则3的实际值之和,以及获取全部待评测系统(系统a、系统b、系统c)的指标2下定义的规则4的实际值之和。获取所有待评测系统所有指标的实际值之和,是指获取全部待评测系统(系统a、系统b、系统c)的指标1和指标2下定义的规则1、规则2、规则3、规则4的实际值之和。指标1的实际值之和是295,指标2的实际值之和是210,所有指标的实际值之和是505,因此指标1的权重值是0.58,指标2的权重值是0.42。
47.可选地,为获取数据质量评价模型定义的一指标的权重值,需获取全部待评测系统在该指标下的实际值,具体可以参见s210包括的如下步骤:
48.s211:获得若干第一实际值和若干第三实际值之和;
49.第一实际值是第一待评测系统在对应第一指标下若干第一规则的若干实际值,第三实际值是第二待评测系统在对应第一指标下若干第三规则的若干实际值。获得若干第一实际值和若干第三实际值之和,即在计算第一指标的权重值时,需要获取全部待评测系统在第一指标下的若干实际值,即全部待评测系统在第一指标下的若干规则的若干实际值。
50.可选地,获取全部待评测系统在第一指标下的若干实际值可以是获取若干第二实
际值和若干第四实际值之和。
51.可选地,为获取数据质量评价模型定义的一指标的权重值,需获取全部待评测系统在所有指标下的实际值,具体可以参见s210包括的如下步骤:
52.s212:获得若干第一实际值、若干第二实际值、若干第三实际值以及若干第四实际值之和。
53.获取全部待评测系统在所有指标下的实际值,即获取全部待评测系统在所有指标下若干规则的若干实际值,即获得若干第一实际值、若干第二实际值、若干第三实际值以及若干第四实际值之和。
54.s300:根据同一指标下的一待评测系统的实际值和权重值,得到同一指标下的一待评测系统的数据质量分。
55.获取到同一指标下的一待评测系统的实际值和权重值后,可以对实际值和权重值进行一些处理后得到同一指标下的一待评测系统的数据质量分。例如,可以将同一指标下的一待评测系统的实际值和权重值的乘积作为一待评测系统在该指标下的数据质量分。
56.可选地,由于不同的待评测系统对应同一指标有不同的检核规则,在计算该指标下的一待评测系统的数据质量分时,可以设置一规则系数,将其纳入数据质量分的计算方法中。规则系数可以是单一系统在同一指标下的规则数占全部系统在同一指标的全部规则数的比值。例如,指标1下的检核规则数有7条,系统a在分析指标1时考虑了4条检核规则。可以得到,系统a在指标1下的规则系数是七分之四,在计算系统a在指标1下的数据质量分时,可以将规则系数与系统a在指标1下的4条检核规则的实际值之和的乘积作为系统a在指标1下的数据质量分。
57.可选地,得到一指标下的一待评测系统的数据质量分之后可以获取一待评测系统的总质量分,进而获取全部待评测系统的总质量分,具体可以参见s300包括的如下步骤:
58.s310:得到剩余指标下的一待评测系统的相应数据质量分,并获得所有指标下的数据质量分之和,作为一待评测系统的总质量分。
59.通过获取同一指标下的一待评测系统的数据质量分之后,根据剩余指标下的一待评测系统的实际值和权重值得到剩余指标下的一待评测系统的数据质量分以得到所有指标下的数据质量分,将所有指标的数据质量分之和作为一待评测系统的总质量分。例如,数据质量评价模型定义了三个指标,分别是指标1、指标2、指标3。系统a在指标1、指标2、指标3下的数据质量分分别是1.67、5.35、9.34,那么系统a的数据质量分是16.36。
60.如图3所示,本技术计算机设备实施例描述的计算机设备20,具体可以包括处理器210和存储器220。存储器220耦接处理器210。
61.处理器210用于控制计算机设备20的操作,处理器210还可以称为cpu(central processing unit,中央处理单元)。处理器210可能是一种集成电路芯片,具有信号的处理能力。处理器210还可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器210也可以是任何常规的处理器等。
62.存储器220用于存储计算机程序,可以是ram,也是可以rom,或者其他类型的存储设备。具体地,存储器可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多
个磁盘存储设备、闪存存储设备。在一些实施例中,存储器中的非暂态的计算机可读存储介质用于存储至少一条程序代码。
63.处理器210用于执行存储器220中存储的计算机程序以实现本技术基于量化指标的数据质量计算方法实施例描述的数据质量计算方法。
64.在一些实施方式中,计算机设备20还可以包括:外围设备接口230和至少一个外围设备。处理器210、存储器220和外围设备接口230之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口230相连。具体地,外围设备包括:射频电路240、显示屏250、音频电路260和电源270中的至少一种。
65.外围设备接口230可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器210和存储器220。在一些实施例中,处理器210、存储器220和外围设备接口230被集成在同一芯片或电路板上;在一些其他实施方式中,处理器210、存储器220和外围设备接口230中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
66.射频电路240用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路240通过电磁信号与通信网络以及其他通信设备进行通信,射频电路240则是计算机设备20的通信电路。射频电路240将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路240包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路240可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路240还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
67.显示屏250用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏250是触摸显示屏时,显示屏250还具有采集在显示屏250的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器210进行处理。此时,显示屏250还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施方式中,显示屏250可以为一个,设置在计算机设备20的前面板;在另一些实施方式中,显示屏250可以为至少两个,分别设置在计算机设备20的不同表面或呈折叠设计;在另一些实施方式中,显示屏250可以是柔性显示屏,设置在计算机设备20的弯曲表面上或折叠面上。甚至,显示屏250还可以设置成非矩形的不规则图形,也即异形屏。显示屏250可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
68.音频电路260可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器210进行处理,或者输入至射频电路240以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在计算机设备20的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器210或射频电路240的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路260还可以
包括耳机插孔。
69.电源270用于为计算机设备20中的各个组件进行供电。电源270可以是交流电、直流电、一次性电池或可充电电池。当电源270包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
70.关于本技术计算机设备实施例中各功能模块或者部件功能和执行过程的详细阐述,可以参照上述本技术基于量化指标的数据质量计算方法实施例中的阐述,在此不再赘述。
71.在本技术所提供的几个实施例中,应该理解到,所揭露的计算机设备和数据质量计算方法,可以通过其它的方式实现。例如,以上所描述的计算机设备各实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
72.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
73.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
74.参阅图4,上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质300中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令/计算机程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种介质以及具有上述存储介质的电脑、手机、笔记本电脑、平板电脑、相机等电子设备。
75.关于计算机可读存储介质中的程序数据的执行过程的阐述可以参照上述本技术基于量化指标的数据质量计算方法实施例中阐述,在此不再赘述。
76.以上所述仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1