一种数据质量评估平台以及方法与流程

文档序号:15830506发布日期:2018-11-07 07:15阅读:253来源:国知局
一种数据质量评估平台以及方法与流程

本申请涉及数据评估技术领域,具体而言,涉及一种数据质量评估平台以及方法。

背景技术

在数字信息飞速发展的今天,数据对企业的影响日益增强,越来越多的企业需要“用数据说话”。对企业来说,无形资产占有的比重越来越大,除了专利、软件著作权、商标等知识产权等无形资产,业务数据这种无形资产的重要性不容小觑。业务数据的价值有时直接决定企业的价值。

在对业务数据的价值进行评估的时候,通常是基于业务数据来进行的;业务数据的质量在很大程度上能够影响其价值的评估结果。因此,在对业务数据的价值进行评估之前,通常需要对业务数据的质量进行确定。现有技术中提供了业务数据的评估业务,用于实现对业务数据的质量进行确定。业务数据评估业务的提供者主要是资产评估机构;在进行业务数据评估时,待评估者需要与资产评估机构联系,双方当面沟通评估条件;在评估条件谈妥之后,待评估者将业务数据提供给资产评估机构,再由资产评估机构的资产评估专家按照一定的评估流程对业务数据进行评估。这样的评估方式导致了在评估过程中受人为主观因素影响较多,使得评估结果不够客观、准确。



技术实现要素:

有鉴于此,本申请实施例的目的在于提供一种数据质量评估平台以及方法,能够较为客观、准确的确定业务数据的质量,并且在业务数据的质量在确定过程中不需要人为参与,降低业务数据被人为泄露的可能性,增加业务数据在评估过程中的安全性。

第一方面,本申请实施例提供一种数据质量评估平台,包括:

获取模块,用于获取待评估数据;

第一确定模块,用于确定所述待评估数据在预设质量确定指标下的指标值;

第二确定模块,用于基于所述预设数据质量指标下的指标值,确定所述待评估数据的质量确定结果。

结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中:所述第一确定模块,具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;

其中,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息。

结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中:所述第一确定模块,具体用于确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:

所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;

所述待评估数据的大小与所述待评估数据的描述信息所述描述的大小;

所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。

结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中:所述第一确定模块,具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。

结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中:所述第一确定模块,具体用于确定所述待确定数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待确定数据开始产生时间与所述待确定数据提供时间之间的时间差;基于所述时间区间以及所述时间差确定所述待确定数据在数据时效性指标下的指标值;

其中,所述时间区间跨度越大,表征所述待确定数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待确定数据的数据时效性指标的指标值越高。

结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中:所述质量评估指标还包括数据冗余度指标;

所述第一确定模块,具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。

结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中:还包括:相似数据确定模块;

所述获取模块,还用于从所述预设平台爬取多个数据集;

所述相似数据确定模块,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。

结合第一方面,本申请实施例提供了第一方面的第七种可能的实施方式,其中:所述质量评估指标还包括数据稀缺性指标;

所述第一确定模块,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。

结合第一方面,本申请实施例提供了第一方面的第八种可能的实施方式,其中:所述质量评估指标还包括数据量指标;

所述第一确定模块,具体用于确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。

第二方面,本申请实施例提供一种数据质量评估方法,包括:

获取待评估数据;

确定待评估数据在预设质量确定指标下的指标值;

基于预设数据质量指标下的指标值,确定待评估数据的质量确定结果。

结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中:针对所述质量确定指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;其中,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息。

结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中:确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度,具体包括:确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:

所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;

所述待评估数据的大小与所述待评估数据的描述信息所述描述的大小;

所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。

结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中:针对所述数据质量指标包括数据完整性指标的情况,

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。

结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中:针对所述质量确定指标包括数据时效性指标的情况,

确定所述待评估数据在预设质量确定指标下的指标值,具体包括:确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间以及所述时间差确定所述待评估数据在数据时效性指标下的指标值;

其中,所述时间区间跨度越大,表征所述待评估数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高。

结合第二方面,本申请实施例提供了第二方面的第五种可能的实施方式,其中:针对所述数据质量指标包括数据冗余度指标的情况,

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。

结合第二方面,本申请实施例提供了第二方面的第六种可能的实施方式,其中:还包括:从所述预设平台爬取多个数据集;分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。

结合第二方面,本申请实施例提供了第二方面的第七种可能的实施方式,其中:所述质量评估指标还包括数据稀缺性指标;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。

结合第二方面,本申请实施例提供了第二方面的第八种可能的实施方式,其中:所述质量评估指标还包括数据量指标;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。

本申请实施例提供的数据质量评估平台,通过获取模块获取待评估数据后,会使用价值确定模块确定待评估数据在数据一致性指标、数据完整性指标以及数据时效性指标三个质量评估指标下的指标值,然后使用第二确定模块基于上述三个指标值,确定待评估数据的质量确定结果,整个过程不需要人为的干预,就能够更加客观、准确的确定业务数据的质量。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种数据质量评估平台的结构示意图;

图2示出了本申请实施例所提供的一种数据质量评估方法的流程图;

图3示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

与现有技术不同,本申请实施例在对业务数据进行质量确定时,通过获取模块获取业务数据(本申请实施例中待评估数据),通过第一确定模块确定业务数据在至少一种预设数据质量指标下的指标值,然后通过第二确定模块基于预设数据质量指标下的指标值,确定业务数据的质量结果,全程不需要人为的干预,就能够更加客观、准确的确定业务数据的质量,并且也正是不需要认为的干预,减少了业务数据与人接触的可能,从而降低了业务数据被人为泄露的可能性,增加业务数据在评估过程中的安全性。

为便于对本实施例进行理解,首先对本申请实施例所公开的一种数据质量评估平台进行详细介绍。需要注意的是,该数据质量评估平台除了能够确定业务数据的质量,也能够确定其他数据,例如试验数据、住宅数据等的质量。下面对待评估数据为业务数据对本申请技术方案加以说明。

参见图1所示,本申请实施例提供的数据质量评估平台包括:获取模块10、第一确定模块20以及第二确定模块30。

其中,获取模块10,用于获取待评估数据。

在具体实现的时候,待评估数据是要进行质量确定的业务数据。待评估数据可以通过多种方式获取,例如从预设平台爬取的业务数据,预设平台包括企业网站、统计局、数据交易平台、纽扣平台等;接收从数据来源发送的待评估数据。

第一确定模块20,用于确定所述待评估数据在数据一致性指标、数据完整性指标以及数据时效性指标多种质量评估指标下的指标值。

较佳地,本申请实施例每次实施的对象可以为一类数据,如果该类数据包括多个数据集,那么本申请实施例的数据质量确定对象可以为一个数据集。

在具体实现的时候,本申请实施例中第一确定模块20具体用于通过下述1-3的方法确定待评估数据在在数据一致性指标、数据完整性指标以及数据时效性指标多种质量评估指标下的指标值。具体地:

1,针对所述质量确定指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;

所述第一确定模块20,具体用于确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据的数据一致性指标的指标值越高。

在具体实现的时候,可以通过确定如下一项或多项数据内容与对应描述信息之间的一致性程,来表征待评估数据的数据内容和描述信息的一致性程度,其中,任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高。

其一:所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量。

此处,待评估数据的数据内容被承载在某格式的文件中;待评估数据可以由多条数据条目构成,每条数据条目均由多个数据元构成;其中,数据元是构成待评估数据的最基本数据单位。

例如待评估数据为商品价格数据时,一条待评估数据包括的数据元依次为:商品名称、商品生产商、产地、生产时间、保质期、净含量、营养成分、生产批号、售卖时间。

也就是说待评估数据较佳地是数据条目的形式,针对具有评估需求的数据为文本数据的情况,可以在进行评估之前事先进行文本数据关键信息提取操作,生成数据条目形式的数据。例如:具有评估需求的数据为商品介绍文本,可以在评估之前按照商品名称、商品生产商、产地、生产时间等关键字提取成数据条目的形式,将提取的数据条目作为待确定数据。

待评估数据所包含的数据量,即为待评估数据包含的有效数据元的数据量,例如,在上述示例中,一条完整的数据包括的数据元的数量应当为九项,则每条数据条目对应的数据量为9;若待评估数据包括100条数据条目,则其所应当具备的数据量应当为900,也即,描述信息所描述的数据量为900;但是实际中,可能存在某些数据元为空,为空的数据元没有实际内容,造成了待评估数据的实际数据量少于描述数据量。

以数据条目的数量为例,这里也可以比较待确定数据包含的数据条目数量与所述待确定数据的描述信息所描述的数据条目数量。

因此可以通过确定待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。

其二:所述待评估数据的大小与所述待评估数据的描述信息所述描述的大小。

此处,待评估数据的大小,实际上可以看作是承载待评估数据的文件的文件大小。例如,某条数据条目的数据元缺失(即数据元为空)也会造成承载待评估数据的文件数据的真实文件大小和描述信息中描述的大小不一致。

因此可以通过确定待评估数据的大小与所述待评估数据的描述信息所述描述的大小的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。

其三:所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。

此处,待评估数据的数据格式,可以是承载待评估数据的文件的文件格式。承载待评估数据的文件格式可能与描述信息所描述的文件格式不同。

因此可以通过确定待评估数据的数据格式与所述待评估数据的描述信息所述描述的数据格式的一致性程度来表征待评估数据的数据内容和描述信息的一致性程度。

需要注意的是,待评估数据所包含的数据内容可以是但不必限于数据量、大小和数据格式等;待评估数据对应的描述信息一般是用于描述待评估数据的数据,待评估数据对应的描述信息也包含有数据量、大小和数据格式等内容。

具体地,本申请实施例提供一种基于数据量、数据大小和数据格式的一致性程度,来确定待评估数据在数据一致性指标下的指标值的具体方法:

计算待评估数据包含的数据量与待评估数据的描述信息所描述的数据量的第一差值绝对值,计算待评估数据的大小与待评估数据的描述信息的大小的第二差值绝对值,若待评估数据的数据格式与待评估数据的描述信息所描述的数据格式一致,则确定待评估数据的一致度p为第一预设值,否则,为第二预设值,根据第一差值绝对值、第二差值绝对值和一致度,计算数据一致性指标的指标值。

此处,可将第一预设值设为0,第二预设值设为1。可选地,还可以将第一预设值和第二预设值设置为其他数值,满足第二预设值的数值大于第一预设值的数值即可。

具体地,第一差值绝对值l1满足:l1=|la-lm|;

其中,la为待评估数据所包含的数据量,lm为待评估数据的描述信息所包含的数据量。

第二差值绝对值l2满足:l2=|sa-sm|;

其中,sa为待评估数据的大小,sm为待评估数据的描述信息的大小。

则待评估数据在数据一致性指标下的的指标值ω1满足:

α为计算系数,可取0-1之间的值,例如取1/3、1/4、1/2等。

ω1取值范围一般为[0,1],ω1值越大,说明待评估数据的一致性程度越高。

2、针对所述数据质量指标包括数据完整性指标的情况,

所述第一确定模块20,具体用于确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。

在具体实现的时候,待评估数据的数据元可能存在缺失的情况。在此情况下,缺失的数据元越多,则待评估数据的完整性越差。

第一确定模块20在确定所述待评估数据所包含数据条目中的空值占比时:依次检测待评估数据中各个数据条目中的数据元是否为空;根据检测结果,对每个数据元进行完整性赋值,获得每个数据元的完整性值,且数据元若为空,则对应的完整性值为0;数据元不为空,则对应的完整性值为1;将所有数据元的完整性值的和,与数据元数量的比值,作为空值占比。

可以直接将该空值占比作为待评估数据在数据完整性指标下的指标值,例如:

采用如下公式计算待评估数据在数据完整性指标下的指标值ω2:

其中,ai为待评估数据中的第i个数据元的完整性值,n为待评估数据中的数据元的总数。

ω2的取值范围为[0,1],ω2值越大,表示待评估数据的数据完整性越好。

还以基于待评估数据在数据完整性指标下的指标值和空值占比之间的正相关性关系,来基于空值占比确定待评估数据在数据完整性指标下的指标值。

此外,第一确定模块20在确定待评估数据所包括数据条目中的空值占比时,还可以采用下述步骤:统计待评估数据中所有数据条目中为空的数据元的总数量;将所有数据条目中为空的数据元的总数量,和待评估数据中所有数据元的总数量的比值,作为空值占比。

进一步地,空值占比还可以为待确定数据中无效数据条目在数据条目总数中的占比。存在预设数量空数据元的数据条目可以确定为无效数据条目。ω2为无效数据条目与数据条目总数的商。

3、针对所述质量确定指标包括数据时效性指标的情况,

所述第一确定模块20,具体用于确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间和所述时间差确定所述待评估数据在数据时效性指标下的指标值;

其中,所述时间区间跨度越大,表征所述待评估数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高。

在具体实现的时候,待评估数据产生时间所跨越的时间区间,为待评估数据开始产生时间,到待评估数据终止产生时间之间,所跨越的时间区间。时间区间的单位要根据该时间区间的长度进行具体设定。

特殊地,当无法确定待评估数据的开始产生时间和终止产生时间时,可以通过待确定数据的描述信息确定;产生时间可以为待确定数据跨越的时间区间中的起始时间、最终时间,也可以为平均时间,较佳地为起始时间。

例如,若该时间区间的长度为1天,则将时间区间的单位设置为分钟;若时间区间的长度为2个月,则将时间区间的单位设置为天;若该时间区间的长度为3年,则可以将时间区间的单位这是为周。需要注意的是,上述设定时间区间的单位仅仅为本申请实施例所提供的示例,不能将其当作是对本申请技术方案的限定。

数据提供时间,是指数据质量评估平台的获取模块10获取待评估数据的时间。这里需要注意的是,由于待评估数据具有一定的数据量,获取模块实际上是无法在某一个时间点从无到有的获取全部的待评估数据,因此,该数据提供时间可以是获取模块10获取待评估数据的起始时间,也可以是获取模块10获取待评估数据的终止时间;另外,由于获取模块10在获取了待评估数据之后,会在很短的时间内将待评估数据传输给指标确定模块20进行处理,获取模块10获取待评估数据的起始时间或者终止时间距离第二确定模块20对其确定在时效性指标下的指标值的当前时间的时间差是很小的,因此还可以将第二确定模块20对待评估数据确定其在时效性指标下的指标值的当前时间作为数据提供时间。

例如,在待评估数据中包括100条数据条目;100条数据条目中,产生最早的数据条目的产生时间(也即待评估数据开始产生时间)为2018年3月15日;产生时间最晚的数据条目的产生时间(也即待评估数据终止产生时间)为2018年4月17日;则待评估数据产生时间所跨越的时间区间为33天。若待评估数据提供时间为2018年5月10日,则待评估数据产生时间和待评估数据提供时间之间的时间差,即为2018年3月15日,至2018年5月10日之间的时间差。

在基于所述时间区间以及所述时间差确定所述待评估数据在数据时效性指标下的指标值的时候,可以将时间区间和时间差的比值作为待评估数据在时效性指标下的指标值。

例如,可以采用如下公式计算待评估数据在时效性指标下的指标值ω3:

tf为待评估数据终止产生时间,若待评估数据无法确定最终时间,则使用待评估数据对应的描述信息的最终时间;ts为待评估数据开始产生时间,若待评估数据无法确定开始产生时间,则使用待评估数据对应的描述信息的开始产生时间;tn待评估数据的提供时间。

ω3取值范围为[0,1],ω3取值越大,表示待评估数据的时效性越强。

第二确定模块30,用于确定各质量评估指标下的指标值的加权求和值,得到所述待评估数据的质量评估结果。

在具体实现的时候,第二确定模块30可以确定各质量评估指标下的指标值的加权求和值,得到所述待评估数据的质量评估结果的时候,是根据预设数据质量指标的权重系数,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理,获得所述待评估数据的质量确定结果。

此处,对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的过程,实际上是根据不同数据量指标对待评估数据的质量影响程度不同,来确定待评估数据的质量确定结果的过程。

不同类型的待评估数据对应的权重系数可以相同,也可以不同。

例如,针对质量确定指标包括数据一致性指标、数据完整性指标、数据时效性指标、数据冗余度指标、数据稀缺性指标、以及数据量指标的情况,可以根据下述公式计算待评估数据的质量确定结果m:

m=a1×ω1+a2×ω2+a3×ω3。

其中,a1至a3依次为数据一致性指标、数据完整性指标、数据时效性指标分别对应的权重系数。ω1至ω3依次为数据一致性指标、数据完整性指标、数据时效性指标分别对应指标值。

此处,待评估数据的质量确定结果可以是数据质量的等级,也可以是数据质量的分数,具体可以根据实际的需求进行设定。

具体地,在通过本申请实施例提供的质量确定方法确定待评估数据的质量确定结果时,若待评估数据的质量确定结果为分数,可以将对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的结果直接作为分数,此时该分数的取值范围为[0,1],也可以对该加权求和的结果进行处理后的结果作为分数,例如将加权求和结果乘以100后得到的值作为待评估数据质量的分数。若待评估数据的质量确定结果为等级,可以基于预设的转换规则,将对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的结果转化的对应的等级下。

例如,设定5个等级,分别为a、b、c、d、e,且a对应的待评估数据的质量低于e对应的待评估数据的质量。对所述待评估数据在预设数据质量指标下的指标值进行加权求和处理的结果越小,则等级越低。等级a-e分别对应的加权求和处理的结果的取值范围依次为:[0,0.2)、[0.2,0.4)、[0.4,0.6)、[0.6,0.8)、[0.8,1]。可以基于上述取值范围,将加权处理的结果转化为对应待评估数据的等级。

本申请实施例提供的数据质量评估平台,通过获取模块获取待评估数据后,会使用价值确定模块确定待评估数据在数据一致性指标、数据完整性指标以及数据时效性指标三个质量评估指标下的指标值,然后使用第二确定模块基于上述三个指标值,确定待评估数据的质量确定结果,整个过程不需要人为的干预,就能够更加客观、准确的确定业务数据的质量,并且也正是不需要人为的干预,减少了业务数据与人接触的可能,从而降低了业务数据被人为泄露的可能性,增加业务数据在评估过程中的安全性。

在本申请另一实施例中,质量评估指标还包括数据冗余度指标。

第一确定模块,具体用于确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。

在具体实现的时候,数据冗余度是计算重复数据出现的比率。在一个数据集合中,重复的数据成为数据冗余,信息冗余度越高,数据质量越低。

具体地,第一确定模块20可以采用下述方式中任意一种确定待评估数据在数据冗余度指标下的指标值:

其一:根据每条数据条目包括的数据元,统计所述待评估数据中每条数据条目重复出现的次数;根据所述待评估数据中所有数据条目重复出现的次数,以及所述数据条目的总条数,确定所述数据条目重复出现的比率,也即重复条目出现的比率;也即所待评估数据所包含的数据条目中重复条目的占比。基于所述数据条目重复出现的比率,计算所述待评估数据在所述信息冗余度指标下的质量确定值;其中,所述待评估数据在所述信息冗余度指标下的质量确定值与所述数据条目重复出现的比率成负相关性。

此处,在统计所述待评估数据中每条数据条目重复出现的次数时,要按照数据条目的排布顺序,依次检测每条数据条目在前边是否出现过;其中,两条相同的数据条目中数据元的内容完全一致,或者内容一致或者相似的数据元数量达到预设阈值。假设检测到第i条数据条目的时候,该第i条数据条目是第一次出现,则统计数量不变;若该第i条数据条目并非第一出现,则将统计数量加1。

其二:第一确定模块20依次检测待评估数据中各个数据条目中的是否为重复出现的数据条目;根据检测结果,对每个数据条目进行重复性赋值,获得每个数据条目对应的重复性值。若数据条目为重复出现的数据条目,也即在检测当前数据条目之前,已经有与当前数据条目相同的另一条数据条目被检测过,则对应的重复性值为1;若数据条目并非重复出现的数据条目,也即在检测当前数据条目之前,没有与当前数据条目相同的另一条数据条目被检测过,则对应的重复性值为0,将所有数据条目的重复性值的和,与数据条目数量的比值,作为待评估数据所包含的数据条目中重复条目的占比。

例如,可以采用如下公式计算待评估数据在数据冗余度指标下的ω4指标值ω4:

其中,bi为待评估数据中第i个数据条目的重复性值,n为待评估数据中数据条目的总数。

ω4取值范围为[0,1],ω4值越大,表明待评估数据的数据重复性越小,那么对应的数据价值也越高。

例如,待评估数据中包含5条数据条目,分别为a、b、c、d、e,其中,a、b和e相同,c、d相同,从a至e依次检测每条数据条目是否为重复出现的数据条目;a第一次出现,其重复性值为0;b和a相同,为重复出现的数据条目,因此b的重复性值为1,c第一次出现,其重复性值为0;d和c相同,为重复出现的数据条目,其重复性值为1;e与a相同,为重复出现的数据条目,其重复性值为1,最终得到的待评估数据所包含的数据条目中重复条目的占比为0.6。根据上述公式,可知最终所得的确定数据在数据冗余度指标下的指标值ω4为0.4。

在本申请另一实施例中,所述质量评估指标还包括数据稀缺性指标;

所述第一确定模块20,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。

在具体实现的时候,稀缺性是指根据采集的预设的平台以及自身数据信息对于同类数据的提供情况,计算数据的稀缺程度;同类数据越多,稀缺性越低;同类数据越少,稀缺性越高;稀缺性越高的待评估数据,其质量以及价值也相应越高。

在具体实现的时候,为了能够获得与待评估数据相似的相似数据,本申请另一实施例中,还包括:相似数据确定模块40。

本申请实施例中的获取模块10,还用于从所述预设平台爬取多个数据集。

此处,预设平台可以是数据交易平台,也可以是其他数据平台;以数据交易平台为例,每一笔数据交易对应有至少一类被交易的业务数据。在从预设平台爬取数据集的时候,对针对每一笔数据交易,爬取一个数据集;每个数据集中包括多个数据条目。

在进行数据爬取的时候,可以通过爬虫、爬取工具等技术爬取数据集,本申请对此不予限制。

相似数据确定模块40,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。

在具体实施中,相似数据确定模块40可以通过下述步骤确定待评估数据和个数据集的词汇特征:

对获取的各数据集进行分词处理,得到分词处理后的第一词汇数据;按照分词处理后的各个第一词汇数据在对应数据集中的出现频次由高到低的顺序,筛选出前预设数量个第一词汇数据,针对数据集的每个数据,根据筛选出的各第一词汇数据在该数据集中出现的频次,确定该数据的词汇特征。

对待评估数据进行分词处理,得到分词处理后的第二词汇数据;按照分词处理后的各个第二词汇数据在待评估数据中的出现频次由高到低的顺序,筛选出前预设数量个第二词汇数据,针对待评估数据中的每个数据,根据筛选出的各第二词汇数据在该待评估数据中出现的频次,确定该数据的词汇特征。

针对每个数据集中的每个词汇特征,计算该数据集中的该词汇特征分别与待评估数据中的词汇特征之间的文本相似度。将文本相似度大于或等于预设相似度阈值的数据集确定为待评估数据的相似数据。

进一步地,针对待确定数据及数据集确定出多个特征词汇的情况,针对待确定数据的每个特征词汇,可以将该特征词汇与数据集的各特征词汇分别作文本相似度比对,将相似度达到第一预设相似度阈值的特征词汇确定为该特征词汇的相似词汇,相似词汇数量达到第二预设阈值的时候,讲待确定数据及数据集确定为相似数据。

进一步地,针对待确定数据和数据集具有已标注的行业标签的情况,也可以直接将行业标签作为对应数据的特征词汇,直接将特征词汇进行相似度比对。

在从爬取的多个数据集中确定了待评估数据的相似数据之后,会根据相似数据在预设平台出现的次数,确定所述待评估数据在数据稀缺性指标下的指标值。

具体地,可以采用下述步骤计算待评估数据在所述稀缺性指标下的质量确定值:

确定与所述待评估数据的相似的所述相似数据的数据集的数量;

基于爬取的数据集的总数量,以及所与所述待评估数据的相似的所述相似数据的数据集的数量,计算所述待评估数据在所述稀缺性指标下的指标值;

例如,采用以下公式计算待评估数据在数据稀缺性指标下的指标值ω5:

其中,x为待评估数据和待评估数据的相似数据在预设平台的出现次数,y为爬取到的数据集的总数量。

ω5的取值范围为[0,1],当ω5接近于1,说明待评估数据的相似数据出现的越多,待评估数据的稀缺性越低,ω5越接近0,表明待评估数据的相似数据出现的越少,待评估数据的稀缺性越高。

另外,还可以采用下述公式计算待评估数据在数据稀缺性指标下的指标值ω5:

ω5=1-e-x/y

其中,x为待评估数据和待评估数据的相似数据在预设平台的出现次数,y为预设平台的总数。

ω5的取值范围为[0,1],当ω5接近于1,说明各预设平台均存在相似数据,待评估数据的稀缺性越低,ω5等于0,表明各预设平台不存在相似数据,待评估数据的稀缺性越高。

在本申请另一实施例中,所述质量评估指标还包括数据稀缺性指标;

所述第一确定模块20,具体用于确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。

在具体实现的时候,可以采用下述两种方法中任意一种确定待评估数据在数据量指标下的指标值:

其一,可以将计算的待评估数据的数据量与各预设平台的数据的总数据量的比值作为数据量指标的指标值,也可以直接将待评估数据的数据量作为数据量指标的指标值,可根据实际情况确定。

例如,在将待评估数据的数据量与各预设平台的数据的总数据量的比值作为数据量指标的指标值时,可以采用以下公式计算数据量指标的指标值ω6:

其中,n为待评估数据中数据的数据量,p为各预设平台的数据的总数据量。

ω6的取值是[0,1],当ω6=0时,说明待评估数据的数据量小,反之数据量大。

其二,基于所述待评估数据的描述信息中携带的承诺数据量、以及描述信息所描述的数据量;待评估数据包含的数据量、以及对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量,计算待评估数据在数据量指标下的指标值。

其中,该承诺数据量是指用户提供待评估数据时,预计要提供的待评估数据的数据量。

待评估数据所包含的数据量,即为待评估数据包含的有效数据元的数据量。

对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量,其获取过程与确定待评估数据在数据稀缺性指标下的指标值时对相似数据的获取过程类似。具体过程为:

获取模块10从所述预设平台爬取多个数据集;相似数据确定模块40,用于分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据;对确定的相似数据进行数据量确定的操作,从而获取与待评估数据相似的相似数据量。

具体地,可以采用下述公式计算待评估数据在数据量指标下的指标值:

其中,m表示待评估数据包含的数据量;n1表示对预设平台的数据进行数据采集获取的与待评估数据相似的相似数据量;n2表示描述信息所描述的数据;n3表示承诺数据量。

基于同一发明构思,本申请实施例中还提供了与数据质量评估平台对应的数据质量评估方法,由于本申请实施例中的装置解决问题的原理与本申请实施例上述数据质量评估平台相似,因此装置的实施可以参见平台的实施,重复之处不再赘述。

参见图2所示,本申请实施例他提供的数据质量评估方法包括:

s201:获取待评估数据;

s202:确定所述待评估数据在数据一致性指标、数据完整性指标以及数据时效性指标多种质量评估指标下的指标值;

s203:确定各质量评估指标下的指标值的加权求和值,得到所述待评估数据的质量评估结果。

本申请实施例提供的数据质量评估方法获取待评估数据后,会确定待评估数据在数据一致性指标、数据完整性指标以及数据时效性指标三个质量评估指标下的指标值,然后基于上述三个指标值,确定待评估数据的质量确定结果,整个过程不需要人为的干预,就能够更加客观、准确的确定业务数据的质量。

可选地,针对所述质量确定指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;其中,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息。

可选地,确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度,具体包括:确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:

所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;

所述待评估数据的大小与所述待评估数据的描述信息所述描述的大小;

所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。

可选地,针对所述数据质量指标包括数据完整性指标的情况,

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。

可选地,针对所述质量确定指标包括数据时效性指标的情况,

确定所述待评估数据在预设质量确定指标下的指标值,具体包括:确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间以及所述时间差确定所述待评估数据在数据时效性指标下的指标值;

其中,所述时间区间跨度越大,表征所述待评估数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高。

可选地,针对所述数据质量指标包括数据冗余度指标的情况,

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。

可选地,还包括:从所述预设平台爬取多个数据集;分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。

可选地,所述质量评估指标还包括数据稀缺性指标;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。

可选地,所述质量评估指标还包括数据量指标;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。

对应于图2中的数据质量评估方法,如图3所示,为本申请实施例提供一种计算机设备,该计算机设备包括处理器31、存储器32和总线33,所述存储器32存储执行指令,当所述装置运行时,所述处理器31与所述存储器32之间通过总线33通信,所述处理器31执行所述执行指令使得所述装置执行如下方法:

获取待评估数据;

确定所述待评估数据在数据一致性指标、数据完整性指标以及数据时效性指标多种质量评估指标下的指标值;

确定各质量评估指标下的指标值的加权求和值,得到所述待评估数据的质量评估结果。

可选地,所述处理器31执行的所述方法中,针对所述质量确定指标包括数据一致性指标的情况,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度;并基于所述一致性程度确定所述待评估数据数据一致性指标的指标值,且所述一致性程度越高,表征所述待评估数据在数据一致性指标下的指标值越高;其中,所述待评估数据包括:数据内容以及所述待评估数据对应的描述信息。

可选地,所述处理器31执行的所述方法中,确定所述待评估数据所包含数据内容与所述待评估数据对应描述信息的一致性程度,具体包括:确定如下一项或多项数据内容与对应描述信息之间的一致性程度,且任一项数据内容与对应描述信息之间的一致性程度越高表征所述待评估数据的数据一致性指标的指标值越高:

所述待评估数据包含的数据量与所述待评估数据的描述信息所描述的数据量;

所述待评估数据的大小与所述待评估数据的描述信息所述描述的大小;

所述待评估数据的数据格式与所述待评估数据的描述信息所描述的数据格式。

可选地,所述处理器31执行的所述方法中,针对所述数据质量指标包括数据完整性指标的情况,

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含数据条目中的空值占比;并基于所述空值占比确定所述待评估数据在数据完整性指标下的指标值,且所述空值占比越低,表征所述待评估数据的数据完整性越高。

可选地,所述处理器31执行的所述方法中,针对所述质量确定指标包括数据时效性指标的情况,

确定所述待评估数据在预设质量确定指标下的指标值,具体包括:确定所述待评估数据开始产生时间终止产生时间之间所跨越的时间区间,以及所述待评估数据开始产生时间与所述待评估数据提供时间之间的时间差;基于所述时间区间以及所述时间差确定所述待评估数据在数据时效性指标下的指标值;

其中,所述时间区间跨度越大,表征所述待评估数据的数据时效性指标的指标值越高;以及所述时间差越小,表征所述待评估数据的数据时效性指标的指标值越高。

可选地,所述处理器31执行的所述方法中,针对所述数据质量指标包括数据冗余度指标的情况,

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据所包含的数据条目中重复条目的占比;并基于所述重复条目的占比确定所述待评估数据在数据冗余度指标下的指标值,且所述重复条目的占比越低,表征所述待评估数据的数据冗余度越低。

可选地,所述处理器31执行的所述方法中,还包括:从所述预设平台爬取多个数据集;分别对所述待评估数据及所述多个数据集进行解析,确定出所述待评估数据及各数据集的词汇特征;将所述待评估数据的词汇特征分别与各数据集的词汇特征进行文本相似度匹配;将文本相似度达到预设相似度阈值的数据集确定为所述待评估数据的相似数据。

可选地,所述处理器31执行的所述方法中,所述质量评估指标还包括数据稀缺性指标;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据以及与所述待评估数据相似的相似数据在预设平台的出现次数;并基于所述出现次数确定所述待评估数据在数据稀缺性指标下的指标值,且所述出现次数越少,表征所述待评估数据的稀缺性越高。

可选地,所述处理器31执行的所述方法中,所述质量评估指标还包括数据量指标;

根据下述步骤确定所述待评估数据在预设质量确定指标下的指标值:确定所述待评估数据包含的数据量;并基于所述数据量确定所述待评估数据在数据量指标下的指标值,且所述数据量越大,表征所述待评估数据的数据量指标的指标值越高。

对应于图2中的数据质量评估方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述数据质量评估方法的步骤。

本申请实施例所提供的数据质量评估平台以及方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的平台和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1