一种数据清洗方法及系统与流程

文档序号:11276472阅读:574来源:国知局
一种数据清洗方法及系统与流程

本发明涉及计算机技术,尤其涉及一种数据清洗方法及系统。



背景技术:

数据清洗是指发现并纠正数据文件中的可识别的错误,主要包括检查数据一致性,处理数据中的无效值和缺失值等。目前,数据清洗的大部分工作都是通过机器完成,但是对于数据中存在的机器无法识别或纠正的错误,仍需通过人工来处理。

目前,对于数据中机器无法识别或纠正的错误,通常采用固定的若干个人来对数据进行清洗,然而,对于非常庞大的数据系统而言,这种采用固定人员进行数据清洗的方式,成本高,效率低。



技术实现要素:

本发明要解决的技术问题是提供一种数据清洗方法及系统,将需要进行人工清洗的数据进行任务切分,并将切分的任务通过众包平台发送给数量较多的不固定的任务领取者,从而完成数据的清洗,可以提高数据清洗效率以及降低成本。

为解决上述技术问题,本发明提供的技术方案是:

一方面,本发明提供一种数据清洗方法,包括,对需要进行人工清洗的数据进行任务切分;将切分好的任务发布到众包平台;接收任务领取者通过所述众包平台返回的人工清洗结果数据,并将所述人工清洗结果数据与机器清洗结果数据进行整合。

进一步地,任务领取者的数量与任务的数量相等,且每个任务领取者只能领取一个任务。

进一步地,对需要进行人工清洗的数据进行任务切分,包括,根据数据质量目标进行任务切分,其中,数据质量目标包括数据一致性,实体同一性,精确性,时效性和信息完整性。

进一步地,在将切分好的任务发布到众包平台之前,还包括,对切分好的任务进行数据脱敏。

进一步地,对切分好的任务进行数据脱敏,包括对数据的至少一个字段的取值进行替换和/或打乱数据间的关联关系。

进一步地,将切分好的任务发布到众包平台,包括将切分好的任务采用随机分布的方式发布到所述众包平台。

另一方面,本发明提供一种数据清洗系统,包括,任务切分模块:用于对需要进行人工清洗的数据进行任务切分;任务发布模块:用于将切分好的任务发布到众包平台;数据整合模块:用于接收任务领取者通过所述众包平台返回的人工清洗结果数据,并将所述人工清洗结果数据与机器清洗结果数据进行整合。

进一步地,任务切分模块包括,用于根据数据质量目标进行任务切分,其中,数据质量目标包括数据一致性,实体同一性,精确性,时效性和信息完整性。

进一步地,还包括任务脱敏模块,用于对任务切分模块中切分好的任务进行数据脱敏。

进一步地,任务脱敏模块具体用于对数据的至少一个字段的取值进行替换和/或打乱数据间的关联关系。

本发明提供的数据清洗方法及系统,将需要进行人工清洗的数据进行任务切分,并将切分的任务通过众包平台发送给数量较多的不固定的任务领取者,从而完成数据的清洗,可以提高数据清洗效率以及降低成本。

附图说明

图1是本发明实施例提供的数据清洗方法的流程图;

图2是本发明实施例提供的数据清洗系统的框图。

具体实施方式

下面通过具体的实施例进一步说明本发明,但是,应当理解为,这些实施例仅仅是用于更详细具体地说明之用,而不应理解为用于以任何形式限制本发明。

实施例一

结合图1,本实施例提供的数据清洗方法,包括:

步骤s1:对需要进行人工清洗的数据进行任务切分;

步骤s2:将切分好的任务发布到众包平台;

步骤s3:接收任务领取者通过所述众包平台返回的人工清洗结果数据,并将所述人工清洗结果数据与机器清洗结果数据进行整合。

本发明实施例提供的数据清洗方法,将需要进行人工清洗的数据进行任务切分,并将切分的任务通过众包平台发送给数量较多的不固定的任务领取者,从而完成数据的清洗,可以提高数据清洗效率以及降低成本。

优选地,需要进行人工清洗的数据包括,机器在进行数据清洗过程中提交的异常数据,这些异常数据包括,机器能够发现但无法纠正错误的数据,无法确定是否错误的数据,以及无法确定错误类型的数据。

优选地,任务领取者的数量与任务的数量相等,且每个任务领取者只能领取一个任务。优选地,每一个任务领取者需要进行实名认证后才能够进行任务的领取,且每个任务领取者只能领取一个任务。如此,可以避免恶意程序将若干个任务中的数据进行重构,从而,可以避免因信息泄露造成的损失。

此外,每一个任务领取者在领取任务并按照规定完成数据清洗任务后,能够获得一定的酬劳,且每一个人都可以通过注册账号并实名认证来领取并完成任务。

进一步优选地,对需要进行人工清洗的数据进行任务切分,包括,根据数据质量目标进行任务切分,其中,数据质量目标包括数据一致性,实体同一性,精确性,时效性和信息完整性。

本实施例中,数据一致性是指存在依赖关系的数据之间不存在逻辑矛盾。例如,对于同一个人,其年龄字段与学历字段是存在依赖关系的,若年龄字段的取值为70,而其对应的学历字段的取值为幼儿园,也就是说这个70岁的人正在读幼儿园,显然是矛盾的,即不满足数据一致性。此外,实体同一性是指,同一数据库或跨库的两条或两条以上数据所对应的实体相同。例如,在两条不同的数据中,虽然记录的用户名称不完全一致,但实际上是同一个人,则称这两条数据是具有实体同一性的。精确性是指,当对于同一个实体,它具有多个数据来源时,筛选出最真实的数据的过程则是提高数据精确性的过程。时效性,是指数据往往具有时效性,保持数据的时效性就是需要不断地对数据进行更新。信息完整性,是指对数据进行完整评估。

本实施例中,任务切分的具体方式与数据质量目标有关。例如,若所选的数据质量目标为实体同一性,则按条切分任务。

进一步优选地,在将切分好的任务发布到众包平台之前,还包括,对切分好的任务进行数据脱敏。其中,脱敏的目的在于,减少任务中信息的暴露,以使得无法对数据进行重构。本实施例中,对任务进行数据脱敏的方式包括,对数据的至少一个字段的取值进行替换和/或打乱数据间的关联关系。具体地,对数据中的字段取值进行替换,是选取不影响人工清洗的字段的取值进行替换,例如,可以将姓名进行替换,例如,张三替换成李三或者替换为李四,名字替换并不影响对任务的处理。此外,打乱数据间的关联关系,包括打乱数据间的时间关联关系以及空间上的关联关系。且进一步优选地,本实施采用随机分布的方式将任务发布到所述众包平台,如此可以进一步地避免任务数据重构。例如,当一个人同时蓄意使用多个手机注册认证,并领取任务时,他所领取的这多个任务也无法完成数据的重构,既能完成数据清洗,还能同时保证数据信息尽量不暴露。

进一步优选地,通过众包平台返回的人工清洗结果数据还可以作为数据清洗机器的训练数据样本,从而提高机器对数据清洗的能力。此外,通过众包平台返回的人工清洗结果数据还可以作为机器进行数据清洗的规则的的依据或者直接作为机器进行数据清洗的规则。也即是说,可以提高数据清洗机器对数据的清洗能力。

实施例二

结合图2,本发明实施例提供的数据清洗系统,包括,任务切分模块1:用于对需要进行人工清洗的数据进行任务切分;任务发布模块2:用于将切分好的任务发布到众包平台;数据整合模块3:用于接收任务领取者通过所述众包平台返回的人工清洗结果数据,并将所述人工清洗结果数据与机器清洗结果数据进行整合。

本发明实施例提供的数据清洗系统,将需要进行人工清洗的数据进行任务切分,并将切分的任务通过众包平台发送给数量较多的不固定的任务领取者,从而完成数据的清洗,可以提高数据清洗效率以及降低成本。

优选地,需要进行人工清洗的数据包括,机器在进行数据清洗过程中提交的异常数据,这些异常数据包括,机器能够发现但无法纠正错误的数据,无法确定是否错误的数据,以及无法确定错误类型的数据。

优选地,任务领取者的数量与任务的数量相等,且每个任务领取者只能领取一个任务。优选地,每一个任务领取者需要进行实名认证后才能够进行任务的领取,且每个任务领取者只能领取一个任务。如此,可以避免恶意程序将若干个任务中的数据进行重构,从而,可以避免因信息泄露造成的损失。

此外,每一个任务领取者在领取任务并按照规定完成数据清洗任务后,能够获得一定的酬劳,且每一个人都可以通过注册账号并实名认证来领取并完成任务。

进一步优选地,任务切分模块1包括,用于根据数据质量目标进行任务切分,其中,数据质量目标包括数据一致性,实体同一性,精确性,时效性和信息完整性。

本实施例中,数据一致性是指存在依赖关系的数据之间不存在逻辑矛盾。例如,对于同一个人,其年龄字段与学历字段是存在依赖关系的,若年龄字段的取值为70,而其对应的学历字段的取值为幼儿园,也就是说这个70岁的人正在读幼儿园,显然是矛盾的,即不满足数据一致性。此外,实体同一性是指,同一数据库或跨库的两条或两条以上数据所对应的实体相同。例如,在两条不同的数据中,虽然记录的用户名称不完全一致,但实际上是同一个人,则称这两条数据是具有实体同一性的。精确性是指,当对于同一个实体,它具有多个数据来源时,筛选出最真实的数据的过程则是提高数据精确性的过程。时效性,是指数据往往具有时效性,保持数据的时效性就是需要不断地对数据进行更新。信息完整性,是指对数据进行完整评估。

本实施例中,任务切分的具体方式与数据质量目标有关。例如,若所选的数据质量目标为实体同一性,则按条切分任务。

进一步地,还包括任务脱敏模块,用于对任务切分模块1中切分好的任务进行数据脱敏。其中,脱敏的目的在于,减少任务中信息的暴露,以使得无法对数据进行重构。本实施例中,对任务进行数据脱敏的方式包括,对数据的至少一个字段的取值进行替换和/或打乱数据间的关联关系。具体地,对数据中的字段取值进行替换,是选取不影响人工清洗的字段的取值进行替换,例如,可以将姓名进行替换,例如,张三替换成李三或者替换为李四,名字替换并不影响对任务的处理。此外,打乱数据间的关联关系,包括打乱数据间的时间关联关系以及空间上的关联关系。且进一步优选地,本实施采用随机分布的方式将任务发布到所述众包平台,如此可以进一步地避免任务数据重构。例如,当一个人同时蓄意使用多个手机注册认证,并领取任务时,他所领取的这多个任务也无法完成数据的重构,既能完成数据清洗,还能同时保证数据信息尽量不暴露。

进一步优选地,通过众包平台返回的人工清洗结果数据还可以作为数据清洗机器的训练数据样本,从而提高机器对数据清洗的能力。此外,通过众包平台返回的人工清洗结果数据还可以作为机器进行数据清洗的规则的的依据或者直接作为机器进行数据清洗的规则。也即是说,可以提高数据清洗机器对数据的清洗能力。

尽管本发明已进行了一定程度的描述,明显地,在不脱离本发明的精神和范围的条件下,可进行各个条件的适当变化。可以理解,本发明不限于所述实施方案,而归于权利要求的范围,其包括所述每个因素的等同替换。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1