数据清洗方法及清洗引擎与流程

文档序号:12363981阅读:744来源:国知局
数据清洗方法及清洗引擎与流程

本发明涉及数据处理领域,尤其涉及一种数据清洗方法及清洗引擎。



背景技术:

随着信息技术以及电子技术的发展,企业或非企业团体等组织采用数字化办公,从而会形成一个大的数据系统。这些数据系统中通常会形成有数据库,若直接将各种使用过程中形成的数据存储到该数据库中,通常会导致该数据库中的数据冗余度高、正确率低、真伪数据不分以及包含各种脏数据等问题。



技术实现要素:

有鉴于此,本发明实施例期望提供一种数据清洗方法及清洗引擎,至少部分解决从业务系统存储到主数据系统中的数据有大量脏数据的问题。

为达到上述目的,本发明的技术方案是这样实现的:

本发明公开了一种数据清洗方法,所述方法应用于清洗引擎中,包括:

接收各个业务系统提交的待清洗数据;

采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据;

将所述清洁数据发送给主数据系统。

优选地,所述采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据,包括:

确定待清洗数据归属的业务类型;

依据所述业务类型,确定业务清洗规则;

确定所述待清洗数据是否所述业务清洗规则;

所述将所述清洁数据发送给主数据系统,包括:

将满足所述业务清洗规则的数据发送给主数据系统。

优选地,所述采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据,还包括:

若所述待清洗数据不满足所述业务清洗规则,依据所述待清洗数据的信息内容生成满足所述业务清洗规则的清洁数据。

优选地,所述采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据,包括:

提取所述待清洗数据中各属性名称;

依据属性清洗规则,统一各所述待清洗数据中表达同一属性的属性名称。

优选地,所述采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据,包括:

匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据;

若有N个所述待清洗数据,则删除N-1条所述待清洗数据且保留一条所述待清洗数据作为所述清洁数据;

其中,所述N为不大于2的整数。

优选地,所述匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据,包括:

匹配各个所述待清洗数据,确定是否有至少两条所述待清洗数据相同;

若相同,则确定有满足所述相似度清洗规则的所述待清洗数据。

优选地,所述匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据,包括:

匹配各个所述待清洗数据,判断是否有至少两条所述待清洗数据的属性值不同时,所述属性值对应的信息内容是否相同;

若相同,则确定有满足所述第一相似度清洗规则的所述待清洗数据。

优选地,所述采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据,包括:

匹配各个所述待清洗数据,确定是否有满足第二相似度清洗规则的所述待 清洗数据;

若至少有两个所述待清洗数据满足所述第二相似度清洗规则,则将满足所述第二相似对清洗规则的数据设置为待审批清洗数据;

获取所述待审批清洗数据的审批结果;

依据所述审批结果,生成所述清洁数据。

优选地,所述采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据,包括:

根据真伪清洗规则,确定所述待清洗数据中是否包括需要验证的信息;

若所述待清洗数据中包括需要验证的信息,则根据所述真伪清洗规则将所述待清洗数据发送给对应的第三方验证平台进行验证;

从所述第三方验证平台接收验证信息;

基于所述验证信息对所述待清洗数据进行清洗,获得所述清洁数据。

优选地,所述方法还包括:

依据所述待清洗数据的数据清洗结果,生成数据清洗日志。

本发明第二方面还公开了一种清洗引擎,所述清洗引擎中包括:

接收单元,用于接收各个业务系统提交的待清洗数据;

清洗单元,用于采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据;

发送单元,用于将所述清洁数据发送给主数据系统。

优选地,所述清洗单元,具体用于确定待清洗数据归属的业务类型;依据所述业务类型,确定业务清洗规则;确定所述待清洗数据是否所述业务清洗规则;

所述发送单元,具体用于将满足所述业务清洗规则的数据发送给主数据系统。

优选地,所述清洗单元,还用于若所述待清洗数据不满足所述业务清洗规则,依据所述待清洗数据的信息内容生成满足所述业务清洗规则的清洁数据。

优选地,所述清洗单元,用于提取所述待清洗数据中各属性名称;及依据 属性清洗规则,统一各所述待清洗数据中表达同一属性的属性名称。

优选地,所述清洗单元,还用于匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据;及若有N个所述待清洗数据,则删除N-1条所述待清洗数据且保留一条所述待清洗数据作为所述清洁数据;

其中,所述N为不大于2的整数。

优选地,所述清洗单元,具体用于匹配各个所述待清洗数据,确定是否有至少两条所述待清洗数据相同;若相同,则确定有满足所述相似度清洗规则的所述待清洗数据。

优选地,所述清洗单元,具体用于匹配各个所述待清洗数据,判断是否有至少两条所述待清洗数据的属性值不同时,所述属性值对应的信息内容是否相同;若相同,则确定有满足所述第一相似度清洗规则的所述待清洗数据。

优选地,所述清洗单元,还用于匹配各个所述待清洗数据,确定是否有满足第二相似度清洗规则的所述待清洗数据;若至少有两个所述待清洗数据满足所述第二相似度清洗规则,则将满足所述第二相似对清洗规则的数据设置为待审批清洗数据;获取所述待审批清洗数据的审批结果;依据所述审批结果,生成所述清洁数据。

优选地,所述清洗单元,还用于根据真伪清洗规则,确定所述待清洗数据中是否包括需要验证的信息;若所述待清洗数据中包括需要验证的信息,则根据所述真伪清洗规则将所述待清洗数据发送给对应的第三方验证平台进行验证;从所述第三方验证平台接收验证信息;基于所述验证信息对所述待清洗数据进行清洗,获得所述清洁数据。

优选地,所述清洗引擎还包括:

生成单元,用于依据所述待清洗数据的数据清洗结果,生成数据清洗日志。

本发明实施例所述的数据清洗方法及清洗引擎,将对存储到主数据系统的数据统一经过所述清洗引擎的清洗,这样就能够保证存入到主数据系统的数据的重复性、冗余度低及正确率高等优点。

附图说明

图1为本发明实施例所述的数据清洗方法的流程示意图;

图2为本发明实施例所述的数据清洗方法的应用的数据系统的结构示意图;

图3为本发明实施例所述的依据清洗规则进行数据清洗的流程示意图之一;

图4为本发明实施例所述的依据清洗规则进行数据清洗的流程示意图之二;

图5为本发明实施例所述的清洗引擎的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。

方法实施例:

如图1所示,本实施例提供一种数据清洗方法,所述方法应用于清洗引擎中,所述方法包括:

步骤S110:接收各个业务系统提交的待清洗数据;

步骤S120:采用清洗规则对所述待清洗数据进行清洗,确定满足清洗条件的清洁数据;

步骤S130:将所述清洁数据发送给主数据系统。

所述业务系统可包括企业资源计划系统(Enterprise Resource Planning,ERP)、自动办公系统(Office Automatic,OA)、人力资源系统(Human Resource,HR)、财务管理系统FOL等业务系统、采购业务系统以及货物过关记录系统等。

图2所示的为一个可应用本实施例所述数据清洗方法的系统;清洗引擎一端连接着各种业务系统,另一端连接着主数据系统(Master Data Management,MDM)。从图2中可知,所述清洗引擎为业务系统连接到主数据系统,提供了统一数据入口,这样进入主数据系统的数据都是被清洗引擎进行过数据清洗处 理的数据,这样就保证了主数据系统的数据的精简、正确及真实等特点。在具体的实现时,图2所示的数据系统可以采用面向服务的体系架构(Service Oriented Architecture,SOA)来进行系统搭建,这样就能提供一个面向服务的高效、及时、准确及真实的数据平台。

所述清洗引擎统一对这些业务系统提交的待清洗数据进行清洗,将清洗后的清洁数据提交的主数据系统。所述主数据系统为存储主数据的系统。通常所述主数据为可被各个业务系统共享的、权威的、正确的且真实的数据。通过数据清洗,可以减少向主数据系统提交数据中的脏数据。这里的,脏数据可包括,冗余数据、假数据、数据不在给定的范围内的数据、对实际业务没有意义的数据、采用了非法数据格式的数据、采用不规范的编码方式形成的数据或业务逻辑含糊的数据。总之脏数据的存在会导致数据所占用的存储容量、正确率、真实性、合法性以及对实际应用的处理造成困扰的各种数据。

在本实施例中进入所述主数据系统之前的数据都为进行了数据清洗的清洁数据,这样就能保证进入所述主数据系统的数据是无冗余的、无重复、无虚假的清洁数据。本实施例所述清洁数据是由分别与业务系统和主数据系统的清洗引擎来进行统一清洗,相对于由各个业务系统各自清洗,导致进入主数据系统的数据不满足主系统的要求,显然这种清洗方式更为优越。且由于进入主数据系统的数据由清洗引擎统一进行清洗,这样的话,业务系统可以根据需要灵活生成数据,后续清洗引擎会在数据清洗的过程中进行数据转换,这样能够减少业务系统数据生成的局限性。

通常所述清洁数据将被存储在主数据系统中和/或被主数据系统公布或对外提供服务等。

在步骤S120中具体如何进行数据清洗,以下提供四种可选方式:

可选方式一:

如图3所示,所述步骤S120可包括:

步骤S1201:确定待清洗数据归属的业务类型;

步骤S1202:依据所述业务类型,确定业务清洗规则;

步骤S1203:确定所述待清洗数据是否所述业务清洗规则。

不同的业务类型可能要求有不同的数据格式,或满足不同特定数据要求;此处的所述业务清洗规则可为根据业务需求预先设定的业务清洗规则。具体如若是客户的通信数据,则生成的通信数据中必须包括通信标识。若此时有一条待清洗数据不包括通信标识,则可确认该待清洗数据不满足所述业务清洗规则。

当然业务清洗规则是根据业务需求来设定的,不局限于上述举例。

所述步骤S130包括:将满足所述业务清洗规则的数据发送给主数据系统。

所述步骤S120还包括:

步骤S1204:若所述待清洗数据不满足所述业务清洗规则,依据所述待清洗数据的信息内容生成满足所述业务清洗规则的清洁数据。

在具体的实现中,通常采用表格的形式来生成各数据。在生成各数据的时,各个表格之间的关联关系也就确定了,在利用业务清洁规则对待清洗数据进行清洗时,可以通过这种关联关系来进行数据转换。

比如,上述不包括通信标识的待清洗数据,虽然不包括通信标识,但是包括用户名等用户信息。这时,所述清洗引擎就可以通过查询用户信息与通信标识等数据,获取对应的通信标识,进而将该通信标识补充到所述待清洗数据中,使该待清洗数据转换成所述清洁数据。

再比如,当前有一个待清洗数据B,该待清洗数据B记录的是备选的供应商,这些数据若提交到所述主数据系统,将被认为是权威数据,为了保证所述待清洗数据B中的供应商满足业务清洗规则,则需要清洗引擎来进行数据清洗。具体如,企业中要求供应商必须有m年的供料经验或企业规模达到f人以上,才具有备选供应商的资格。所述m为正数;所述f为不小于1的整数;若此时,所述清洗引擎将按照所述业务清洗规则对所述待清洗数据B进行清洗,将会删除所述待清洗数据B中不满足上述业务清洗规则的供应商,从而形成上述清洁数据。这样通过业务清洗规则清洗后的数据,能够满足各种业务使用需求,提高数据在业务处理过程中的使用价值。

可选方式二:

所述步骤S120包括:

提取所述待清洗数据中各属性名称;

依据属性清洗规则,统一各所述待清洗数据中表达同一属性的属性名称。

如待清洗数据A中包括属性名称为“部门”;而在待清洗数据中包括属性名称“department”;通过比对可知,这两个属性名称实质上表达的都是“部门”这一属性。为了实现数据统一,方便数据合并,本实施例中的所述步骤S120将根据所述属性清洗规则,统一化各个待清洗数据中的属性名称;如转换成标准的表达方式“部门”等。

这样通过属性名称的统一化后,可方便后续利用相似度清洗规则对相同数据或相似数据的判断。

在图2中显示有清洗引擎将根据相似度清洗规则进行数据清洗,在本申请中所述相似度清洗规则可包括第一相似度清洗规则和第二相似度清洗规则。

通过属性清洗规则清洗后的数据,形成的清洁数据对应于同一属性,采用的统一的属性名称,这样的话,避免了不同的数据对于同一属性采用不同属性名称导致的属性混乱的现象,避免了用户理解的歧义。且通过统一属性名称,方便确定数据是否为冗余数据。具体如,对应班级的记录,有些表格采用的属性名称为class,有些表格中采用的属性名称为班级。而该属性对应的信息内容是一致的,在没有进行属性清洗规则清洗之前,清洗引擎可能无法识别出这是互为备份的冗余数据,可以仅保留一个,而通过所述属性清洗规则处理后,清洗引擎就能通过比较匹配确定出数据出现了冗余,从而也利于减少数据冗余。

可选方式三:

在可选方式三中将分别根据第一相似度清洗规则和第二相似度清洗规则对数据进行清洗。

所述步骤S120可包括:

匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据;

若有N个所述待清洗数据,则删除N-1条所述待清洗数据且保留一条所述 待清洗数据作为所述清洁数据;

其中,所述N为不大于2的整数。

本实施例中的所述第一相似度清洗规则为信息内容实质相同的清洗规则。若有N个所述待清洗数据的信息内容实质相同,则可以仅保留其中的一个所述待清洗数据,删除其他待清洗数据,从而保证进入所述主数据系统的数据无重复数据、无冗余数据,减少数据冗余数据和重复数据消耗的存储资源。

所述信息内容实质相同包括:

第一种情况:被匹配的两个所述待清洗数据的内容完全一致,显然若都进行存储就造成了重复存储。此时,所述匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据,包括:匹配各个所述待清洗数据,确定是否有至少两条所述待清洗数据相同;若相同,则确定有满足所述相似度清洗规则的所述待清洗数据。

第二种情况:被匹配的两个所述待清洗数据的数据中如某个属性的属性值不同,但是该属性值的实质含义是一样的,这样的两个被清洗数据也满足所述第一相似度清洗规则的信息内容实质相同。此时,所述匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据,包括:匹配各个所述待清洗数据,判断是否有至少两条所述待清洗数据的属性值不同时,所述属性值对应的信息内容是否相同;若相同,则确定有满足所述第一相似度清洗规则的所述待清洗数据。

如采购记录中包括一个属性为供应商;在待清洗数据C中供应商对应的属性值为供应商A的公司名称;在待清洗数据D中供应商对应的属性值为供应商A的组织机构代码;若此时待清洗数据C中和待清洗数据D包括其他属性和属性值都相同,所述清洗引擎可以通过查询供应商A的信息,确认出待清洗数据C和待清洗数据D中的供应商这一属性的属性值的信息内容实质相同,从而可以确认出所述待清洗数据C和待清洗数据D也满足所述第一相似清洗规则,保留其中一个数据即可。

当至少有两个待清洗数据满足所述第一相似度清洗规则时,在保留其中一 个所述待清洗数据时,可以选择各个属性值表达均满足预设表达规则的待清洗数据,若其中没有一条满足所述以预设表达规则的待清洗数据时,可以通过数据转换来实现。具体如,上述待清洗数据C和待清洗数据D中,为了提高数据的可读性,通常主数据系统要求供应商都采用供应商的名称,则此时选择保留的为所述待清洗数据C。若此时待清洗数据C的供应商属性对应的属性值为供应商A的公司简称。如,若供应商为中国移动集团,而待清洗数据C的供应属性对应的属性值为中移动,中移动这这个属性值是不符合所述预设表达规则的待清洗数据。此时,可以根据所述待清洗数据C或所述待清洗数据,生成一条满足所述预设表达规则的清洁数据E。清洁数据E的信息内容实质为所述待清洗数据C和待清洗数据D的信息内容;在清洁数据E中,供应商这一属性的属性值为中国移动集团。

当采用所述第一相似度清洗规则进行数据清洗时,发现有些待清洗数据不满足所述第一相似度清洗规则,但是确实又很相似,所述清洗引擎目前无法进一步判断出这两条数据是互为冗余数据,是否需要进行进一步的清洗,此时,在进行待清洗数据是否满足相似度清洗规则的清洗时,可以采用以下方法进行数据清洗。

所述步骤S120可包括:

匹配各个所述待清洗数据,确定是否有满足第二相似度清洗规则的所述待清洗数据;

若至少有两个所述待清洗数据满足所述第二相似度清洗规则,则将满足所述第二相似对清洗规则的数据设置为待审批清洗数据;

获取所述待审批清洗数据的审批结果;

依据所述审批结果,生成所述清洁数据。

通常所述待审批清洗数据将会显示给数据维护人员,数据维护人员将对这些数据进行审批,若审批结果表明这些数据实质相同,则会保留其中的一个,并删除冗余的数据,从而形成所述清洁数据。若这些数据确实为不同的待清洗数据,则将这些数据通过依据所述业务清洗规则、属性清洗规则等清洗规则的 处理后,形成对应的清洁数据。这样的话能够最大限度的达到数据精简,尽可能的减少数据重复和冗余。

在具体实现时,所述清洗引擎还将根据所述审批结果增加新的第一相似度清洗规则。比如,根据审批结果确定通信服务供应商属性对应的属性值“连通”和“联通”是同一个供应商。当然“连通”可能是笔误造成的,这时可以新增一个所述第一相似度清洗规则。所述第一相似度清洗规则可用于确定通信服务供应商中“连通”和“联通”的信息内容实质相同。

可选方式三:

如图4所示,所述步骤S120还可包括:

步骤S1211:根据真伪清洗规则,确定所述待清洗数据中是否包括需要验证的信息;

步骤S1212:若所述待清洗数据中包括需要验证的信息,则根据所述真伪清洗规则将所述待清洗数据发送给对应的第三方验证平台进行验证;

步骤S1213:从所述第三方验证平台接收验证信息;

步骤S1214:基于所述验证信息对所述待清洗数据进行清洗,获得所述清洁数据。

本实施例中所述的真伪清洗规则可包括记录有需要验证的信息、可进行某一类信息验证的第三方验证平台的信息以及如何进行验证处理等信息。此处的所述如何进行验证处理可包括需要向所述第三方验证平台发送的信息,根据第三方验证平台返回的信息如何进行数据清洗处理等信息。

具体如有些信息是需要第三方验证平台来验证的。具体如HR系统中各个员工的身份证信息,若需要保证准确无误,可能需要公安系统或户籍系统来进行验证。

在本实施例中为了保证录入所述主数据系统的数据的权威性和真实性,所述清洗引擎将需要验证的待清洗数据发送到第三方验证平台进行验证。

如将员工的身份信息发送给公安系统或户籍系统进行验证,这是所述公安系统或户籍系统可能返回出验证正确的身份信息,这时所述清洗引擎在将数据 发送到主数据系统时,仅将验证正确的数据发送给主数据系统。所述公安系统或户籍系统还可以对待清洗数据做出验证标识,所述清洗引擎根据所述验证标识来形成所述清洁数据。

所述验证信息可包括验证正确的待清洗数据,还可包括第三方验证平台生成的信息。

在具体实现时,若所述待清洗数据在第三方验证为伪数据,所述清洗引擎还可生成错误提示或清洗异常提示,返回给对应的业务系统,方便对应的业务系统进行数据录入的核验等后续操作。

本实施例中基于真伪清洗规则对数据进行了清洗,能够保证输入到主数据系统中的数据的真实性。

作为本实施例的进一步改进,所述方法还包括:

依据所述待清洗数据的数据清洗结果,生成数据清洗日志。

在本实施例中所述清洗引擎还将生成清洗日志,这样后续方便数据维护人员对清洗日志进行查询以及数据恢复处理等操作。

通常所述清洗日志包括清洗数据的时间、被执行了数据清洗的待清洗数据的来源以及执行的清洗操作等内容。

在本实施例中所述清洗规则包括多种清洗规则,每一种清洗规则之下可能又分为多个类似的子规则,在进行数据处理时,为了简化所述清洗引擎的工作,可以为每一个清洗规则设置对应的优先级,这样就会如图2所示,在所述清洗引擎内存储有规则优先级,这样清洗引擎将根据所述规则优先级依次执行数据清洗。

具体如,在本实施例中所述清洗引擎,可以,首先根据业务清洗规则对待清洗数据进行数据清洗处理,然后采用属性清洗规则进行数据清洗处理,再利用所述相似度清洗规则进行数据清洗。而根据所述真伪清洗规则进行的数据清洗,则可以任意一个阶段来进行。

再比如,所述相似度清洗规则包括第一相似度清洗规则和第二相似度清洗规则,在具体实现时,所述第一相似度清洗规则的规则优先级可高于所述第二 相似度清洗的规则优先级,则清洗引擎进行数据清洗时,首先根据所述第一相似度清洗规则进行所述待清洗数据的数据清洗处理。

在利用上述清洗规则进行数据清洗时,可以采用迭代清洗的方式,通过多次清洗来实现清洁数据的生成,具体如首先进行粗略清洗,形成粗略清洗结果;在粗略清洗过程中可以主要对经常容易出现不满足清洗规则的数据问题进行清洗,若通过粗略清洗的数据再进行细致清洗,在细致清洗中可对每一个通过粗略清洗的数据进行是否完全满足所述清洗规则的清洁数据进行确认。这样首先通过粗略清洗可以快速筛选出一批不满足所述清洗规则的数据,从而提升了生数据清洗效率。

待清洗数据中哪些部分可能是属于所述粗略清洗需要确认的部分,可以通过权重设置来体现。如将需要在粗略清洗中进行确认的属性,设置较大的权重,而需要在细致清洗中确认的属性给与较小的权重,所述清洗引擎通过权重的判断就能确定每一个所述待清洗数据中哪些是需要粗略清洗,哪些是需要细致清洗过程中才处理的。

在具体实现时,所述清洗引擎还对数据清洗过程中出现的问题进行统计,并根据所述统计的结果,确定出属性的权重,从而确定出哪些属性是需要在粗略清洗中进行处理的。

当然具体实现时,所述迭代清洗不限于两次清洗,可为M次,所述M可为不小于2的整数。其中,第M-1次是第M次的粗略清洗,第M次是第M-1次的细致清洗。

综合上述,本实施例中所述数据清洗方法,提供了一种能够高效清洁数据的方法,且经过本实施例所述的数据清洗方法得到的数据,数据清洗度高,数据冗余度小。

设备实施例:

如图5所述,本实施例提供一种清洗引擎,所述清洗引擎中包括:

接收单元110,用于接收各个业务系统提交的待清洗数据;

清洗单元120,用于采用清洗规则对所述待清洗数据进行清洗,确定满足 清洗条件的清洁数据;

发送单元130,用于将所述清洁数据发送给主数据系统。

所述接收单元130的具体结构可包括通信接口;该通信接口与业务系统相连。所述通信接口可为有线接口或无线接口;所述有线接口可包括光缆接口和电缆接口;所述无线接口可包括采用各种通信协议进行通信的接收天线。

总之所述接收单元110,用于从所述业务系统接收所述待清洗数据。

所述清洗单元120的具体结构可包括清洗引擎中具有信息处理的处理器。所述处理器通过执行指定代码能够实现对待清洗数据的清洗处理。所述处理器可包括中央处理器CUP、微处理器MCU、数字信号处理器DSP、可编程阵列PLC或应用处理器AP等具有信息处理功能的处理器。

本实施例所述清洗引擎可对应一个电子设备或多个电子设备,这些电子设备可形成一个数据清洗电子设备组或清洗平台,该数据清洗电子设备组或清洗平台内的电子设备都是能够基于清洗规则对数据进行清洗的电子设备构成。所述发送单元130,可包括通信接口;该通信接口与主数据系统相连。所述通信接口可为有线接口或无线接口;所述有线接口可包括光缆接口和电缆接口;所述无线接口可包括采用各种通信协议进行通信的发送天线。

总之本例所述的清洗引擎可用于为上述数据清洗方法提供硬件支撑,能够保证进入主数据系统的数据都是经过清洗的清洁数据。

以下提供几种所述清洗单元的具体结构。

可选结构一:

所述清洗单元120,具体用于确定待清洗数据归属的业务类型;依据所述业务类型,确定业务清洗规则;确定所述待清洗数据是否所述业务清洗规则;

所述发送单元130,具体用于将满足所述业务清洗规则的数据发送给主数据系统。

所述清洗单元120,还用于若所述待清洗数据不满足所述业务清洗规则,依据所述待清洗数据的信息内容生成满足所述业务清洗规则的清洁数据。

本实施例所述的业务清洗规则的具体构成可以参见前述方法实施例,具体 如,某个待清洗数据为物料存储记录,对应于物料存储这一业务,要求每一条存储记录都包括物料的物料号、物料进仓数目、出仓数据、使用该物料的产品、供应商等。所述清洗单元120在对该物料存储记录进行清洁时,就需要验证该物料存储记录是否满足上述要求,否则将认为是不清洁的数据,需要进行数据转换或,返回给业务系统重新补充。当然所述物理存储记录可以存储业务清洗规则以外更多的数据,如该物料存储记录中还包括替代物料的相关信息时,若该物料存储记录满足上述业务清洗规则,在所述替代物料没有出现错误的情况下,可认为该物料存储物料是清洁数据。

可选结构二:

所述清洗单元120,用于提取所述待清洗数据中各属性名称;及依据属性清洗规则,统一各所述待清洗数据中表达同一属性的属性名称。

在本实施例所述清洗单元120还用于进行属性名称的统一,这样就能保证存储所述主数据系统的数据能够标准化和统一化,进行了所述属性名称的统一后,还能够方便后续相似度清洗规则进行相似度数据的清洗。

可选结构三:

所述清洗单元120,还用于匹配各个所述待清洗数据,确定是否有满足第一相似度清洗规则的所述待清洗数据;及若有N个所述待清洗数据,则删除N-1条所述待清洗数据且保留一条所述待清洗数据作为所述清洁数据;

其中,所述N为不大于2的整数。

所述清洗单元130,具体用于匹配各个所述待清洗数据,确定是否有至少两条所述待清洗数据相同;若相同,则确定有满足所述相似度清洗规则的所述待清洗数据。

所述清洗单元120,具体用于匹配各个所述待清洗数据,判断是否有至少两条所述待清洗数据的属性值不同时,所述属性值对应的信息内容是否相同;若相同,则确定有满足所述第一相似度清洗规则的所述待清洗数据。

所述清洗单元120,还用于匹配各个所述待清洗数据,确定是否有满足第二相似度清洗规则的所述待清洗数据;若至少有两个所述待清洗数据满足所述 第二相似度清洗规则,则将满足所述第二相似对清洗规则的数据设置为待审批清洗数据;获取所述待审批清洗数据的审批结果;依据所述审批结果,生成所述清洁数据。

本实施例所述的清洗单元120的具体结构可参见前述部分,本实施例中所述清洗单元120具体用于根据相似度清洗规则对数据进行清洗,这样能够减少数据冗余,降低数据重复性。

可选结构三:

所述清洗单元120,还用于根据真伪清洗规则,确定所述待清洗数据中是否包括需要验证的信息;若所述待清洗数据中包括需要验证的信息,则根据所述真伪清洗规则将所述待清洗数据发送给对应的第三方验证平台进行验证;从所述第三方验证平台接收验证信息;基于所述验证信息对所述待清洗数据进行清洗,获得所述清洁数据。

此时,所述清洗单元120除了包括上述具有信息处理功能的处理器以外,还包括能够与所述第三方验证平台进行信息交互的交互接口。所述交互接口可包括上述有线接口或无线接口,总之能够进行待清洗数据中的需要验证的信息的验证;从而能够保证进入主数据系统数据的正确性。

作为本实施例的进一步改进,所述清洗引擎还包括:

生成单元,用于依据所述待清洗数据的数据清洗结果,生成数据清洗日志。

所述生成单元的具体结构也可包括能够生成所述清洗日志的处理器,该处理器可为前面部分提到的任意一种处理器。

综合上述,本实施例所述的清洗引擎能够用于前述待清洗数据的清洗,且具有高效、数据清洗度高等优点。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、 或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1