一种数据去重的方法及装置制造方法

文档序号:6639826阅读:197来源:国知局
一种数据去重的方法及装置制造方法
【专利摘要】本发明公开了一种数据去重的方法及装置,该方法包括:获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;将所述业务主键转换为统一的预设格式,生成匹配码;按预设的顺序对所述生成的匹配码进行排序,生成验证码;查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。
【专利说明】一种数据去重的方法及装置

【技术领域】
[0001]本发明涉及数据处理【技术领域】,特别是涉及一种数据去重的方法及装置。

【背景技术】
[0002]目前基于数据融合系统的数据去重方法是将待去重的一列或是一行数据进行排序,并对重复的数据用区分码(1,2)进行标识,删除标识为“2”的数据。现有的数据去重方法在对多行或多列数据进行去重时效率较低。


【发明内容】

[0003]本发明的目的是提供一种数据去重的方法及装置,其目的在于解决现有技术中对多行或多列数据进行去重时效率低的问题。
[0004]为解决上述技术问题,本发明提供一种数据去重的方法,包括:
[0005]获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
[0006]将所述业务主键转换为统一的预设格式,生成匹配码;
[0007]按预设的顺序对所述生成的匹配码进行排序,生成验证码;
[0008]查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
[0009]删除所述验证码中标记为第二区分码的数据。
[0010]可选地,所述将所述业务主键转换为统一的预设格式,生成匹配码包括:
[0011]将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
[0012]可选地,所述将所述业务主键转换为统一的预设格式,生成匹配码包括:
[0013]采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
[0014]可选地,所述按预设的顺序对所述生成的匹配码进行排序,生成验证码包括:
[0015]将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
[0016]可选地,在生成所述验证码之后,还包括:
[0017]将所述生成的验证码存储在特定的临时表中。
[0018]可选地,所述查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括:
[0019]按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
[0020]可选地,所述删除所述验证码中标记为第二区分码的数据之后,还包括:
[0021]统计所述删除数据的数量,生成数据去重统计报告。
[0022]本发明还提供了一种数据去重的装置,包括:
[0023]获取模块,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
[0024]转换模块,用于将所述业务主键转换为统一的预设格式,生成匹配码;
[0025]排序模块,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码;
[0026]查找模块,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
[0027]去重模块,用于删除所述验证码中标记为第二区分码的数据。
[0028]可选地,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括:
[0029]所述转换模块具体用于,将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
[0030]可选地,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括:
[0031]所述转换模块具体用于,采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
[0032]可选地,所述排序模块用于按预设的顺序对所述生成的匹配码进行排序,生成验证码包括:
[0033]所述排序模块具体用于,将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
[0034]可选地,在生成所述验证码之后,还包括:
[0035]存储模块,用于将所述生成的验证码存储在特定的临时表中。
[0036]可选地,所述查找模块用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括:
[0037]所述查找模块具体用于,按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
[0038]可选地,所述删除所述验证码中标记为第二区分码的数据之后,还包括:
[0039]统计模块,用于统计所述删除数据的数量,生成数据去重统计报告。
[0040]本发明所提供的数据去重的方法及装置,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;最后删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法只需对待去重的数据进行预处理,将不同列不同行的数据生成统一预设格式的匹配码,对该统一格式的匹配码进行比对,删除其中重复的数据即可,整个过程配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。

【专利附图】

【附图说明】
[0041]图1为本发明所提供的数据去重的方法的一种【具体实施方式】的流程图;
[0042]图2为本发明所提供的数据去重的方法的另一种【具体实施方式】的流程图;
[0043]图3为本发明所提供的数据去重的装置的一种【具体实施方式】的结构框图;
[0044]图4为本发明所提供的数据去重的装置的另一种【具体实施方式】的结构框图。

【具体实施方式】
[0045]本发明的核心是提供一种数据去重的方法及装置,可以用于在数据融合系统中,能够对数据规模在千万级以上的数据进行去重。
[0046]为了使本【技术领域】的人员更好地理解本发明方案,下面结合附图和【具体实施方式】对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]本发明所提供的数据去重的方法的一种【具体实施方式】如图1所示,该方法包括:
[0048]步骤101:获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
[0049]步骤102:将所述业务主键转换为统一的预设格式,生成匹配码;
[0050]步骤103:按预设的顺序对所述生成的匹配码进行排序,生成验证码;
[0051]步骤104:查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
[0052]步骤105:删除所述验证码中标记为第二区分码的数据。
[0053]本发明所提供的数据去重的方法,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码?’最后删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法只需对待去重的数据进行预处理,将不同列不同行的数据生成统一预设格式的匹配码,对该统一格式的匹配码进行比对,删除其中重复的数据即可,整个过程配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。
[0054]本发明所提供的数据去重的方法的另一种【具体实施方式】可具体用于,数据融合系统中对于数据规模在千万级以上的数据进行去重的处理,如图2所示,该方法包括:
[0055]步骤201:根据业务需求所需要进行去重处理的数据,获取所需要处理的数据的业务主键;
[0056]所述业务主键为代表数据唯一性的字段,可以为单个字段或者为多个字段的联人口 O
[0057]步骤202:采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
[0058]在本【具体实施方式】中,根据业务的规则要求,可具体采用信息-摘要算法5(MD5)的算法函数对所述业务主键进行转码,生成标准统一的匹配码。
[0059]步骤203:将所述生成的匹配码按照由小到大的顺序进行排序,排序后生成验证码;
[0060]步骤204:将所述生成的验证码存储在特定的临时表中;
[0061]步骤205:按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
[0062]在本【具体实施方式】中,对临时表中的验证码进行重复数据查找,对于其中重复的数据用区分码(1,2)进行标识。例如将未重复出现过的数据的区分码标识记为“1”,将重复出现的数据的区分码标识记为“2”。
[0063]步骤206:删除所述验证码中标记为第二区分码的数据;
[0064]如删除上述步骤205中区分码标识为“2”的数据。
[0065]步骤207:统计所述删除数据的数量,生成数据去重统计报告。
[0066]本发明所提供的数据去重的方法,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码?’最后删除所述验证码中标记为第二区分码的数据。由于本发明提供的数据去重的方法首先对所述待处理的数据进行了预处理,使得不同列不同行的数据生成统一预设格式的匹配码,只需要对该统一格式的匹配码进行比对,删除其中重复的数据即可,因此在数据融合系统中,能够实现对于数据规模在千万级以上的数据中的多行或者多列同时进行去重处理,去重效率高。并且配置简单,使用方便,可操作性高。另外,在生成匹配码以及查找重复数据的过程中均可以使用分布式模式进行并行处理,也能够节省大量的处理时间,提高去重的效率。
[0067]本发明还提供了一种数据去重的装置,图3为本发明所提供的数据去重的装置的一种【具体实施方式】的结构框图,如图3所示,该装置包括:
[0068]获取模块100,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
[0069]转换模块200,用于将所述业务主键转换为统一的预设格式,生成匹配码;
[0070]排序模块300,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码;
[0071]查找模块400,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
[0072]去重模块500,用于删除所述验证码中标记为第二区分码的数据。
[0073]本发明所提供的数据去重的装置,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码?’最后删除所述验证码中标记为第二区分码的数据。在对多行或者多列且数据规模在千万级以上的数据进行处理时,该去重方法只需对待去重的数据进行预处理,将不同列不同行的数据生成统一预设格式的匹配码,对该统一格式的匹配码进行比对,删除其中重复的数据即可,整个过程配置简单、使用方便、可操作性强,并且能够实现多行或多列的同时去重处理,节省了大量的处理时间,提高了去重处理的效率。
[0074]本发明所提供的数据去重的装置的另一种【具体实施方式】的结构框图如图4所示,与上一种【具体实施方式】相比,该【具体实施方式】中增加了存储模块600以及统计模块700的部分,该装置包括:
[0075]获取模块100,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段;
[0076]转换模块200,用于将所述业务主键转换为统一的预设格式,生成匹配码;
[0077]排序模块300,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码;
[0078]存储模块600,用于将所述生成的验证码存储在特定的临时表中;
[0079]查找模块400,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码;
[0080]去重模块500,用于删除所述验证码中标记为第二区分码的数据;
[0081]统计模块700,用于统计所述删除数据的数量,生成数据去重统计报告。
[0082]本发明所提供的数据去重的装置,通过获取待处理的数据的业务主键,将所述业务主键转换为统一预设格式的匹配码;并按预设的顺序对所述生成的匹配码进行排序,生成验证码;然后查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码?’最后删除所述验证码中标记为第二区分码的数据。由于本发明提供的数据去重的装置首先对所述待处理的数据进行了预处理,使得不同列不同行的数据生成统一预设格式的匹配码,只需要对该统一格式的匹配码进行比对,删除其中重复的数据即可,因此能够实现对于多行或者多列数据同时进行去重的操作处理,去重效率高。此外,统计模块还能够对其删除数据的数量进行统计,并且生成数据去重统计报告,可以简单清楚地说明数据处理后的结果,方便用户的使用。
[0083]本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
[0084]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【权利要求】
1.一种数据去重的方法,其特征在于,包括: 获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段; 将所述业务主键转换为统一的预设格式,生成匹配码; 按预设的顺序对所述生成的匹配码进行排序,生成验证码; 查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码; 删除所述验证码中标记为第二区分码的数据。
2.如权利要求1所述的数据去重的方法,其特征在于,所述将所述业务主键转换为统一的预设格式,生成匹配码包括: 将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
3.如权利要求2所述的数据去重的方法,其特征在于,所述将所述业务主键转换为统一的预设格式,生成匹配码包括: 采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
4.如权利要求1所述的数据去重的方法,其特征在于,所述按预设的顺序对所述生成的匹配码进行排序,生成验证码包括: 将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
5.如权利要求4所述的数据去重的方法,其特征在于,在生成所述验证码之后,还包括: 将所述生成的验证码存储在特定的临时表中。
6.如权利要求5所述的数据去重的方法,其特征在于,所述查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括: 按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
7.如权利要求6所述的数据去重的方法,其特征在于,所述删除所述验证码中标记为第二区分码的数据之后,还包括: 统计所述删除数据的数量,生成数据去重统计报告。
8.一种数据去重的装置,其特征在于,包括: 获取模块,用于获取待处理的数据的业务主键,所述业务主键为根据业务需求代表数据唯一性的字段; 转换模块,用于将所述业务主键转换为统一的预设格式,生成匹配码; 排序模块,用于按预设的顺序对所述生成的匹配码进行排序,生成验证码; 查找模块,用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码; 去重模块,用于删除所述验证码中标记为第二区分码的数据。
9.如权利要求8所述的数据去重的装置,其特征在于,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括: 所述转换模块具体用于,将所述业务主键用信息-摘要算法5的算法函数进行转码,生成标准统一的匹配码。
10.如权利要求9所述的数据去重的装置,其特征在于,所述转换模块用于将所述业务主键转换为统一的预设格式,生成匹配码包括: 所述转换模块具体用于,采用分布式模式并行计算,将所述业务主键转换为统一的预设格式,生成所述匹配码。
11.如权利要求8所述的数据去重的装置,其特征在于,所述排序模块用于按预设的顺序对所述生成的匹配码进行排序,生成验证码包括: 所述排序模块具体用于,将所述生成的匹配码按照由小到大的顺序进行排序,生成所述验证码。
12.如权利要求11所述的数据去重的装置,其特征在于,在生成所述验证码之后,还包括: 存储模块,用于将所述生成的验证码存储在特定的临时表中。
13.如权利要求12所述的数据去重的装置,其特征在于,所述查找模块用于查找所述经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码包括: 所述查找模块具体用于,按照预定的分区,采用分布式模式查找所述临时表中经排序后的验证码,将所述验证码与排列在前的第一验证码进行比对,当所述验证码与所述第一验证码相同时,将所述验证码的区分码记为第二区分码。
14.如权利要求13所述的数据去重的装置,其特征在于,所述删除所述验证码中标记为第二区分码的数据之后,还包括: 统计模块,用于统计所述删除数据的数量,生成数据去重统计报告。
【文档编号】G06F17/30GK104462527SQ201410811756
【公开日】2015年3月25日 申请日期:2014年12月22日 优先权日:2014年12月22日
【发明者】马欣, 顾喜德 申请人:龙信数据(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1