一种重复数据的数据质量检测方法及装置的制造方法_5

文档序号:9727488阅读:来源:国知局
提高了检测效率;同时,该装置不限 于检测两条数据完全相同的情况,也可以检测两条数据部分相同的情况,通过对其重复的 概率的计算,根据阈值确定其是否重复;本装置中,数据质量分析者可自行定义两条记录是 否相同的判断条件。
[0234] 另外,本装置可以通过训练样本的选择自动为不同字段添加权重,提供了一定的 灵活性。
[0235] 如图22所示,其为本发明重复数据的数据质量检测装置检测数据筛选单元的结构 图;其中,所述检测数据筛选单元6包括:
[0236] 字段数目确认模块61,确定所述样本字段组合中各组合字段数目的最小值N;
[0237] -般情况下,有重复字段的记录组合的数目会随着重复字段数目的增加而减少, 因此需要确定所述样本字段组合中各组合字段数目的最小值N,这样就不需要再搜索重复 字段小于N的记录组合,减少了需要搜索的记录组合的数目,提高了搜索效率。
[0238] 例如,样本字段组合中最少都有4个字段重复的话,则只需要搜索至少有4个字段 重复的记录组合,这样就提高了搜索效率。
[0239] 双记录组合检测模块62,搜索所述待检测数据的两条记录中至少有N个字段相同 的记录组合,检测并保留在所述样本字段组合内的所述记录组合;
[0240] 所述样本字段组合中各组合字段数目的最小值N,在所述待检测数据的记录组合 中,若记录组合的相同字段数目小于N,则此记录组合一定不在样本字段组合中,因此只搜 索至少有N个字段相同的记录组合,可以减少搜索时间,提高搜索效率。
[0241] 多记录组合查找模块63,在保留的所述记录组合内根据已知n-Ι条记录至少有N个 字段相同的所述记录组合,查找η条记录至少有N个字段相同的所述记录组合;查找不到则 结束;
[0242] 本模块中,根据已知n-Ι条记录至少有Ν个字段相同的所述记录组合,查找η条记录 至少有Ν个字段相同的所述记录组合,其中必须满足的条件为:
[0243] 1)η条记录组合由n-Ι条记录组合两两结合而成,这两个n-Ι条记录组合中有η-2条 记录是相同的;
[0244] 2)新组合而成的η条记录组合的每一个有n-Ι条记录的子集都在n-Ι条记录至少有 Ν个字段相同的所述记录组合中。
[0245] 多记录组合检测模块64,检测并保留在所述样本字段组合内η条记录的所述记录 组合,同时在n-Ι条记录的所述记录组合中删除保留的η条记录的所述记录组合的所有有η-1条记录的子集;返回多记录组合查找模块63。
[0246] 通过字段数目确认模块61_f4,可以通过逐步计算统计所有可能的字段组合,避免 对记录可能的遗漏。
[0247] 实施例六
[0248] 如上述所述的重复数据的数据质量检测装置,本实施例与其不同之处在于,如图 23本发明重复数据的数据质量检测装置实施例六的结构图所示;所述的数据质量检测装置 还包括:
[0249] 检测结果输出单元7,输出保留的所述记录组合以及所述记录组合重复的概率,所 述检测结果输出单元7在所述检测数据筛选单元6之后。
[0250] 本单元中的输出可以采用不同形式,可以以可视化形式展现,也可以输出检测结 果便于合并记录;其可以输出保留的所有的所述记录组合以及所述记录组合重复的概率, 也可以输出保留的部分的所述记录组合以及所述记录组合重复的概率。
[0251] 实施例七
[0252] 如上述所述的重复数据的数据质量检测装置,本实施例与其不同之处在于,如图 24本发明重复数据的数据质量检测装置实施例七的结构图所示;所述的训练集生成单元2 还包括:
[0253] 样本相似度计算模块21,对训练样本的同一字段中的值计算相似度,并将相似度 达到或超过阈值的相似值作为相同值,所述样本相似度计算模块21在所述记录编号统计模 块22之前。
[0254] 训练样本中的数据可能会因为误差发生细微的变化,这就使得两条记录的同一个 字段的值很相似但不相同,本单元的添加可以消除此种误差,提高对重复数据判断的准确 性。
[0255] 实施例八
[0256] 如上述所述的重复数据的数据质量检测装置,本实施例与其不同之处在于,如图 25本发明重复数据的数据质量检测装置实施例八的结构图所示;所述的数据质量检测装置 还包括:
[0257] 训练样本提取单元1,从待检测数据源提取训练样本;
[0258] 从待检测数据源提取训练样本,由于训练样本和待检测数据同源,可以提高对重 复数据的判定的准确度。
[0259] 以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性 的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变, 修改,甚至等效,但都将落入本发明的保护范围内。
【主权项】
1. 一种重复数据的数据质量检测方法,其特征在于,包括: 步骤b,对包含多条记录的训练样本的数据值进行分析,生成模型训练集; 步骤C,分析所述模型训练集中的各个组合对,并通过人工或算法将所述组合对对应的 两条记录标记为记录重复或记录不重复;然后选择是否继续训练,继续则重新确定所述训 练样本并返回步骤b,否则进入步骤d; 步骤d,计算一个或多个字段重复则记录重复的概率,并筛选出概率较大的字段组合作 为样本字段组合; 步骤e,对待检测数据的值进行分析,输出每个字段的每个不同值对应的记录编号; 步骤f,根据所述样本字段组合对分析过的所述待检测数据进行重复检测,筛选出所有 重复字段满足所述样本字段组合的记录组合。2. 根据权利要求1所述的数据质量检测方法,其特征在于,所述数据质量检测方法还包 括: 步骤a,从所述待检测数据源提取所述训练样本;所述步骤a在所述步骤b之前。3. 根据权利要求2所述的数据质量检测方法,其特征在于,所述数据质量检测方法还包 括: 步骤g,输出保留的所述记录组合以及所述记录组合重复的概率,所述步骤g在所述步 骤f之后。4. 根据权利要求1或2或3所述的数据质量检测方法,其特征在于,所述步骤b包括: 步骤b2,对所述训练样本的数据值进行分析,统计每个字段的每个不同值对应的所述 记录编号; 步骤b3,对每个字段的每个不同值对应的所述记录编号进行处理,生成所述模型训练 集。5. 根据权利要求4所述的数据质量检测方法,其特征在于,所述步骤b3包括: 步骤b31,统计字段一的对应两条记录的值,每个值对应的两条记录为一个所述组合 对,将该组合对记录并在字段一添加字段重复标记; 步骤b32,统计字段一的对应三条或三条以上记录的值,每个值对应的记录两两组合为 一个所述组合对,将该组合对记录并在字段一添加所述字段重复标记; 步骤b33,统计字段二的对应两条或两条以上记录的值,每个值对应的记录两两组合为 一个所述组合对,若该组合对与已记录的所述组合对相同,则在所述已记录的所述组合对 的字段二添加所述字段重复标记;若该组合对与已记录的所述组合对不同,则将该组合对 记录并在字段二添加所述字段重复标记; 步骤b34,按照步骤b33对其他字段进行处理,形成的所有所述组合对构成所述模型训 练集。6. 根据权利要求1或2或3所述的数据质量检测方法,其特征在于,所述步骤d包括: 步骤dl,以某一字段标记字段重复的所述组合对数目为除数,以该字段标记字段重复 的组合对中同时标记所述记录重复的数目为被除数,以商为该字段重复则记录重复的概 率,计算所述字段重复则记录重复的概率; 步骤d2,根据所述字段重复则记录重复的概率计算多个字段重复则记录重复的概率; 步骤d3,设置阈值,筛选记录重复概率大于等于该阈值的字段组合作为样本字段组合。7. 根据权利要求6所述的数据质量检测方法,其特征在于,所述多个字段重复则记录重 复的概率的计算公式为:式中,p(l,2,"_,k)为字段1,2,…,k重复则记录重复的概率;Pl、Pll、p l2、plk分别为字段 i、il、i2、ik重复则记录重复的概率;il、i2分别表示字段1,2,…,k中任意两个字段的序号; ik表不字段k的序号。8. 根据权利要求1或2或3所述的数据质量检测方法,其特征在于, 所述步骤f包括:步骤Π,确定所述样本字段组合中各组合字段数目的最小值N; 步骤f2,搜索所述待检测数据的两条记录中至少有N个字段相同的所述记录组合,检测 并保留在所述样本字段组合内的所述记录组合; 步骤f3,在保留的所述记录组合内根据已知n-1条记录至少有N个字段相同的所述记录 组合,查找η条记录至少有N个字段相同的所述记录组合;查找不到则结束; 步骤f4,检测并保留在所述样本字段组合内η条记录的所述记录组合,同时在n-1条记 录的所述记录组合中删除保留的所述η条记录的所述记录组合的所有有n-1条记录的子集; 返回步骤f3。9. 根据权利要求8所述的数据质量检测方法,其特征在于,所述步骤f3中,所述查找必 须满足的条件为: 所述η条记录的所述记录组合由所述n-1条记录的所述记录组合两两结合而成,该两个 所述n-1条记录的所述记录组合中有n-2条记录是相同的; 新组合而成的所述η条记录的所述记录组合的每一个有n-1条记录的子集都在所述n-1 条记录至少有N个字段相同的所述记录组合中。10. -种与权利要求1-9中任一所述的数据质量检测方法对应的重复数据的数据质量 检测装置,其特征在于,包括: 训练集生成单元,对包含多条记录的训练样本的数据值进行分析,生成模型训练集; 样本记录标重单元,分析所述模型训练集中的各个组合对,并通过人工或算法将所述 组合对对应的两条记录标记为记录重复或记录不重复;然后选择是否继续训练,继续则重 新确定所述训练样本并返回所述训练集生成单元,否则进入样本组合筛选单元; 所述样本组合筛选单元,计算一个或多个字段重复则记录重复的概率,并筛选出概率 较大的字段组合作为样本字段组合; 检测数据分析单元,对待检测数据的值进行分析,输出每个字段的每个不同值对应的 记录编号; 检测数据筛选单元,根据所述样本字段组合对分析过的所述待检测数据进行重复检 测,筛选出所有重复字段满足所述样本字段组合的记录组合。
【专利摘要】本发明为一种重复数据的数据质量检测方法及装置,所述方法包括:步骤b,生成模型训练集;步骤c,分析所述模型训练集中的各个组合对,并标记为记录重复或记录不重复;步骤d,计算记录重复的概率,并筛选出概率较大的字段组合作为样本字段组合;步骤e,对待检测数据的值进行分析;步骤f,据进行重复检测,筛选出所有重复字段满足所述样本字段组合的记录组合;所述装置包括与各个步骤相对应的训练集生成单元、样本记录标重单元、样本组合筛选单元、检测数据分析单元和检测数据筛选单元。这样,通过对字段组合进行重复可能性的计算,无需比较任意两条记录的重复可能性,缩短了时间,提高了检测效率;同时也可以检测两条数据部分相同的情况。
【IPC分类】G06F17/30
【公开号】CN105488212
【申请号】CN201510925893
【发明人】许飞月, 李青海, 简宋全, 侯大勇, 邹立斌
【申请人】广州精点计算机科技有限公司
【公开日】2016年4月13日
【申请日】2015年12月11日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1