一种重复数据的数据质量检测方法及装置的制造方法

文档序号:9727488阅读:241来源:国知局
一种重复数据的数据质量检测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据质量监控技术领域,具体涉及一种重复数据的数据质量检测方法 及装置。
【背景技术】
[0002] 信息技术的快速发展使得数据逐渐成为实现企业业务价值最重要的资源之一。然 而随着数据量的不断增大,数据质量问题也随之而来。数据缺失、错误、不一致等问题使企 业对其的应用受到阻碍,严重的甚至会导致企业做出错误决策,损失重要价值进而引发信 任危机。
[0003] 针对这些脏数据,许多数据质量检测和清洗方案应运而生。而重复数据在其中则 是比较难以检测的一种数据质量问题。因为如今企业面对的数据重复问题不单单是数据完 全的重复,还包括部分重复。比如某个社交网站拥有数以千万的用户,但这些用户可能有重 复注册的情况,这些重复注册的用户可能只有某些信息出现了微小的差异。如何识别这些 重复的用户信息对于维护网站质量至关重要。
[0004]目前比较有代表性的数据重复检查方案有的根据每条记录的内容计算唯一的哈 希码和检查码,然后根据哈希码和检查码是否相同来判断数据是否重复,特点是准确性高、 效率高,但只适用于记录完全重复的情况;有的方案基于机器学习对重复检测模型进行训 练,特点是灵活性高,不把各种情景的重复检测限制在一种方法之下,但每两条数据都要计 算重复可能性,效率低,且准确性仍有待提升。
[0005] 鉴于上述缺陷,本发明创作者经过长时间的研究和试验终于提出了一种重复数据 的数据质量检测方法及装置。

【发明内容】

[0006] 本发明的目的在于提供一种重复数据的数据质量检测方法及装置,用以克服上述 技术缺陷,解决如何准确、快速检测到部分重复数据以及完全重复数据的问题。
[0007] 为实现上述目的,本发明采用的技术方案在于:首先提供一种重复数据的数据质 量检测方法,其包括:
[0008] 步骤b,对包含多条记录的训练样本的数据值进行分析,生成模型训练集;
[0009] 步骤c,分析所述模型训练集中的各个组合对,并通过人工或算法将所述组合对对 应的两条记录标记为记录重复或记录不重复;然后选择是否继续训练,继续则重新确定所 述训练样本并返回步骤b,否则进入步骤d;
[0010] 步骤d,计算一个或多个字段重复则记录重复的概率,并筛选出概率较大的字段组 合作为样本字段组合;
[0011] 步骤e,对待检测数据的值进行分析,输出每个字段的每个不同值对应的记录编 号;
[0012] 步骤f,根据所述样本字段组合对分析过的所述待检测数据进行重复检测,筛选出 所有重复字段满足所述样本字段组合的记录组合。
[0013] 较佳的,所述数据质量检测方法还包括:
[0014] 步骤a,从所述待检测数据源提取所述训练样本;所述步骤a在所述步骤b之前。
[0015] 较佳的,所述数据质量检测方法还包括:
[0016] 步骤g,输出保留的所述记录组合以及所述记录组合重复的概率,所述步骤g在所 述步骤f之后。
[0017] 较佳的,所述步骤b包括:
[0018] 步骤b2,对所述训练样本的数据值进行分析,统计每个字段的每个不同值对应的 所述记录编号;
[0019] 步骤b3,对每个字段的每个不同值对应的所述记录编号进行处理,生成所述模型 训练集。
[0020] 较佳的,所述步骤b3包括:
[0021] 步骤b31,统计字段一的对应两条记录的值,每个值对应的两条记录为一个所述组 合对,将该组合对记录并在字段一添加字段重复标记;
[0022] 步骤b32,统计字段一的对应三条或三条以上记录的值,每个值对应的记录两两组 合为一个所述组合对,将该组合对记录并在字段一添加所述字段重复标记;
[0023] 步骤b33,统计字段二的对应两条或两条以上记录的值,每个值对应的记录两两组 合为一个所述组合对,若该组合对与已记录的所述组合对相同,则在所述已记录的所述组 合对的字段二添加所述字段重复标记;若该组合对与已记录的所述组合对不同,则将该组 合对记录并在字段二添加所述字段重复标记;
[0024]步骤b34,按照步骤b33对其他字段进行处理,形成的所有所述组合对构成所述模 型训练集。
[0025]较佳的,所述步骤d包括:
[0026]步骤dl,以某一字段标记字段重复的所述组合对数目为除数,以该字段标记字段 重复的组合对中同时标记所述记录重复的数目为被除数,以商为该字段重复则记录重复的 概率,计算所述字段重复则记录重复的概率;
[0027]步骤d2,根据所述字段重复则记录重复的概率计算多个字段重复则记录重复的概 率;
[0028] 步骤d3,设置阈值,筛选记录重复概率大于等于该阈值的字段组合作为样本字段 组合。
[0029] 较佳的,所述多个字段重复则记录重复的概率的计算公式为:
[0031]式中,p(l,2,···,!〇为字段1,2,…,k重复则记录重复的概率;pi ji^pi^pik分别为 字段i、il、i2、ik重复则记录重复的概率;il、i2分别表示字段1,2,…,k中任意两个字段的 序号;ik表不字段k的序号。
[0032]较佳的,所述步骤f包括:
[0033] 步骤Π ,确定所述样本字段组合中各组合字段数目的最小值N;
[0034] 步骤f2,搜索所述待检测数据的两条记录中至少有N个字段相同的所述记录组合, 检测并保留在所述样本字段组合内的所述记录组合;
[0035] 步骤f3,在保留的所述记录组合内根据已知n-1条记录至少有N个字段相同的所述 记录组合,查找η条记录至少有N个字段相同的所述记录组合;查找不到则结束;
[0036] 步骤f4,检测并保留在所述样本字段组合内η条记录的所述记录组合,同时在n-1 条记录的所述记录组合中删除保留的所述η条记录的所述记录组合的所有有n-1条记录的 子集;返回步骤f 3。
[0037] 较佳的,所述步骤f3中,所述查找必须满足的条件为:
[0038] 所述η条记录的所述记录组合由所述n-Ι条记录的所述记录组合两两结合而成,该 两个所述n-Ι条记录的所述记录组合中有n-2条记录是相同的;
[0039] 新组合而成的所述η条记录的所述记录组合的每一个有n-Ι条记录的子集都在所 述n-Ι条记录至少有N个字段相同的所述记录组合中。
[0040] 其次提供一种与所述的数据质量检测方法对应的重复数据的数据质量检测装置, 其包括:
[0041]训练集生成单元,对包含多条记录的训练样本的数据值进行分析,生成模型训练 集;
[0042] 样本记录标重单元,分析所述模型训练集中的各个组合对,并通过人工或算法将 所述组合对对应的两条记录标记为记录重复或记录不重复;然后选择是否继续训练,继续 则重新确定所述训练样本并返回所述训练集生成单元,否则进入样本组合筛选单元;
[0043] 样本组合筛选单元,计算一个或多个字段重复则记录重复的概率,并筛选出概率 较大的字段组合作为样本字段组合;
[0044] 检测数据分析单元,对待检测数据的值进行分析,输出每个字段的每个不同值对 应的记录编号;
[0045] 检测数据筛选单元,根据所述样本字段组合对分析过的所述待检测数据进行重复 检测,筛选出所有重复字段满足所述样本字段组合的记录组合。
[0046] 与现有技术比较本发明的有益效果在于:提供了一种重复数据的数据质量检测方 法及装置,这样,相比一般重复检测方法记录两两之间都要进行检测的方式,本通过对字段 组合进行重复可能性的计算,将记录之间的检测转变为对应字段组合内相同记录组合的检 测,无需比较任意两条记录的重复可能性,缩短了时间,提高了检测效率;同时,该方法不限 于检测两条数据完全相同的情况,也可以检测两条数据部分相同的情况,通过对其重复的 概率的计算,根据阈值确定其是否重复;本方法中,数据质量分析者可自行定义两条记录是 否相同的判断条件;本方法可以通过训练样本的选择自动为不同字段添加权重,提供了一 定的灵活性;通过公式可以迅速计算出多字段重复则记录重复的概率,提高了判断速度,节 省了时间,提升了数据质量检测效率,且公式简单,节省了系统资源;生成模型训练集后,可 以将对记录的分析转换为对记录的相同字段的分析,提高后续处理速度;可以消除误差,提 高对重复数据判断的准确性;从待检测数据源提取训练样本,由于训练样本和待检测数据 同源,可以提高对重复数据的判定的准确度。
【附图说明】
[0047] 图1为本发明重复数据的数据质量检测方法的流程图;
[0048] 图2为本发明重复数据的数据质量检测方法中步骤b的流程图;
[0049] 图3为本发明重复数据的数据质量检测方法中步骤b3的流程图;
[0050] 图4为本发明重复数据的数据质量检测方法中步骤d的流程图;
[0051] 图5为本发明重复数据的数据质量检测方法概率计算示意图一;
[0052]图6为本发明重复数据的数据质量检测方法概率计算示意图二;
[0053]图7为本发明重复数据的数据质量检测方法中步骤e的流程图;
[0054]图8为本发明重复数据的数据质量检测方法中步骤f的流程图;
[0055] 图9为本发明重复数据的数据质量检测方法实施例一的流程图;
[0056] 图10为本发明重复数据的数据质量检测方法实施例二的流程图;
[0057] 图11为本发明重复数据的数据质量检测方法实施例三的流程图;
[0058] 图12为本发明重复数据的数据质量检测方法实例部分待检测数据表;
[0059] 图13为本发明重复数据的数据质量检测方法实例部分不同值对应记录编号表;
[0060] 图14为本发明重复数据的数据质量检测方法实例部分组合对字段重复标记表;
[0061] 图15为本发明重复数据的数据质量检测方法实例部分组合对记录重复标记表;
[0062] 图16为本发明重复数据的数据质量检测方法实例保留字段组合;
[0063] 图17为本发明重复数据的数据质量检测装置的结构图;
[0064] 图18为本发明重复数据的数据质量检测装置训练集生成单元的结构图;
[0065] 图19为本发明重复数据的数据质量检测装置记录编号处理模块的结构图;
[0066] 图20为本发明重复数据的数据质量检测装置样本组合筛选单元的结构图;
[0067] 图21为本发明重复数据的数据质量检测装置检测数据分析单元的结构图;
[0068] 图22为本发明重复数据的数据质量检测装置检测数据筛选单元的结构图;
[0069] 图23为本发明重复数据的数据质量检测装置实施例六的结构图;
[0070] 图24为本发明重复数据的数据质量检测装置实施例七的结构图;
[0071] 图25为本发明重复数据的数据质量检测装置实施例八的结构图。
【具体实施方式】
[0
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1