一种重复数据的数据质量检测方法及装置的制造方法_4

文档序号:9727488阅读:来源:国知局
1重复的组合对数目为3,被标记为重复的也 为3Χ〇14重复的组合对数目为7,被标记为重复的为3,依次类推。计算每个字段对应的y/x 值,解释为:字段k相同的记录重复的可能性有多大。假设经过计算最终Coll~C〇15对应的 y/x值依次为〇.4、0.4、0.4、0.3、0.3(因为图中的数据只是训练样本数据中的一部分,因此 无法通过图中的数据计算出准确的值,只能假设以保证后续步骤的顺利进行,不过这样会 使得最后的结果与正确结果相差很大)。
[0181 ] S5.2:数据质量分析员设定阈值,定义记录重复的可能性为多大时判断该记录为 重复记录,假定这个阈值为0.75。接着计算有k个字段相同的记录是同一记录的可能性有多 大,并将这个值与所述阈值比较,高于该阈值的字段组合被留下,如图16所示。
[0182] 以上为重复模型训练过程,接下来利用训练好的模型进行重复检测。
[0183] S6:接收待检测数据和最终留下的字段组合。然后对待检测数据值进行分析,输出 每个字段的每个不同值对应的记录编号,部分结果如图13所示。其中字段中的某些值可能 非常相近,只是有个别字符不一致,如Coll中的laaaa和laaab。可以采取某种方法计算出这 些值的相似度,由数据质量分析员设定阈值来判断这些值是否相同,这里假设laaaa和 laaab被判定为相同。
[0184] S7:进行重复检测。具体过程如下:
[0185] S7.1:由于最终留下的字段组合至少有三个字段,因此最后检测出的重复记录也 至少要有三个字段内容相同。首先搜索两条记录至少有三个字段相同的组合。结果为{(1, 2),3},{(3,5),4},{(6,7),5},{(3,4),4},{(4,5),3},其中小括号外花括号内的数字表示 有几个字段重复。
[0186] S7.2:检测以上记录组合中相同字段组合是否在重复判定条件生成单元14最终留 下的字段组合内,如果不在则删除该记录组合,则K4,5),3}被删除。
[0187] S7.3:在剩余记录组合内查找η条记录至少有三个字段相同的组合,已知前一步n-1条记录至少有三个字段相同的组合。然后检查这些新组合是否至少有三个字段相同。
[0188] S7.4:检测以上η条记录组合中相同字段组合是否在最终留下的字段组合内,如果 不在则删除该记录组合。如果在,不仅要保留该组合,还要在前一步η-1条记录至少有三个 字段相同的组合中删除该组合每一个有η-1条记录的子集。
[0189] S7.5:当检查不到η条记录至少有三个字段相同的组合时,检测过程结束,否则回 至 IJS7.3。
[0190] 在本实施例中,检测步骤终止在S7.2。
[0191] S8:输出检测结果,可以以可视化形式展现,也可以输出检测结果便于合并记录。
[0192] S8.1:可以输出S7步骤保留的所有3条以上记录至少有三个字段相同的组合以及 这些组合可能是重复记录的概率,以及组合中的记录两两之间可能重复的概率。
[0193] S8.2:可以输出S8.1没有输出的S7步骤保留的2条记录至少有三个字段相同的组 合,及这些组合可能是重复记录的概率。
[0194] 如本实施例将输出(1,2),(3,5),(6,7),(3,4)组合对的记录内容(这个结果是通 过中间数据的假设来实现的,因此这个结果和实际应该的结果相差很大),以及这些记录重 复的可能性。
[0195] 实施例五
[0196] 如上述所述的重复数据的数据质量检测方法,本实施例为与其对应的重复数据的 数据质量检测装置。
[0197] 如图17所示,其为本发明重复数据的数据质量检测装置的结构图;其中,所述重复 数据的数据质量检测装置包括:
[0198] 训练集生成单元2,对训练样本的数据值进行分析,生成模型训练集;
[0199] 如图18所示,其为本发明重复数据的数据质量检测装置训练集生成单元的结构 图;其中,所述训练集生成单元2包括:
[0200] 记录编号统计模块22,对训练样本的数据值进行分析,统计每个字段的每个不同 值对应的记录编号;
[0201] 记录编号处理模块23,对每个字段的每个不同值对应的记录编号进行处理,生成 丰吴型训练集
[0202] 生成模型训练集,可以将对记录的分析转换为对记录的相同字段的分析,提高后 续处理速度。
[0203] 如图19所示,其为本发明重复数据的数据质量检测装置记录编号处理模块的结构 图;其中,所述记录编号处理模块23包括:
[0204] 字段一双值标重子模块231,统计字段一的对应两条记录的值,每个值对应的两条 记录为一组合对,将该组合对记录并在字段一添加字段重复标记;
[0205]字段一多值标重子模块232,统计字段一的对应三个或三个以上记录的值,每个值 对应的记录两两组合为一组合对,将该组合对记录并在字段一添加字段重复标记;
[0206]字段二标重子模块233,统计字段二的对应两条或两条以上记录的值,每个值对应 的记录两两组合为一组合对,若该组合对与已记录的组合对相同,则在所述已记录的组合 对的字段二添加字段重复标记;若该组合对与已记录的组合对不同,则将该组合对记录并 在字段二添加字段重复标记;
[0207] 多字段标重子模块234,按照字段二标重子模块233对其他字段进行处理,形成的 所有组合对构成模型训练集。
[0208] 字段一双值标重子模块231_b34仅为生成模型训练集的其中一种装置,这种装置 可以在快速生成模型训练集的同时,避免遗漏或重复某个组合对。
[0209] 样本记录标重单元3,分析所述模型训练集的各个组合对,并通过人工或算法将所 述组合对对应的两条记录标记为记录重复或记录不重复;然后选择是否继续训练,继续则 重新确定所述训练样本并返回训练集生成单元2,否则进入样本组合筛选单元4。
[0210] 模型训练集中的组合对分别对应两条记录,通过输出组合对,对比这两条记录的 实际数据,确认其是否相同,若相同则标记为记录重复,不相同则标记为记录不重复。这里 判断组合对对应的两条记录是否重复,可以由质量分析员通过观察两条记录的具体数据进 行判断,也可以根据算法计算两者相似度来确定。
[0211] 然后可以根据输出组合对的对比情况确定是否需要继续训练或重复训练,若需要 则重新确定所述训练样本并返回训练集生成单元2,然后确定新的所有组合对的两条记录 是否重复,后续分析时综合几次训练的结果,以提高判断的准确率;不需要则进行样本组合 筛选单元4。
[0212] 样本组合筛选单元4,计算一个或多个字段重复则记录重复的概率,并筛选出概率 较大的字段组合作为样本字段组合;
[0213] 如图20所示,其为本发明重复数据的数据质量检测装置样本组合筛选单元的结构 图;其中,所述样本组合筛选单元4包括:
[0214] 单字段重复计算模块41,以某一字段标记字段重复的组合对数目为除数,以该字 段标记字段重复的组合对中同时标记记录重复的数目为被除数,以商为该字段重复则记录 重复的概率,计算字段重复则记录重复的概率;
[0215] 首先计算所有被标记的组合对中各个字段重复的数目X以及各个字段重复的组合 对被标记为重复的数目y,计算每个字段对应的y/x值,解释为:该字段相同的记录重复的概 率。
[0216] 多字段重复计算模块42,根据字段重复则记录重复的概率计算多个字段重复则记 录重复的概率;
[0217] 多个字段重复则记录重复的概率的计算公式为:
[0219] 式中,ρ(1,2,···,1〇为字段1,2,…,k重复则记录重复的概率,其意为若两条记录中 字段l,2,~,k重复,那么此两条记录重复的可能性为?(1,2,~,1〇;? 1、?11、?12、?11{分别为字 段i、il、i2、ik重复则记录重复的概率;il、i2分别表示字段1,2,…,k中任意两个字段的序 号;ik表示字段1,2,…,k中第k个字段的序号,即为字段k的序号。
[0220] 公式的思路为:对要计算的概率的k个字段,从中取出一个,则有k种取法,每种取 法对应的数值为单个的概率Pi;从中取出两个,则有(?个取法,每种取法对应的数值为两 个概率的乘积PiiPi2;…;从中取出k个,则有<^个取法,每种取法对应的数值为k个概率的乘 积PiiPi2 ··· Pik ;每种取法的多个值之和的系数由所取的字段数量决定,从中取出奇数个,则 系数为+1;从中取出偶数个,则系数为-1;这样将这些带有系数的和相加,得到最终的k个字 段重复则记录重复的概率。
[0221] 有益效果:这样,通过公式可以迅速计算出多字段重复则记录重复的概率,提高了 判断速度,节省了时间,提升了数据质量检测效率,且公式简单,节省了系统资源。
[0222] 阈值筛选组合模块43,设置阈值,筛选记录重复概率大于等于该阈值的字段组合 作为样本字段组合。
[0223] 对多字段重复计算模块42中计算得到的多个字段重复则记录重复的概率,需要设 定一个阈值对其进行筛选,阈值可以由人工根据实际情况确定,也可以由计算装置经过严 密计算后确定或经过大量数据统计对比后得出。
[0224]阈值的大小与本发明对重复数据的数据质量检测的准确度有关,阈值越大,本发 明的数据质量检测的准确度就越高。
[0225] 通过公式,将对不同记录的重复判断转换为对重复的概率的计算,从而避免了对 记录的两两重复分别判断,只需要通过对符合规则的组合对进行概率计算,大大提高了判 断的效率。
[0226] 检测数据分析单元5,对待检测数据的值进行分析,输出每个字段的每个不同值对 应的记录编号;
[0227] 此单元与训练集生成单元2相似,不同之处仅在于训练集生成单元2处理的为训练 样本,本单元处理的为待检测数据。
[0228] 如图21所示,其为本发明重复数据的数据质量检测装置检测数据分析单元的结构 图;其中,所述检测数据分析单元5包括:
[0229] 数据相似度计算模块51,对待检测数据的同一字段中的值计算相似度,并将相似 度达到或超过阈值的相似值作为相同值。
[0230] 数据记录统计模块52,对待检测数据的数据值进行分析,统计每个字段的每个不 同值对应的记录编号;
[0231] 检测数据筛选单元6,根据所述样本字段组合对分析过的所述待检测数据进行重 复检测,筛选出所有重复字段满足所述样本字段组合的记录组合;
[0232] 本单元进行重复检测。首先根据样本组合筛选单元4的分析结果检测两条记录的 重复字段是否满足所述的样本字段组合,然后根据得到的满足条件的两条记录组合生成三 条记录组合,继续检测三条记录的重复字段是否满足重述的样本字段组合。重复上述过程 直到找不到满足述的样本字段组合的记录组合。
[0233] 这样,相比一般重复检测记录两两之间都要进行检测的方式,本装置通过对字段 组合进行重复可能性的计算,将记录之间的检测转变为对应字段组合内相同记录组合的检 测,无需比较任意两条记录的重复可能性,缩短了时间,
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1