一种重复数据的数据质量检测方法及装置的制造方法_3

文档序号:9727488阅读:来源:国知局
检测数据进行重复检测,筛选出 所有重复字段满足所述样本字段组合的记录组合;
[0130] 本步骤进行重复检测。首先根据步骤d的分析结果检测两条记录的重复字段是否 满足所述的样本字段组合,然后根据得到的满足条件的两条记录组合生成三条记录组合, 继续检测三条记录的重复字段是否满足重述的样本字段组合。重复上述过程直到找不到满 足述的样本字段组合的记录组合。
[0131] 这样,相比一般重复检测方法记录两两之间都要进行检测的方式,本方法通过对 字段组合进行重复可能性的计算,将记录之间的检测转变为对应字段组合内相同记录组合 的检测,无需比较任意两条记录的重复可能性,缩短了时间,提高了检测效率;同时,该方法 不限于检测两条数据完全相同的情况,也可以检测两条数据部分相同的情况,通过对其重 复的概率的计算,根据阈值确定其是否重复;本方法中,数据质量分析者可自行定义两条记 录是否相同的判断条件。
[0132] 另外,本方法可以通过训练样本的选择自动为不同字段添加权重,提供了一定的 灵活性。
[0133] 如图8所示,其为本发明重复数据的数据质量检测方法中步骤f的流程图;其中,所 述步骤f包括:
[0134] 步骤Π ,确定所述样本字段组合中各组合字段数目的最小值N;
[0135] -般情况下,有重复字段的记录组合的数目会随着重复字段数目的增加而减少, 因此需要确定所述样本字段组合中各组合字段数目的最小值N,这样就不需要再搜索重复 字段小于N的记录组合,减少了需要搜索的记录组合的数目,提高了搜索效率。
[0136] 例如,样本字段组合中最少都有4个字段重复的话,则只需要搜索至少有4个字段 重复的记录组合,这样就提高了搜索效率。
[0137] 步骤f2,搜索所述待检测数据的两条记录中至少有N个字段相同的记录组合,检测 并保留在所述样本字段组合内的所述记录组合;
[0138] 所述样本字段组合中各组合字段数目的最小值N,在所述待检测数据的记录组合 中,若记录组合的相同字段数目小于N,则此记录组合一定不在样本字段组合中,因此只搜 索至少有N个字段相同的记录组合,可以减少搜索时间,提高搜索效率。
[0139] 步骤f3,在保留的所述记录组合内根据已知n-Ι条记录至少有N个字段相同的所述 记录组合,查找η条记录至少有N个字段相同的所述记录组合;查找不到则结束;
[0140] 本步骤中,根据已知n-Ι条记录至少有Ν个字段相同的所述记录组合,查找η条记录 至少有Ν个字段相同的所述记录组合,其中必须满足的条件为:
[0141] 1)η条记录组合由n-Ι条记录组合两两结合而成,这两个n-Ι条记录组合中有η-2条 记录是相同的;
[0142] 2)新组合而成的η条记录组合的每一个有n-Ι条记录的子集都在n-Ι条记录至少有 Ν个字段相同的所述记录组合中。
[0143] 这些条件中,条件1)是说η条记录组合是必须由两个包含n-Ι条记录且η-2条记录 相同的组合结合成的,比如说4条记录组合必须是有两个3条记录的组合结合成的,且这两 个3条记录中有2条记录是相同的,这样结合而成的组合中才有4条记录。
[0144] 条件2)是说组合成的η条记录组合有Cr1个有n-1条记录的子集,每一个子集都 可以在之前的n-1条记录的记录组合中找到,也就是说只有在n-1条记录的记录组合中存在 η条记录组合的Cf1个有n-1条记录的子集,才认为可以组成η条记录组合,比如说4条记录 组合(1,2,3,4)有 4个 3 条记录组合的子集((1,2,3),(1,2,4),(1,3,4),(2,3,4)),这4个3条 记录组合都可以在之前的3条记录的组合中找到。
[0145] 3条记录的记录组合中都是至少有Ν个字段相同的记录组合,由其结合而成的4条 记录的记录组合才可能至少有Ν个字段相同;如果4条记录的记录组合(例如1,2,3,4)的其 中一个子集(例如1,2,3)只有Ν-1个字段相同(即不在3条记录至少有Ν个字段相同的记录组 合中),那么此4条记录的记录组合(1,2,3,4)就不可能有Ν个字段相同,最多也就有Ν-1个字 段相同,而且这Ν-1个字段肯定就是子集(1,2,3)的Ν-1个相同字段。因此条件2)是必须成立 的。
[0146] 只有条件1)和条件2)同时成立的情况下,才是需要查找η条记录至少有Ν个字段相 同的所述记录组合。
[0147] 步骤f4,检测并保留在所述样本字段组合内η条记录的所述记录组合,同时在η-1 条记录的所述记录组合中删除保留的η条记录的所述记录组合的所有有η-1条记录的子集; 返回步骤f3。
[0148] 检测步骤f3中查找到的η条记录的所述记录组合,若其相同字段的字段组合在所 述样本字段组合内,则表示这η条记录相同,保留此记录组合;若不在所述样本字段组合内, 则表示这η条记录不相同,删除此记录组合。
[0149] 另外,η条记录的记录组合相同,与其个有η-1条记录的子集中每个子集的η-1条记录都相同,其所表示的含义均相同,均为:这η条记录重复。表达相同含义的只需要保 留一个即可,也即是.qr1个有η-1条记录的记录组合共同结合成了一个有η条记录的记录 组合;因此在保留η条记录的所述记录组合的情况下,需要删除其对应的Cnn^个有η-1条记 录的记录组合。
[0150] 例如,4条记录的组合(1,2,3,4)中相同字段在所述样本字段组合内,则保留组合 (1,2,3,4),并删除其对应的3条记录的4个组合(1,2,3),(1,2,4),(1,3,4),(2,3,4)。
[0151] 通过步骤fl_f4,可以通过逐步计算统计所有可能的字段组合,避免对记录可能的 遗漏。
[0152] 实施例一
[0153] 如上述所述的重复数据的数据质量检测方法,本实施例与其不同之处在于,如图9 本发明重复数据的数据质量检测方法实施例一的流程图所示;所述的数据质量检测方法还 包括:
[0154] 步骤g,输出保留的所述记录组合以及所述记录组合重复的概率,所述步骤g在所 述步骤f之后。
[0155] 本步骤中的输出可以采用不同形式,可以以可视化形式展现,也可以输出检测结 果便于合并记录;其可以输出保留的所有的所述记录组合以及所述记录组合重复的概率, 也可以输出保留的部分的所述记录组合以及所述记录组合重复的概率。
[0156] 实施例二
[0157] 如上述所述的重复数据的数据质量检测方法,本实施例与其不同之处在于,如图 10本发明重复数据的数据质量检测方法实施例二的流程图所示;所述的步骤b还包括:
[0158] 步骤bl,对训练样本的同一字段中的值计算相似度,并将相似度达到或超过阈值 的相似值作为相同值,所述步骤bl在所述步骤b2之前。
[0159] 在这里对各字段中的某些非常相近的值采用某种算法计算相似度,并由数据质量 分析员定义阈值确定相似度达到何种水平时将这些值作为相同值处理。
[0160] 计算相似度的算法为Levenshtein算法,最长公共子序列算法等算法,具体算法可 以根据实际需要进行选择。
[0161] 训练样本中的数据可能会因为误差发生细微的变化,这就使得两条记录的同一个 字段的值很相似但不相同,本步骤的添加可以消除此种误差,提高对重复数据判断的准确 性。
[0162] 实施例三
[0163] 如上述所述的重复数据的数据质量检测方法,本实施例与其不同之处在于,如图 11本发明重复数据的数据质量检测方法实施例三的流程图所示;所述的数据质量检测方法 还包括:
[0164]步骤a,从待检测数据源提取训练样本;所述步骤a在所述步骤b之前;
[0165] 带检测数据源中有多条记录,每条记录都有对应的编号,为记录编号;记录编号按 顺序排列,依次递增;每条记录都分为多个字段:字段1,字段2,字段3,字段4,···,这样相同 字段在每条记录中都有一个值,有多少条记录,则每个字段就有多少个值(这里的值有相同 的,也有不同的),且字段的值的编号与记录的编号对应;这里,字段1的第一个值与第一条 记录的字段1是同一个,其值自然相同。
[0166] 提取的记录数目可以由数据质量分析员自己确定,也可以根据实际需要确定。
[0167] 从待检测数据源提取训练样本,由于训练样本和待检测数据同源,可以提高对重 复数据的判定的准确度。
[0168] 实施例四
[0169] 如上述所述的重复数据的数据质量检测方法,本实施例为其对具体数据的质量检 测实例,具体为:
[0170] S1:该实例部分待检测数据如图12。从待检测数据源提取训练样本,所述样本包含 的记录数由数据质量分析员事先定义,假设为1000。
[0171] S2:对训练样本的数据值进行分析,输出每个字段的每个不同值对应的记录编号, 部分结果如图13所不。
[0172] S2.1:其中字段中的某些值可能非常相近,只是有个别字符不一致,如Col 1中的 laaaa和laaab。可以采取某种方法计算出这些值的相似度,由数据质量分析员设定阈值来 判断这些值是否相同,这里假设laaaa和laaab被判定为相同。
[0173] S2.2:对上述结果进行分析,从每个拥有记录数为2或2以上的值输出组合对,部分 结果如图14所示。该过程具体如下:
[0174] S2 · 2 · 1: Col 1中,laaaa/laaab,lbbbb,leeee三个值有2条记录,可以形成3个组合 对(1,2)、(3,5)和(6,7)。每个组合对为一条记录,并将0)11重复标记置为1,其余标记置为 0〇
[0175] S2.2.2:Col2中,2aaaa和2eeee可以形成两个组合对(1,2)和(6,7),这两个组合对 已经在先前形成的组合对中,则将已经形成的组合对的C 〇12重复标记置为1,表明这些组合 对在Col2重复。2bbbb可以形成三个组合对(3,4),(3,5)和(4,5),其中(3,5)已经在先前形 成的组合对中,处理方式如前。(3,4)和(4,5)是新产生的组合对,形成新的纪录,并将C 〇12 重复标记置为1,其余标记置为0。
[0176] S2.2.3:Col3~Col5如上述方式处理。形成的所有组合对构成重复模型训练集。
[0177] S3:对上述训练集随机输出,同时数据质量分析员开始模型训练过程。具体训练方 法为:每次输出一定数目的组合对及其对应数据,数据质量分析员根据组合对记录的内容 对这些组合对进行标记,即重复或不重复。
[0178] S4:当完成对输出的组合对的标记后,数据质量分析员可以选择是否继续训练模 型。如选是将回到S1重复上述过程,如选否则进行如下过程。
[0179] S5:对几次模型训练标记的组合对进行处理。假设标记过的部分组合对如图15所 示。其中是否重复表示该组合对最终是否被标记为重复记录,其余字段与图14含义相同。
[0180] S5.1:首先计算所有被标记的组合对中各个字段重复的数目X以及各个字段重复 的组合对被标记为重复的数目y。如图15中Co 1
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1