一种重复数据的数据质量检测方法及装置的制造方法_2

文档序号:9727488阅读:来源:国知局
072] 以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。
[0073] 如图1所示,其为本发明重复数据的数据质量检测方法的流程图;其中,所述重复 数据的数据质量检测方法包括:
[0074] 步骤b,对训练样本的数据值进行分析,生成模型训练集;
[0075] 训练样本中有多条记录,每条记录都有对应的编号,为记录编号;记录编号按顺序 排列,依次递增;每条记录都分为多个字段:字段1,字段2,字段3,字段4,···,这样相同字段 在每条记录中都有一个值,有多少条记录,则每个字段就有多少个值(这里的值有相同的, 也有不同的),且字段的值的编号与记录的编号对应;这里,字段1的第一个值与第一条记录 的字段1是同一个,其值自然相同。
[0076] 所述训练样本可以为数据分析员根据具体情况编写的,也可以从待检测数据中提 取的。
[0077]如图2所示,其为本发明重复数据的数据质量检测方法中步骤b的流程图;其中,所 述步骤b包括:
[0078] 步骤b2,对训练样本的数据值进行分析,统计每个字段的每个不同值对应的记录 编号;
[0079] 同一字段有多个值,这些值中有相同的,也有不同的;将相同的值进行合并,并添 加合并的记录编号,这样同一字段有多个不同值,每个值后面都标注有至少一个记录编号;
[0080] 根据上述方法统计所有字段,得出每个字段的每个不同值对应的记录编号。
[0081] 步骤b3,对每个字段的每个不同值对应的记录编号进行处理,生成模型训练集;
[0082] 所述模型训练集为任意两条有重复字段的记录及其重复字段的标记。上述统计的 每个字段的每个不同值对应的记录编号,若值对应的记录编号为两个,则此两条记录为一 组合对,且在组合对的该字段处添加字段重复标记;若值对应的记录编号为三个或三个以 上,则将此值对应的记录编号两两组合为一组合对,且在组合对的对应字段处添加字段重 复标记;将相同的组合对合并,合并的组合对的字段重复标记为合并前的字段重复标记的 之和,最终生成模型训练集。
[0083] 若值对应的记录编号为两个,则得到一个组合对;若值对应的记录编号为三个,则 三个记录两两组合得到三个组合对;若值对应的记录编号为四个,则四个记录两两组合得 到六个组合对;若值对应的记录编号为N个,则N个记录两两组合得到Cg个组合对。
[0084] 生成模型训练集后,可以将对记录的分析转换为对记录的相同字段的分析,提高 后续处理速度。
[0085] 如图3所示,其为本发明重复数据的数据质量检测方法中步骤b3的流程图;其中, 所述步骤b3具体步骤可以为:
[0086] 步骤b31,统计字段一的对应两条记录的值,每个值对应的两条记录为一组合对, 将该组合对记录并在字段一添加字段重复标记;
[0087] 步骤b32,统计字段一的对应三个或三个以上记录的值,每个值对应的记录两两组 合为一组合对,将该组合对记录并在字段一添加字段重复标记;
[0088] 步骤b33,统计字段二的对应两条或两条以上记录的值,每个值对应的记录两两组 合为一组合对,若该组合对与已记录的组合对相同,则在所述已记录的组合对的字段二添 加字段重复标记;若该组合对与已记录的组合对不同,则将该组合对记录并在字段二添加 字段重复标记;
[0089]步骤b34,按照步骤b33对其他字段进行处理,形成的所有组合对构成模型训练集。
[0090] 步骤b31_b34仅为生成模型训练集的其中一种方法,这种方法可以在快速生成模 型训练集的同时,避免遗漏或重复某个组合对。
[0091] 步骤c,分别所述模型训练集的各个组合对,并通过人工或算法将所述组合对对应 的两条记录标记为记录重复或记录不重复;然后选择是否继续训练,继续则重新确定所述 训练样本并返回步骤b,否则进入步骤d;
[0092] 模型训练集中的组合对分别对应两条记录,通过输出组合对,对比这两条记录的 实际数据,确认其是否相同,若相同则标记为记录重复,不相同则标记为记录不重复。这里 判断组合对对应的两条记录是否重复,可以由质量分析员通过观察两条记录的具体数据进 行判断,也可以根据算法计算两者相似度来确定。
[0093] 然后可以根据输出组合对的对比情况确定是否需要继续训练或重复训练,若需要 则重新确定所述训练样本并返回步骤b,然后确定新的所有组合对的两条记录是否重复,后 续分析时综合几次训练的结果,以提高判断的准确率;不需要则进行步骤d。
[0094] 步骤d,计算一个或多个字段重复则记录重复的概率,并筛选出概率较大的字段组 合作为样本字段组合;
[0095] 如图4所示,其为本发明重复数据的数据质量检测方法中步骤d的流程图;其中,所 述步骤d包括:
[0096] 步骤dl,以某一字段标记字段重复的组合对数目为除数,以该字段标记字段重复 的组合对中同时标记记录重复的数目为被除数,以商为该字段重复则记录重复的概率,计 算字段重复则记录重复的概率;
[0097] 首先计算所有被标记的组合对中各个字段重复的数目X以及各个字段重复的组合 对被标记为重复的数目y,计算每个字段对应的y/x值,解释为:该字段相同的记录重复的概 率。
[0098]模型训练集中的每个组合对都有多个字段,为字段一,字段二,字段三,字段 四,…,每个组合对都至少有一个字段重复。同时,每个字段都有多个组合对,其至少在一个 组合对中重复。
[0099] 每个组合对都对应两条记录;每个组合对都有一个记录重复标记或记录不重复标 记;这样,每个组合对至少有一个字段重复,且同时有一个记录重复标记或者记录不重复标 记。
[0100] 这样,每个字段都有多个在该字段标记为字段重复的组合对,而这些组合对中一 部分被标记为记录重复;后者除以前者,为该字段重复则记录重复的可能性(概率)。
[0101] 如所有的组合对中字段一重复的为X个,这X个组合对中被标记为记录重复的组合 对的数目为y个,则该字段重复则记录重复的概率为y/χ。
[0102] 步骤d2,根据字段重复则记录重复的概率计算多个字段重复则记录重复的概率;
[0103] 多个字段重复则记录重复的概率的计算公式为:
[0105] 式中,ρ(1,2,···,1〇为字段1,2,…,k重复则记录重复的概率,其意为若两条记录中 字段l,2,~,k重复,那么此两条记录重复的可能性为?(1,2,~,1〇;? 1、?11、?12、?11{分别为字 段i、il、i2、ik重复则记录重复的概率;il、i2分别表示字段1,2,…,k中任意两个字段的序 号;ik表不字段1,2,…,k中第k个字段的序号。
[0106] 公式的思路为:对要计算的概率的k个字段,从中取出一个,则有k种取法,每种取 法对应的数值为单个的概率p1;从中取出两个,则有(?个取法,每种取法对应的数值为两个 概率的乘积PliPl2;···;从中取出k个,则有(?个取法,每种取法对应的数值为k个概率的乘 积PiiPi2…Pik ;每种取法的多个值之和的系数由所取的字段数量决定,从中取出奇数个,则 系数为+1;从中取出偶数个,则系数为-1;这样将这些带有系数的和相加,得到最终的k个字 段重复则记录重复的概率。
[0107] 当k为2时,
[0108] p(l ,2) =ρι+ρ2~ριρ2
[0109] 如图5所示,其为本发明重复数据的数据质量检测方法概率计算示意图一;其中, P1P2为圆pi、P2|3tl重复区域,需要减去,才得到总面积p( 1,2)。
[0110] 当 k为3时,PW2P3
[0111] p( 1,2,3) =P1+P2+P3-P1P2-P1P3-P2P3+P1P2P3
[0112] 如图6所示,其为本发明重复数据的数据质量检测方法概率计算示意图二;其中, P1P2为圆P1、P2的重复区域,P1P3为圆P1、P3的重复区域,P2P3为圆P2、P3的重复区域,需要减去; P1P2P3为圆P1、P2、P3的重复区域,已经多次减去,需要加上,才得到总面积P( 1,2,3)。
[0113] 有益效果:这样,通过公式可以迅速计算出多字段重复则记录重复的概率,提高了 判断速度,节省了时间,提升了数据质量检测效率,且公式简单,节省了系统资源。
[0114] 步骤d3,设置阈值,筛选记录重复概率大于等于该阈值的字段组合作为样本字段 组合。
[0115] 对步骤d2中计算得到的多个字段重复则记录重复的概率,需要设定一个阈值对其 进行筛选,阈值可以由人工根据实际情况确定,也可以由计算装置经过严密计算后确定或 经过大量数据统计对比后得出。
[0116]阈值的大小与本发明对重复数据的数据质量检测的准确度有关,阈值越大,本发 明的数据质量检测的准确度就越高。
[0117] 假设待检测数据有η个字段,则其中l〈k< η。设置阈值后,保留重复可能性大于该 阈值的字段组合。这些被保留的字段组合作为样本字段组合用于后续重复检测。
[0118] 通过公式,将对不同记录的重复判断转换为对重复的概率的计算,从而避免了对 记录的两两重复分别判断,只需要通过对符合规则的组合对进行概率计算,大大提高了判 断的效率。
[0119] 步骤e,对待检测数据的值进行分析,输出每个字段的每个不同值对应的记录编 号;
[0120] 此步骤与步骤b相似,不同之处仅在于步骤b处理的为训练样本,本步骤处理的为 待检测数据。
[0121] 待检测数据中有多条记录,每条记录都有对应的编号,为记录编号;记录编号按顺 序排列,依次递增;每条记录都分为多个字段:字段1,字段2,字段3,字段4,···,这样相同字 段在每条记录中都有一个值,有多少条记录,则每个字段就有多少个值(这里的值有相同 的,也有不同的),且字段的值的编号与记录的编号对应;这里,字段1的第一个值与第一条 记录的字段1是同一个,其值自然相同。
[0122] 如图7所示,其为本发明重复数据的数据质量检测方法中步骤e的流程图;其中,所 述步骤e包括:
[0123] 步骤el,对待检测数据的同一字段中的值计算相似度,并将相似度达到或超过阈 值的相似值作为相同值;
[0124] 在这里对各字段中的某些非常相近的值采用某种算法计算相似度,并由数据质量 分析员定义阈值确定相似度达到何种水平时将这些值作为相同值处理。
[0125] 计算相似度的算法为Levenshtein算法,最长公共子序列算法等算法,具体算法可 以根据实际需要进行选择。
[0126] 步骤e2,对待检测数据的数据值进行分析,统计每个字段的每个不同值对应的记 录编号;
[0127] 同一字段有多个值,这些值中有相同的,也有不同的;将相同的值进行合并,并添 加合并的记录编号,这样同一字段有多个不同值,每个值后面都标注有至少一个记录编号;
[0128] 根据上述方法统计所有字段,得出每个字段的每个不同值对应的记录编号。
[0129] 步骤f,根据所述样本字段组合对分析过的所述待
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1