一种基于质量控制的数据填充方法及系统的制作方法

文档序号:8905297阅读:287来源:国知局
一种基于质量控制的数据填充方法及系统的制作方法
【技术领域】
[0001] 本申请设及数据库处理技术领域,特别是设及一种基于质量控制的数据填充方法 及系统。
【背景技术】
[0002] 通常,在各类数据库的数据源中,往往会存在一些空缺信息,有些是因为原始数据 的缺失造成的,有些是因为操作上的失误造成的。该些数据库中的空缺信息会造成数据不 完整,是各类数据库中一个较为普遍的问题,数据填充技术的提出就是希望通过一些技术 手段来估算、预测、或者找回数据源中的空缺信息。
[0003] 现有的针对字符串型数据的数据填充方法通常可分为两类;基于推理的数据填充 方法和基于检索的数据填充方法。
[0004] 基于推理的数据填充方法主要是结合一些给定的数据质量规则(比如 化nctional Dependencies属性依赖关系),从数据集的其他部分推理出空缺处的空缺信 息。比如在一个地址数据集中,已知依赖关系"城市名称可W决定省份名称",在数据集其中 一个元组中写着"学校='南京大学',城市='南京',省份='江苏'",而另外一个元组写着 "学校='南航',城市='南京',省份(即第二个元组的省份为空缺信息),那么我们 就可W根据依赖关系把第二个元组中空缺的省份填写为"江苏"。
[0005] 基于检索的数据填充方法主要是从外部资源比如网络中检索获取空缺处的空缺 信息。当数据集中的空缺信息在万维网中存在时,该方法可W准确查找到空缺信息并填充 到数据集中的空缺处。
[0006] 然而,基于推理的数据填充方法的主要缺点体现在对于唯一的空缺信息的填补 上,也就是在数据集中的完整部分没有出现与该空缺信息相应的信息的话,那么就不可能 准确地推断和填充该空缺信息,造成数据填充的准确率低;而基于检索的数据填充方法虽 然能够准确填充空缺信息,提高数据填充的准确率,但其在对空缺信息进行检索时,需要在 外部资源中进行海量的检索查询,该会产生大量的检索查询操作,相应地就会造成很大的 系统开销。
[0007] 而且,上述方法均未考虑数据集中的数据依赖关系的可信度导致填充的数据的质 量控制问题,会导致填充的数据的可信度不高。

【发明内容】

[000引有鉴于此,本申请提供一种基于质量控制的数据填充方法及系统,W实现在较小 的系统开销下获得较高的数据填充准确率,并且提高所填充的数据的可信度。
[0009] 为了实现上述目的,本申请实施例提供的技术方案如下:
[0010] 一种基于质量控制的数据填充方法,包括:
[0011] 根据数据库中的已有数据确定所述数据库的空缺数据,构建所述数据库的数据依 赖关系并确定所述数据依赖关系的依赖可信度,重复执行W下步骤,直至所述数据库的空 缺数据被填充完毕:
[0012] 根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据 中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据 中确定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推 断数据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阔值时填充所 述可推断数据,从所述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计 算检索可信度,在所述检索可信度大于所述预设阔值时填充所述待检索数据。
[0013] 优选地,所述根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库 的空缺数据中的可推断数据和至少一组不可推断数据,包括:
[0014] 从所述数据库的空缺数据中,根据所述数据库中的已有数据和所述数据依赖关系 确定与所述数据库中的已有数据存在数据依赖关系的空缺数据,作为所述数据库的空缺数 据中的可推断数据;
[0015] 根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据 之间的空缺数据依赖关系;
[0016] W所述数据库的各个空缺数据为节点,W各个空缺数据之间的空缺数据依赖关系 作为节点之间的有向边,构建空缺数据依赖图,并根据所述空缺数据依赖图确定所述数据 库的空缺数据中的至少一组不可推断数据。
[0017] 优选地,所述根据所述空缺数据依赖图确定所述数据库的空缺数据中的至少一组 不可推断数据,包括:
[0018] 从所述空缺数据依赖图的各个节点中,将存在相同空缺数据依赖关系且互相之间 不存在任何数据依赖关系的节点合并为一个节点,进行节点合并;
[0019] 节点合并之后,对于存在从多个节点指向自身的多个有向边的节点,删除从多个 节点指向自身的多个有向边,生成简化空缺数据依赖图;
[0020] 从所述简化空缺数据依赖图中,将只具有从自身出发指向其它节点的有向边的节 点W及与其它节点之间不存在任何有向边的节点集合对应的空缺数据作为所述数据库的 空缺数据中的至少一组不可推断数据;所述节点集合包括至少两个节点。
[0021] 优选地,所述根据预设规则从所述至少一组不可推断数据中确定一组待检索数 据,包括:
[0022] 计算所述数据库中的每个空缺数据的期望值;所述期望值是所述数据库中的每个 数据成为空缺数据的概率;
[0023] 根据计算得到的所述数据库中的每个空缺数据的期望值,计算所述不可推断数据 中的每个空缺数据的解锁分数;所述解锁分数用于评估所述不可推断数据中的每个空缺数 据与所述不可推断数据中的其它空缺数据之间的数据依赖关系的大小;
[0024] 按照所述解锁分数由大到小的顺序依次选择所述不可推断数据中的空缺数据加 入检索集合,直至所述不可推断数据中的空缺数据或者在检索集合中,或者通过检索集合 中的空缺数据推断得到时,将所述检索集合中的空缺数据作为所述待检索数据。
[0025] 优选地,所述外部资源包括互联网资源。
[0026] 一种基于质量控制的数据填充系统,包括:
[0027] 构建模块,用于根据数据库中的已有数据确定所述数据库的空缺数据,构建所述 数据库的数据依赖关系并确定所述数据依赖关系的依赖可信度;
[002引填充模块,用于重复执行W下步骤,直至所述数据库的空缺数据被填充完毕:
[0029] 根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据 中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据 中确定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推 断数据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阔值时填充所 述可推断数据,从所述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计 算检索可信度,在所述检索可信度大于所述预设阔值时填充所述待检索数据。
[0030] 优选地,所述填充模块,包括:
[0031] 第一确定模块,用于从所述数据库的空缺数据中,根据所述数据库中的已有数据 和所述数据依赖关系确定与所述数据库中的已有数据存在数据依赖关系的空缺数据,作为 所述数据库的空缺数据中的可推断数据;
[0032] 第二确定模块,用于根据所述数据库中的已有数据和所述数据依赖关系确定所述 数据库的空缺数据之间的空缺数据依赖关系;
[0033] 第=确定模块,用于W所述数据库的各个空缺数据为节点,W各个空缺数据之间 的空缺数据依赖关系作为节点之间的有向边,构建空缺数据依赖图,并根据所述空缺数据 依赖图确定所述数据库的空缺数据中的至少一组不可推断数据。
[0034] 优选地,所述第=确定模块,包括:
[0035] 节点合并单元,用于从所述空缺数据依赖图的各个节点中,将存在相同空缺数据 依赖关系且互相之间不存在任何数据依赖关系的节点合并为一个节点,进行节点合并;
[0036] 有向边修剪单元,用于节点合并之后,对于存在从多个节点指向自身的多个有向 边的节点,删除从多个节点指向自身的多个有向边,生成简化空缺数据依赖图;
[0037] 查找单元,用于从所述简化空缺数据依赖图中,将只具有从自身出发指向其它节 点的有向边的节点W及与其它节点之间不存在任何有向边的节点集合对应的空缺数据作 为所述数据库的空缺数据中的至少一组不可推断数据;所述节点集合包括至少两个节点。 [003引优选地,所述根据预设规则从所述至少一组不可推断数据中确定一组待检索数据 的填充模块,用于:计算所述数据库中的每个空缺数据的期望值;所述期望值是所述数据 库中的每个数据成为空缺数据的概率;
[0039] 根据计算得到的所述数据库中的每个空缺数据的期望值,计算所述不可推断数据 中的每个空缺数据的解锁分数;所述解锁分数用于评估所述不可推断数据中的每个空缺数 据与所述不可推断数据中的其它空缺数据之间的数据依赖关系的大小;
[0040] 按照所述解锁分数由大到小的顺序依次选择所述不可推断数据中的空缺数据加 入检索集合,直至所述不可推断数据中的空缺数据或者在检索集合中,或者通过检索集合 中的空缺数据推断得到时,将所述检索集合中的空缺数据作为所述待检索数据。
[0041] 优选地,所述外部资源包括互联网资源。
[0042] 由W上本申请提供的一种基于质量控制的数据填充方法,根据数据库中的已有数 据确定所述数据库的空缺数据,构建所述数据库的数据依赖关系并确定所述数据依赖关系 的依赖可信度,重复执行W下步骤,直至所述数据库的空缺数据被填充完毕:根据所述数 据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至 少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确定一组待检索数 据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推断数据并根据所述依 赖可信度计算推断可信度,在所述推断可信度大于预设阔值时填充所述可推断数据,从所 述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计算检索可信度,在所 述检索可信度大于所述预设阔值时填充所述待检索数据。该样,通过推断和检索的交替执 行,高效且高质量地实现数据集中空缺数据的填充,可W实现在较小的系统开销下获得较 高的数据填充准确率。
[0043] 而且,由于本方法在填充数据时充分考虑了数据依赖关系的依赖可信度,并根据 依赖可信度计算推断的数据的推断可信度和检索的数据的检索可信度,只有在推断可信度 大于预设阔值时才填充推断的数据,在检索可信度大于预设阔值时才填充检索的数据,该 样能够保证填充的数据得到良好的质量控制,使得填充的数据的可信度较高。
【附图说明】
[0044] 为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 申请中记
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1