一种基于质量控制的数据填充方法及系统的制作方法_5

文档序号:8905297阅读:来源:国知局
待检索数据的填充 模块2,用于;计算所述数据库中的每个空缺数据的期望值;所述期望值是所述数据库中的 每个数据成为空缺数据的概率;
[0222] 根据计算得到的所述数据库中的每个空缺数据的期望值,计算所述不可推断数据 中的每个空缺数据的解锁分数;所述解锁分数用于评估所述不可推断数据中的每个空缺数 据与所述不可推断数据中的其它空缺数据之间的数据依赖关系的大小;
[0223] 按照所述解锁分数由大到小的顺序依次选择所述不可推断数据中的空缺数据加 入检索集合,直至所述不可推断数据中的空缺数据或者在检索集合中,或者通过检索集合 中的空缺数据推断得到时,将所述检索集合中的空缺数据作为所述待检索数据。
[0224]所述外部资源包括互联网资源。
[02巧]需要说明的是,本实施例的基于质量控制的数据填充系统可W采用上述方法实施 例中的基于质量控制的数据填充方法,可W用于实现上述方法实施例中的全部技术方案, 其各个功能模块的功能可W根据上述方法实施例中的方法具体实现,其具体实现过程可参 照上述实施例中的相关描述,此处不再寶述。
[0226] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。 对于装置类实施例而言,由于其与方法实施例基本相似,所W描述的比较简单,相关之处参 见方法实施例的部分说明即可。
[0227] 专业人员还可W进一步意识到,结合本文中所公开的实施例描述的各示例的单元 及算法步骤,能够w电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和 软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。该些 功能究竟W硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业 技术人员可W对每个特定的应用来使用不同方法来实现所描述的功能,但是该种实现不应 认为超出本发明的范围。
[022引结合本文中所公开的实施例描述的方法或算法的步骤可W直接用硬件、处理器执 行的软件模块,或者二者的结合来实施。软件模块可W置于随机存储器(RAM)、内存、只读存 储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术 领域内所公知的任意其它形式的存储介质中。
[0229] 最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将 一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示该些实体或操作 之间存在任何该种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为该种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并 不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0230] W上对本发明所提供的方案进行了详细介绍,本文中应用了具体个例对本发明的 原理及实施方式进行了阐述,W上实施例的说明只是用于帮助理解本发明的方法及其核屯、 思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围 上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种基于质量控制的数据填充方法,其特征在于,包括: 根据数据库中的已有数据确定所述数据库的空缺数据,构建所述数据库的数据依赖关 系并确定所述数据依赖关系的依赖可信度,重复执行以下步骤,直至所述数据库的空缺数 据被填充完毕: 根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的 可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确 定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推断数 据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阈值时填充所述可 推断数据,从所述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计算检 索可信度,在所述检索可信度大于所述预设阈值时填充所述待检索数据。2. 根据权利要求1所述的方法,其特征在于,所述根据所述数据库中的已有数据和所 述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至少一组不可推断数据,包 括: 从所述数据库的空缺数据中,根据所述数据库中的已有数据和所述数据依赖关系确定 与所述数据库中的已有数据存在数据依赖关系的空缺数据,作为所述数据库的空缺数据中 的可推断数据; 根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据之间 的空缺数据依赖关系; 以所述数据库的各个空缺数据为节点,以各个空缺数据之间的空缺数据依赖关系作为 节点之间的有向边,构建空缺数据依赖图,并根据所述空缺数据依赖图确定所述数据库的 空缺数据中的至少一组不可推断数据。3. 根据权利要求2所述的方法,其特征在于,所述根据所述空缺数据依赖图确定所述 数据库的空缺数据中的至少一组不可推断数据,包括: 从所述空缺数据依赖图的各个节点中,将存在相同空缺数据依赖关系且互相之间不存 在任何数据依赖关系的节点合并为一个节点,进行节点合并; 节点合并之后,对于存在从多个节点指向自身的多个有向边的节点,删除从多个节点 指向自身的多个有向边,生成简化空缺数据依赖图; 从所述简化空缺数据依赖图中,将只具有从自身出发指向其它节点的有向边的节点以 及与其它节点之间不存在任何有向边的节点集合对应的空缺数据作为所述数据库的空缺 数据中的至少一组不可推断数据;所述节点集合包括至少两个节点。4. 根据权利要求1所述的方法,其特征在于,所述根据预设规则从所述至少一组不可 推断数据中确定一组待检索数据,包括: 计算所述数据库中的每个空缺数据的期望值;所述期望值是所述数据库中的每个数据 成为空缺数据的概率; 根据计算得到的所述数据库中的每个空缺数据的期望值,计算所述不可推断数据中的 每个空缺数据的解锁分数;所述解锁分数用于评估所述不可推断数据中的每个空缺数据与 所述不可推断数据中的其它空缺数据之间的数据依赖关系的大小; 按照所述解锁分数由大到小的顺序依次选择所述不可推断数据中的空缺数据加入检 索集合,直至所述不可推断数据中的空缺数据或者在检索集合中,或者通过检索集合中的 空缺数据推断得到时,将所述检索集合中的空缺数据作为所述待检索数据。5. 根据权利要求1所述的方法,其特征在于,所述外部资源包括互联网资源。6. -种基于质量控制的数据填充系统,其特征在于,包括: 构建模块,用于根据数据库中的已有数据确定所述数据库的空缺数据,构建所述数据 库的数据依赖关系并确定所述数据依赖关系的依赖可信度; 填充模块,用于重复执行以下步骤,直至所述数据库的空缺数据被填充完毕: 根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库的空缺数据中的 可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不可推断数据中确 定一组待检索数据,根据所述数据库中的已有数据和所述数据依赖关系推断所述可推断数 据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阈值时填充所述可 推断数据,从所述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计算检 索可信度,在所述检索可信度大于所述预设阈值时填充所述待检索数据。7. 根据权利要求6所述的系统,其特征在于,所述填充模块,包括: 第一确定模块,用于从所述数据库的空缺数据中,根据所述数据库中的已有数据和所 述数据依赖关系确定与所述数据库中的已有数据存在数据依赖关系的空缺数据,作为所述 数据库的空缺数据中的可推断数据; 第二确定模块,用于根据所述数据库中的已有数据和所述数据依赖关系确定所述数据 库的空缺数据之间的空缺数据依赖关系; 第三确定模块,用于以所述数据库的各个空缺数据为节点,以各个空缺数据之间的空 缺数据依赖关系作为节点之间的有向边,构建空缺数据依赖图,并根据所述空缺数据依赖 图确定所述数据库的空缺数据中的至少一组不可推断数据。8. 根据权利要求7所述的系统,其特征在于,所述第三确定模块,包括: 节点合并单元,用于从所述空缺数据依赖图的各个节点中,将存在相同空缺数据依赖 关系且互相之间不存在任何数据依赖关系的节点合并为一个节点,进行节点合并; 有向边修剪单元,用于节点合并之后,对于存在从多个节点指向自身的多个有向边的 节点,删除从多个节点指向自身的多个有向边,生成简化空缺数据依赖图; 查找单元,用于从所述简化空缺数据依赖图中,将只具有从自身出发指向其它节点的 有向边的节点以及与其它节点之间不存在任何有向边的节点集合对应的空缺数据作为所 述数据库的空缺数据中的至少一组不可推断数据;所述节点集合包括至少两个节点。9. 根据权利要求6所述的系统,其特征在于,所述根据预设规则从所述至少一组不可 推断数据中确定一组待检索数据的填充模块,用于:计算所述数据库中的每个空缺数据的 期望值;所述期望值是所述数据库中的每个数据成为空缺数据的概率; 根据计算得到的所述数据库中的每个空缺数据的期望值,计算所述不可推断数据中的 每个空缺数据的解锁分数;所述解锁分数用于评估所述不可推断数据中的每个空缺数据与 所述不可推断数据中的其它空缺数据之间的数据依赖关系的大小; 按照所述解锁分数由大到小的顺序依次选择所述不可推断数据中的空缺数据加入检 索集合,直至所述不可推断数据中的空缺数据或者在检索集合中,或者通过检索集合中的 空缺数据推断得到时,将所述检索集合中的空缺数据作为所述待检索数据。10. 根据权利要求6所述的系统,其特征在于,所述外部资源包括互联网资源。
【专利摘要】本申请公开了一种基于质量控制的数据填充方法,根据数据库中的已有数据确定空缺数据,构建数据库的数据依赖关系并确定数据依赖关系的依赖可信度,根据已有数据和数据依赖关系确定空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从至少一组不可推断数据中确定一组待检索数据,根据已有数据和数据依赖关系推断可推断数据并根据依赖可信度计算推断可信度,推断可信度大于预设阈值时填充可推断数据,从外部资源中检索待检索数据并根据依赖可信度计算检索可信度,检索可信度大于预设阈值时填充待检索数据。推断和检索交替执行能在较小的开销下保证较高的填充准确率,且考虑了数据依赖关系的依赖可信度能够使填充的数据的可信度较高。
【IPC分类】G06F17/24, G06F17/30
【公开号】CN104881487
【申请号】CN201510304863
【发明人】李直旭, 周剑, 杨强, 李洋
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年9月2日
【申请日】2015年6月4日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1