一种基于质量控制的数据填充方法及系统的制作方法_2

文档序号:8905297阅读:来源:国知局
载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下, 还可W根据该些附图获得其他的附图。
[0045] 图1为本申请提供的基于质量控制的数据填充方法的样例数据表W及数据依赖 关系的不意图;
[0046] 图2为本申请实施例提供的基于质量控制的数据填充方法的交互过程的示意图;
[0047] 图3为本申请实施例提供的基于质量控制的数据填充方法的构建简化空缺数据 依赖图的过程的示意图;
[0048] 图4为本申请提供的基于质量控制的数据填充方法的一种实施例的流程示意图;
[0049] 图5为本申请提供的基于质量控制的数据填充方法的另一种实施例的流程示意 图;
[0050] 图6-图10分别为本申请提供的基于质量控制的数据填充方法与现有技术的实验 数据对比图;
[0化1] 图11为本申请提供的基于质量控制的数据填充方法的质量控制阔值的选择示意 图;
[0052] 图12为本申请提供的基于质量控制的数据填充系统的一种实施例的结构示意 图;
[0053] 图13为本申请提供的基于质量控制的数据填充系统的另一种实施例的结构示意 图。
【具体实施方式】
[0054] 为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合附图,对 本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施 例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0055] 下面结合附图,对本申请的实施方案进行详细描述。
[0056] 图1为本申请提供的基于质量控制的数据填充方法的样例数据表W及数据依赖 关系的不意图。
[0057] 图4为本申请提供的基于质量控制的数据填充方法的一种实施例的流程示意图。 [0化引参照图4所示,本申请实施例提供的基于质量控制的数据填充方法包括:
[0059] 步骤S100 ;根据数据库中的已有数据确定所述数据库的空缺数据,构建所述数据 库的数据依赖关系并确定所述数据依赖关系的依赖可信度;
[0060] 在本申请实施例中,首先给出方案用到的定义:
[0061] 1.对于数据表中的属性X,Y,满足属性依赖X-Y。如果表中存在某些元组违反此 约束条件,则称此属性依赖X-Y为近似属性依赖^f为表中数据满足约束X-Y 的可信程度,即依赖可信度。那么,基于该近似属性依赖关系的推断规则和检索查询的可信 度也为f。
[00创 2.推断可信度;给定近似属性依赖X-Y,元组Ti和T班属性X和Y上的表达式 为:
[0063]
[0064] T2在Y上的值为空,该里用方块表示。推断得到的结果□=yi的推断可信度由W 下公式给出:
[00 化]
[0066]即推断规则及使用的值的可信度乘积,此勿
表示元组Ti在属性X上的值Xi 的推断可信度为^'(、)。
[0067] 3.检索可信度;给定近似属性依赖X-Y,元组Ti在属性X和Y上的表达式为;
[0068]
检索得到的结果□=yi的检索可信度定义为:
[0069]
[0070] 即检索规则与使用的值的可信度乘积。
[0071] 在本申请实施例中,由于数据库中存在已有数据,则除去已有数据,即为空缺数 据。而且同一数据库中的所有数据之间通常包含一定的数据依赖关系。
[0072] 该里的数据依赖关系包括已有数据和空缺数据之间的依赖关系,已有数据和已有 数据之间的依赖关系,W及空缺数据和空缺数据之间的依赖关系。
[0073] 步骤S200 ;根据所述数据库中的已有数据和所述数据依赖关系确定所述数据库 的空缺数据中的可推断数据和至少一组不可推断数据,并根据预设规则从所述至少一组不 可推断数据中确定一组待检索数据;
[0074] 在本申请实施例中,"可推断数据"是指可W根据数据依赖关系由已有数据推断出 的空缺数据,可推断数据与已有数据之间存在数据依赖关系。
[0075] 比如;一个地址数据集中,包含数据依赖关系"城市名称可W决定省份名称",则在 该地址数据集其中一个元组中写着"学校='南京大学',城市='南京',省份='江苏'",而 另外一个元组写着"学校='南航',城市='南京',省份(即第二个元组的省份为空 缺信息),那么我们就可W根据数据依赖关系把第二个元组中空缺的省份推断为"江苏"。
[0076] 在本申请实施例中,"不可推断数据"是无法直接由已有数据推断出的空缺数据, 与已有数据之间并不存在直接的数据依赖关系。
[0077] 另外,"不可推断数据"作为空缺数据的一部分,可能与其它的空缺数据之间存在 数据依赖关系,也可能与其它的空缺数据之间不存在数据依赖关系。
[007引当"不可推断数据"与其它的空缺数据之间存在数据依赖关系时,"不可推断数据" 被填充W后,即可根据被填充的"不可推断数据"(被填充后即为已有数据)来推断其它的 空缺数据,当"不可推断数据"与其它的空缺数据之间不存在数据依赖关系时,即便被填充 也无法推断其它的空缺数据。
[0079] 步骤S300 ;根据所述数据库中的已有数据和所述数据依赖关系推断所述可推断 数据并根据所述依赖可信度计算推断可信度,在所述推断可信度大于预设阔值时填充所述 可推断数据,从所述数据库的外部资源中检索所述待检索数据并根据所述依赖可信度计算 检索可信度,在所述检索可信度大于所述预设阔值时填充所述待检索数据;
[0080] 在本申请实施例中,将"根据所述数据库中的已有数据和所述数据依赖关系推断 并填充所述可推断数据"称为推断步骤,将"从所述数据库的外部资源中检索并填充所述待 检索数据"称为检索步骤。
[0081] 由于"可推断数据"是指可W根据数据依赖关系由已有数据推断出的空缺数据,可 推断数据与已有数据之间存在数据依赖关系,所W可W直接由已有数据和所述数据依赖关 系推断出"可推断数据",然后填充,则填充后的"可推断数据"即成为已有数据。
[0082] 同时,由于"不可推断数据"是无法直接由已有数据推断出的空缺数据,与已有数 据之间并不存在直接的数据依赖关系,所W从外部资源比如互联网资源中查找该"不可推 断数据"并填充,可W保证所填充的数据的准确性。
[0083] 可W理解的是,本申请实施例中,当一次推断就填充了所有的空缺数据时,即可省 去后续的检索步骤,而当没有可推断的数据时,也可W先进行检索步骤再进行推断步骤,本 实施例中的步骤标号并不用作对方法实施顺序的限定。
[0084] 步骤S400 ;判断所述数据库的空缺数据是否被填充完毕;如果否,返回步骤S200 ; 如果是,结束。
[0085] 本申请实施例提出一种基于质量控制的数据填充方法,根据数据库中的已有数据 确定所述数据库的空缺数据,并构建所述数据库中所有数据之间的数据依赖关系,重复执 行W下步骤,直至所述数据库的空缺数据被填充完毕;根据所述数据库中的已有数据和所 述数据依赖关系确定所述数据库的空缺数据中的可推断数据和至少一组不可推断数据,并 根据预设规则从所述至少一组不可推断数据中确定一组待检索数据,根据所述数据库中的 已有数据和所述数据依赖关系推断并填充所述可推断数据,从所述数据库的外部资源中检 索并填充所述待检索数据。
[0086] 该方法交替使用推断和检索来填充数据:
[0087] 比如;所述数据依赖关系确定所述数据库的空缺数据中的可推断数据确定待填充 到所述数据库中的所有空缺数据中的第一可推断数据组和第一待检索数据组;根据所述数 据依赖关系推断并填充所述第一可推断数据组中的数据,从所述数据库的外部资源中检索 并填充所述第一待检索数据组中的数据,并确定所述数据库中的第一剩余空缺数据;根据 所述数据依赖关系,确定所述第一剩余空缺数据中的第二可推断数据组和第二待检索数据 组;根据所述数据依赖关系推断并填充所述第二可推断数据组中的数据,从所述数据库的 外部资源中检索并填充所述第二待检索数据组中的数据,并确定所述数据库中的第二剩余 空缺数据;依次类推,直至待填充到所述数据库中的所有空缺数据被填充完毕。
[008引目P;推断并填充所述数据库中的第一组空缺数据,从所述数据库的外部资源中检 索并填充所述数据库中的第二组空缺数据;根据所述已有数据、所述第一组空缺数据和所 述第二组空缺数据,推断并填充所述数据库中的第=组空缺数据,从所述数据库的外部资 源中检索并填充所述数据库中的第四组空缺数据;依次类推,直至待填充到所述数据库中 的空缺数据被填充完毕。
[0089] 下面举例说明:本申请实施例提供的基于质量控制的数据填充方法的交互过程如 图2所示;
[0090] (1)0.8-SDI(注;SDI;StochasticDataImputation为有质量控制的交互式填补的 英文简称,其中的0.8为质量控制阔值,即为本申请实施例中的预设阔值)方法的交互过程 如下图所示;
[0091] (2)第一次推断步骤(图2(a));根据表中已有数据化及图2(b)中的依赖关系,可 W推断出Ti圧]、Ti的、T2巧]的值分别为bi、61、fi,可信度分别为0. 95、0. 95、0. 90。
[009引 做第一次检索步骤(图2化));假设检索到Ts巧]、Ts出]的值分别为b2、b3,对应 的可信度分别为0.95、0.95。
[0093] (4)第二次的推断因为阔值0.8的限制,导致不存在可W推测的数据。
[0094] 妨第二次检索步骤(图2(c));检索到T3[C]、Ts脚的值分别为C2、d2,对应的可 信度分别为0.95、0.95。
[0095] (6)第S次推断步骤(图2(d));根据第二次检索到的值W及表的依赖关系,可W 推断TJC]、TJD]的值分别为〇3、ds,对应的可信度分别为0. 95、0. 95。
[0096] (7)第立次检索步骤(图2(e));检索到T4圧]、Ts圧]的值都为62,对应的可信度 都为1(该里省略不写)。
[0097] 做第立次检索步骤(图2讯);根据第立次检索得到的T4圧]和Ts圧]的值W及 属性E和F的依赖关系,可W推理出T4 [円、Tg[円的值都是f2,对应的可信度都为1 (该里省 略不写)。至此,所有空缺值填充结束。
[009引当一次推断步骤最大程度地填充所有可推断的空缺数据后,接下来的检索步骤可W检索到一系列不可推断的空缺数据,从而使得在下一次推断步骤中一些剩余的空缺数据 可W推断出来。连续重复该两个步骤直到出现结束条件比如没有可W填充的空缺数据
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1