用于检测数据源中的偏差的方法、设备和计算机程序的制作方法_4

文档序号:8435853阅读:来源:国知局
02),用于标识数据公布对,每一对包括第一数据源(830)中的第一数据公 布和第二数据源(840)中的第二数据公布,其中,针对数据公布对中的第一数据公布和第 二数据公布的唯一匹配数据属性,数据值的子集相等; 确定单元(804),用于确定所述多个数据公布对中的每一个数据公布对中的第一数据 公布的数据值和第二数据公布的数据值的多个组合中的个体组合是否满足多个关系模式 算法中的个体关系模式算法,以及用于确定针对所述多个数据公布对所确定的关系模式算 法的满足的符合性水平, 选择单元(806),用于基于所确定的符合性水平,从所述多个关系模式算法中选择关系 模式算法;以及 分析单元(808),用于关于所选择的关系模式算法分析个体数据公布对的数据值组合, 以检测个体数据公布对中不符合所选择的关系模式算法的数据值组合,不符合指示个体数 据公布对的数据的可能偏差。
13. 根据权利要求12所述的设备,其中,所述确定单元(804)被配置为针对与所述多个 数据公布对的相同数据属性组合有关的数据值的组合来确定所述符合性水平。
14. 根据权利要求12或13所述的设备,其中,所述确定单元(804)被配置为确定满足 包括:所述确定单元被配置为针对所述多个数据公布对中的每一个数据公布对,在比较矩 阵H xy中将所述多个数据公布对中的每一个数据公布对中的第一数据公布的数据值与第二 数据公布的数据值进行组合,其中,X指示所述第一数据公布的数据属性的数量并且同时指 示所述矩阵的列的数量,y指示所述第二数据公布的数据属性的数量并且同时指示所述矩 阵的行的数量。
15. 根据权利要求12至14中任一项所述的设备,其中,针对所述多个数据公布对,所述 相同数据属性组合涉及所述比较矩阵Hxy中的相同位置n ab,其中,a =整数1至X中的任意 一个,b =整数1至y中的任意一个。
16. 根据权利要求12至15中任一项所述的设备,其中,所述选择单元(806)被配置为 通过基于所确定的符合性水平,针对与所述多个数据公布对的相同数据属性组合有关的数 据值的组合分别选择关系模式算法,来选择关系模式算法。
17. 根据权利要求12至16中任一项所述的设备,还包括: 确定单元(809),用于检测所述第一数据源中数据值唯一的至少一个数据属性以及检 测所述第二数据源中数据值唯一的至少一个数据属性,以及 所述选择单元(806)被进一步配置用于从所检测的所述第一数据源中的至少一个数 据属性和所检测的所述第二数据源中的至少一个数据属性中选择所述第一数据源中具有 最多共同数据值的数据属性和所述第二数据源中具有最多共同数据值的数据属性,作为所 述第一数据源的唯一匹配数据属性和所述第二数据源的唯一匹配数据属性。
18. 根据权利要求12至17中任一项所述的设备,还包括: 排序单元,用于按所述唯一匹配数据属性的数据值的递增或递减数据值顺序对所述第 一数据源(830)和/或所述第二数据源(840)中的数据公布进行排序。
19. 根据权利要求12至18中任一项所述的设备,其中,所述检测单元(809)被进一步 配置为针对所述第一数据源(830),通过针对确定所述第一数据源的数据属性的数据值的 特性的值类型算法集暴露数据值来检测所述数据属性的元数据,并且针对所述第二数据源 (840),通过针对确定所述第二数据源的数据属性的数据值的特性的值类型算法集暴露数 据值来检测所述数据属性的元数据。
20. 根据权利要求17或18以及权利要求19所述的设备,其中,所述检测单元(809)被 配置为通过检测所述第一数据源中数据值唯一的至少一个数据属性来检测所述第一数据 源的元数据,并且所述检测单元(809)被配置为通过检测所述第二数据源中数据值唯一的 至少一个数据属性来检测所述第二数据源的元数据。
21. 根据权利要求12至20中任一项所述的设备,其中,所述选择单元(806)被配置为 仅当所述多个关系模式算法中存在所确定的符合性水平高于定义阈值的关系模式算法时 才执行基于所确定的符合性水平从所述多个关系模式算法中选择关系模式算法。
22. 根据权利要求21所述的设备,其中,当所述多个关系模式算法中存在多于一个所 确定的符合性水平高于所述定义阈值的关系模式算法时,所述选择单元(806)被配置为使 用优先级算法来决定选择所述多于一个关系模式算法中的哪一个。
23. -种计算机程序(910),包括计算机可读代码装置,当在被配置用于检测数据源中 的偏差的设备(800)中运行所述计算机可读代码装置时,所述计算机可读代码装置使所述 设备执行以下步骤: 标识数据公布对,每一对包括第一数据源中的第一数据公布和第二数据源中的第二数 据公布,其中,针对数据公布对中的第一数据公布和第二数据公布的唯一匹配数据属性,数 据值的子集相等; 确定所述多个数据公布对中的每一个数据公布对中的第一数据公布的数据值和第二 数据公布的数据值的多个组合中的个体组合是否满足多个关系模式算法中的个体关系模 式算法; 确定针对所述多个数据公布对所确定的关系模式算法的满足的符合性水平; 基于所确定的符合性水平,从所述多个关系模式算法中选择关系模式算法; 关于所选择的关系模式算法分析个体数据公布对的数据值组合,以检测个体数据公布 对中不符合所选择的关系模式算法的数据值组合,不符合指示(114)个体数据公布对的数 据的可能偏差。
24. -种计算机程序产品(808),包括计算机可读介质和存储在所述计算机可读介质 上的根据权利要求23所述的计算机程序(810)。
【专利摘要】本公开描述了用于检测数据源中的偏差的方法和设备,每一个数据源包括多个数据公布,每一个数据公布包括多个数据值。该方法包括:标识(102)数据公布对,每一对包括第一数据源中的第一数据公布和第二数据源中的第二数据公布,其中,针对数据公布对中的第一数据公布和第二数据公布的唯一匹配数据属性,数据值的子集相等。该方法还包括:确定(104)多个数据公布对中的每一个数据公布对中的第一数据公布的数据值和第二数据公布的数据值的多个组合中的个体组合是否满足多个关系模式算法中的个体关系模式算法,以及确定(106)针对多个数据公布对所确定的关系模式算法的满足的符合性水平。该方法还包括:基于所确定的符合性水平,从多个关系模式算法中选择(108)关系模式算法,以及关于所选择的关系模式算法分析(110)个体数据公布对的数据值组合,以检测个体数据公布对中不符合所选择的关系模式算法的数据值组合,不符合指示(114)个体数据公布对的数据的可能偏差。
【IPC分类】G06F17-30
【公开号】CN104756113
【申请号】CN201380057211
【发明人】帕特里克·古林, 安德列斯·托斯滕森
【申请人】瑞典爱立信有限公司
【公开日】2015年7月1日
【申请日】2013年9月5日
【公告号】EP2728493A1, EP2915075A1, EP2915075A4, US20140122443, WO2014070070A1
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1