用于检测数据源中的偏差的方法、设备和计算机程序的制作方法

文档序号:8435853阅读:488来源:国知局
用于检测数据源中的偏差的方法、设备和计算机程序的制作方法
【技术领域】
[0001] 本公开大体上涉及用于检测数据源中的偏差的方法、设备和计算机程序。
【背景技术】
[0002] 在大多数企业(例如,移动通信运营商)中,信息遍布于很多不同的数据源。存 储在不同源中的数据是重复的或者至少具有相同含义的情况不在少数。当预期为相同的 数据由于某种原因而不同时,可能出现不期望的问题,例如,在移动通信网络中,移动电话 的用户不能打电话、或者运营商不能对顾客进行计费等。因此,不一致的数据可能引起很多 麻烦。根据申请人的调查,平均移动通信运营商的收入流失约为2%,并且该收入流失的很 大一部分是不一致数据(其导致通信使用的含糊不清的登记,因此不能对通信使用进行计 费)的直接或间接结果。
[0003] 如今,市场上存在对数据源进行扫描以寻找数据不一致或数据偏差的工具。此类 工具的一个常见问题是必须向工具指示在数据源中寻找什么。因为每一个数据系统包括这 样的数据源,即,其中存储的数据具有其自己的数据结构,因此,必须针对要扫描的每一个 数据源组合向工具指示。即,工具需要关于数据源的数据模型以及数据模型如何相互相关 的指示。然而,不同的系统或源可能来自不同的供应商,并且可能难以有权访问描述数据模 型的文件。另一个问题是数据模型通常很复杂,使得即使某人已知或有权访问一个数据模 型的描述,也难以分辨它如何与另一数据模型相关。另一个问题是,为了寻找数据偏差,可 能还必须理解什么被认为是偏差以及什么不被认为是偏差。
[0004] 此外,数据源中的数据可以随着时间改变。在这些情况下,被认为是数据偏差的内 容可能实时改变。
[0005] 因此,需要用于有效地检测不同数据源的数据之间的数据偏差的工具。

【发明内容】

[0006] 本发明的目的是解决上文列出的问题中的至少一些。可以通过使用所附独立权利 要求中定义的方法和设备来实现这些和其他目的。
[0007] 根据第一方面,提供了一种用于检测数据源中的偏差的方法,每一个数据源包括 多个数据公布,每一个数据公布包括多个数据值。所述方法包括:标识数据公布对,每一对 包括第一数据源中的第一数据公布和第二数据源中的第二数据公布,其中,针对数据公布 对中的第一数据公布和第二数据公布的唯一匹配数据属性,数据值的子集相等。此外,所述 方法还包括:确定所述多个数据公布对中的每一个数据公布对中的第一数据公布的数据值 和第二数据公布的数据值的多个组合中的个体组合是否满足多个关系模式算法中的个体 关系模式算法。此外,所述方法还包括:确定针对所述多个数据公布对所确定的关系模式算 法的满足的符合性水平;以及基于所确定的符合性水平,从所述多个关系模式算法中选择 关系模式算法。所述方法还包括:关于所选择的关系模式算法,分析个体数据公布对的数据 值组合,以检测个体数据公布对中不符合所选择的关系模式算法的数据值组合,不符合指 示个体数据公布对的数据的可能偏差。
[0008] 通过这种方法,可以自动地检测具有可比较的数据公布的两个数据源的数据之间 的可能偏差。例如,可以自动地检测两个可比较数据源中的任意一个的数据的错误。如果检 测到这种数据错误或数据值错误,则可以容易地减轻这些错误,并且可以避免由于这些错 误引起的问题。可能的使用情况是针对移动通信运营商的相当大的数据库。在该使用情况 下,可以避免的问题的示例是如果在两个相当大的数据库中存在偏差,则可能不清楚向谁 收取拨打的电话的费用,这导致运营商收入流失。此外,该方法使得可以从多个关系模式算 法中选择适合于个体数据值组合的关系的关系模式算法,这导致寻找偏差的准确度提高。
[0009] 根据第二方面,提供了一种用于检测数据源中的偏差的设备,每一个数据源包括 多个数据公布,每一个数据公布包括多个数据值。所述设备包括:标识单元,用于标识数据 公布对,每一对包括第一数据源中的第一数据公布和第二数据源中的第二数据公布,其中, 针对数据公布对中的第一数据公布和第二数据公布的唯一匹配数据属性,数据值的子集相 等。此外,所述设备包括:确定单元,用于确定所述多个数据公布对中的每一个数据公布对 中的第一数据公布的数据值和第二数据公布的数据值的多个组合中的个体组合是否满足 多个关系模式算法中的个体关系模式算法,以及用于确定针对所述多个数据公布对所确定 的关系模式算法的满足的符合性水平。所述设备还包括:选择单元,用于基于所确定的符合 性水平,从所述多个关系模式算法中选择关系模式算法;以及分析单元,用于关于所选择的 关系模式算法,分析个体数据公布对的数据值组合,以检测个体数据公布对中不符合所选 择的关系模式算法的数据值组合,不符合指示个体数据公布对的数据的可能偏差。
[0010] 根据第三方面,提供了一种计算机程序,包括计算机可读代码装置,当在被配置用 于检测数据源中的偏差的设备中运行所述计算机可读代码装置时,所述计算机可读代码装 置使所述设备执行以下步骤:标识数据公布对,每一对包括第一数据源中的第一数据公布 和第二数据源中的第二数据公布,其中,针对数据公布对中的第一数据公布和第二数据公 布的唯一匹配数据属性,数据值的子集相等;确定所述多个数据公布对中的每一个数据公 布对中的第一数据公布的数据值和第二数据公布的数据值的多个组合中的个体组合是否 满足多个关系模式算法中的个体关系模式算法;确定针对所述多个数据公布对所确定的关 系模式算法的满足的符合性水平;基于所确定的符合性水平,从所述多个关系模式算法中 选择关系模式算法;以及关于所选择的关系模式算法,分析个体数据公布对的数据值组合, 以检测个体数据公布对中不符合所选择的关系模式算法的数据值组合,不符合指示个体数 据公布对的数据的可能偏差。
【附图说明】
[0011] 现在参照附图通过举例说明的方式描述本发明,在附图中:
[0012] 图1至图6示出了描述根据本发明的实施例的方法的流程图。
[0013] 图7是关于7个关系模式算法对数据公布对的个体数据值进行比较的比较矩阵的 示例。
[0014] 图8是图7中的比较矩阵的一个单元n32的特写。
[0015] 图9示出了描述根据一个实施例的方法的流程图。
[0016] 图10是根据本发明的实施例的设备的示意性框图,该设备连接到第一数据源和 第二数据源。
[0017] 图11是根据本发明的实施例的装置的示意性框图。
【具体实施方式】
[0018] 简言之,提供了用于检测数据源(更具体地,至少两个不同数据源的数据)的偏 差。该解决方案至少部分地以以下思想为基础:通过标识两个数据源的数据之间的关系的 模式,还可以标识与这些模式的偏差。
[0019] 在本公开中,"数据源"可以是存储数据的任意类型的地方(临时的或长期的)。 数据源是保存数据的任何实体,例如,数据库或文档等。数据源的示例是经由结构化查询语 言(SQL)访问的关系数据库或经由轻量级目录访问协议(LDAP)访问的目录服务。其他示 例是M_i'cros〇r_Excel文件、逗号
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1