用于加速的数据质量增强的方法和系统的制作方法

文档序号:6348064阅读:114来源:国知局
专利名称:用于加速的数据质量增强的方法和系统的制作方法
技术领域
本发明一般地涉及自动化数据清洗,并且更特别地涉及通过应用条件功能依赖关系来进行自动化数据质量增强。
背景技术
现代社会的特征在于越来越多地依赖于迅速扩张的数据仓库的准确度。IDC确定, 2007年全世界产生的数据量是281艾字节,代表了相对于2006年的56%的年增长率。同时,这一数据的准确度对于现代企业的运转而言越来越重要。近来,当公共可访问数据库表明来自复兴计划的若干拨款被分配给了并不存在的国会选区,美国政府十分尴尬。除了引起尴尬和混淆,较差的数据质量还会引起严重的经济危害。数据可能由于手工输入到系统中或由人为设计的传感器获取的人为错误而被破坏。由于人为错误是不可避免的,因此其是对社会所依赖于的数据的潜在破坏。在大型组织要被迫处理的数据量越来越多的情况下,若干公司提供了帮助针对大型数据库滤除错误和纠正错误的产品和服务。这种公司一般称为数据质量供应商,其提供的滤除和纠正数据库的服务称为数据质量增强。数据质量增强一般是自动化过程,其中计算机对电子存储数据库中的所有数据进行滤除并且自动地标记或删除表现为错误的数据值。数据质量增强中的关键任务是标识对较差质量数据进行有效性验证、清洗和管控的规则。使用上述政府救济计划的示例,充分的规则可以是针对对其发放了资金的选区的任何条目都必须也出现在美国所有国会选区的列表中。可以使用人工或自动化开发来标识数据质量规则。人工开发涉及利用主题专家(SME)的输入或使用数据归档工具的数据或业务分析人员。SME是理解涵盖其精通领域内的信息的数据集合的特征的个人。例如,数据分析人员可以利用公共事业设施领域中的SME来获悉表计的序列号通常被错误地记录,并且表计被连接到具有与该表计的序列号相关的序列号的变换器。然后,分析人员将能够采用这一信息,并且创建数据质量规则,该数据质量规则在数据集合中滤除与所描述模式不适配的序列号。数据归档工具是检查所关心的数据以报告统计数据的计算机程序,该统计数据诸如值频率、两列之间的重合百分比,以及数据固有的其他关系和值。数据归档工具的示例包括 TS Discovery、Informatica IDE/IDQ 以及 Oracle Data Integrator。从数据归档工具搜集的信息能够表明潜在的质量问题。分析人员使用他们从数据归档工具的使用中获得的信息来人工地创建能够增强所检查数据的质量的规则。某些归档器,诸如hformatica Data Explorer,其本身能够自动地推断基本数据质量规则。例如,它们能够设定关于哪些列不能具有空值的规则。然而,这是特别简单的数据质量规则。空值条目是最容易检测的错误类型,其原因在于它们清楚地表明了数据条目疏漏并且它们不具有等同于任何可能正确的条目的值。其他归档器,诸如 TS Discovery, Informatica Data Quality,提供了针对名称和地址有效性验证的有创意 (out-of-the-box)的规则。这些规则同样稍显简陋,其原因在于地址从特征上说是严格管制的,是用于大型商业数据库的典型元素,并且遵循紧密的模式。可用数据归档器不包含针对更复杂或更客户特定的质量问题的规则。这两种获得用于数据质量规则的人工开发的信息的方式具有其缺陷。现代数据归档工具功能极其强大,并且能够为分析人员提供数据集内的大量数据特征和相互关系。然而,创建可操作数据质量规则仍将需要用于解释和应用所获取的统计数据的耗费时间的繁重处理。鉴于信息通常必须通过个人会晤来搜集,这种个人会晤需要分析人员和SME两者的大量时间,从SME获取信息同样可能是耗费时间且困难的。出于显然的原因,分析人员断开与SME的交互并且其本身试图变得精通给定领域的数据库,同样是耗费时间的。学术文献中已经描述了自动化规则开发方法。这些方法中最突出的莫过于对数据进行挖掘以形成关联规则以及对数据进行挖掘以便得到条件功能依赖关系(CFD)。在该领域中存在普遍共识,即关联规则对于解决大型数据库中的数据质量问题而言是不够的。对数据进行挖掘以便得到CFD的过程作为一种用于自动化数据增强的更有前途的方法便出现了。CFD是增强语义相关约束的模式的规则。图1提供了简单CFD的示例。在此情况下,输入数据点101和102具有3个属性,即国家代码(CC)、州(S)以及地区代码(AC)。包括这种数据点的数据集合可以是跟踪企业客户的位置的数据库的一部分。CFD 100基于如下事实来检查数据,即国家代码是针对美国的01,地区代码是408,然后所伴随的州应当为加利福尼亚。向CFD 100应用数据输入101将得到通过输出值103。而向CFD 100应用数据输入102将得到失败输出值104。使CFD的发现自动化的方法有两个主要缺陷。第一个是可能应用于数据集合的 CFD数目随着数据集合中属性数目的增加而呈指数增加。这导致这种方法的复杂度高得几乎令人望而却步。在以上示例中,对于相对简单的三个值的集合,仍然能有12个功能依赖关系。再乘以在美国所服务的超过270个地区代码,可能的CFD的数目将大大超出这一数目。当前的自动化发现方法也不能处理含噪数据。

发明内容
在本发明的一个实施例中,提供了一种用于产生针对数据集合的数据质量规则的计算机实现的方法。在第一步骤中,通过使用所述数据集合的本体基于候选种子集合生成候选条件功能依赖关系集合。每个候选种子包括从所述数据集合的所有属性的集合提取的在所述本体中具有预定隔离度的属性子集。在第二步骤中,单独向数据集合应用候选条件功能依赖关系以获得针对每个候选条件功能依赖关系的对应结果值集合。在第三步骤中,如果其对应结果值集合未能形成达到预定期望的结果签名,则候选条件功能依赖关系被单独完善(refine)和向数据再次应用。在第四步骤中,当所有候选条件功能依赖关系到达静止状态时,应用和完善终止。在最终步骤中,选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则。


图1图示了在输入数据上操作的条件功能依赖关系。图2图示了根据本发明的用于产生针对数据集合的数据质量规则的方法。图3图示了根据本发明的用于产生针对数据集合的数据质量规则的系统。图4图示了根据本发明的图形用户接口数据输入。图5图示了根据本发明的图形用户接口规则显示。图6图示了用于属性组合的完全连接图。
具体实施例方式现在将详细参考所公开发明的实施例,附图中图示了其一个或多个示例。每个示例都是以说明本技术的方式而不是以限制本技术的方式提供的。实际上,对本领域技术人员来说明显的是,在不脱离其精神和范围的情况下,可以对本技术进行修改和变更。例如, 作为一个实施例的一部分而图示和描述的特征可以与另一实施例一起使用以产生又一实施例。由此,本主题旨在覆盖在所附权利要求书及其等同形式的范围内的修改和变更。本发明的实施例解决了如下技术问题,即标识、收集和管理用于改善针对企业方案(其范围从数据管控到业务智能)的较差质量数据的规则。本发明的实施例还显著减少了收集针对企业方案(诸如主数据管理、业务智能等)的数据质量规则所需的人工劳动量。 另外,本发明的实施例还支持其他业务需要,诸如保证其数据遵循预定业务逻辑。本发明的实施例通过自动地发现可操作数据质量规则和通过提供直观的规则浏览器来管理这些规则而解决了上述问题。本发明的实施例不会受制于现有技术方法的计算复杂度并且能够处理含噪数据。最后,本发明的实施例能够针对特定客户数据清洁度问题提供数据质量增强规则,而不需要以昂贵的方式访问或消化数据特征的SME知识。图2显示了根据本发明的用于产生针对数据集合的数据质量规则的方法。在该方法开始之前,假定数据集合的本体可用,其表明了数据集合中的哪些属性是相关的。为了使用上述示例,地区代码和州可以是直接相关的,而不同的变量,诸如客户的名字可以完全不与地区代码相关。在步骤200中,生成候选CFD集合。候选CFD基于候选种子集合,候选种子集合是数据集合中所有属性的子集。与先前示例一致,候选种子可以是国家代码和地区代码的组合。选作候选种子的属性可以在本体中具有预定隔离度。例如,可以将在本体中 3个链接之内的属性选择为针对候选种子的属性群组。在本发明的特定实施例中,候选CFD的数目、每个CFD中条件的数目以及每个CFD 中属性的数目由用户在开始实践本发明之前确定。CFD中条件的数目确定了对形成CFD的属性进行了多少约束。与本发明示例一致,规则“如果地区代码是408 ;则州必须是加利福尼亚”可以计为单个条件。所有3个这些变量将对该方法的自动化部分执行所要耗费的时间具有直接影响。针对任何这些值选择较低数值将以所得到的数据增强规则集合的整体效率来换取候选CFD的更快收敛。在步骤201中,可以单独将候选CFD应用于数据集合中的数据。在本发明的特定实施例中,这一应用可以在具有预定长度的数据片段中进行。例如,可以将CFD应用于具有 1000个数据点的长度的数据片段。采用这一方法的实施例可以节省大量时间,其原因在于与整个数据集合相比,将规则应用于数据片段将耗费更少的时间。在本发明的特定实施例中,数据片段的大小可以通过由用户确定的扫描周期来设定。将CFD应用于数据的目的可以是针对每个CFD得到对应结果值集合。对应结果值集合在大小上一般可以等同于所述CFD向其应用的数据点数目。在本发明的另一特定实施例中,结果值集合可以表明规则是否与数据点匹配,规则是否虽与数据点不匹配但也不与数据点冲突,以及规则是否与数据点冲突。在步骤202中,如果候选CFD所具有的结果签名未达到预定期望,则单独完善候选 CFD。在特定实施例中,结果签名可以是来自于将各CFD应用于数据的结果值的列表。可以进行各候选CFD的完善,从而使得如果再次应用于数据则它们将更接近地达到预定期望。在本发明的特定实施例中,该完善可以通过从候选CFD省略高熵属性来实现。高熵属性可以是候选CFD中承担整个数据集合中最多值的属性。选择这一属性用于省略在完善候选CFD方面是有效的,其原因在于,从统计学上说,其可能是用于省略的最佳属性以便使得候选CFD更少地受限。在上述的具有3个属性的示例中,这很可能导致省略任何候选 CFD中并未达到预定期望的地区代码属性。在本发明的特定实施例中,预定期望通过覆盖估计和预定错误估计来设定。覆盖估计可以是关于候选CFD将应用于多少不同的数据点(意味着候选CFD所操作的属性和值出现在数据点中)的估计。例如,具有条件“如果地区代码是408 ;则州必须是加利福尼亚” 的候选CFD将覆盖地区代码属性是408的任何数据点。错误估计可以是关于多少不同数据点将使表达数据中的所希望关系的候选CFD不能通过的估计。例如,SME可能提供如下信息,即数据库中5%的地区代码很可能是错误的,并且这些错误是随机的。在此情况下,错误估计将是5%,并且具有地区代码408和加利福尼亚之外的州的数据点将针对结果签名的总错误内容而计为一个数据点。如果在针对具有100个数据点的数据片段的结果签名中有 5个错误,则错误估计将精确地匹配。利用错误估计的实施例将能够处理含噪数据,其原因在于其考虑了潜在错误。在不考虑错误估计的情况下,表明规则不适配的结果值将不会携带关于规则是否错误的任何信息。在本发明的另一特定实施例中,覆盖估计和错误估计可以由用户调节。在步骤203中,当候选CFD到达静止状态时,对候选CFD的应用和完善终止。这种方法的益处在于防止了不必要的处理,其原因在于已经证明无效的规则不会继续被应用。 此外,并非有限数据集合中的所有数据都需要被检查,只要足以制定稳定的规则即可。在本发明的特定实施例中,将静止状态定义为这样的时刻,即,已经向包含稳定数据的一系列数据点应用了候选CFD,而无需对该候选CFD进行完善。数据稳定性可以通过参考特定属性的值相对于已知偏差的摆动来确定,或者其可以通过从SME获得的容限来设定。上述一系列中的数据点数目可以通过窗口周期值来设定,并且在本发明的另一特定实施例中,窗口周期可以由用户调节。由于步骤201中的这一窗口周期和数据片段具有不同大小,在步骤 202产生达到期望结果的时间与步骤203执行和确定受测试CFD是否到达静止的时间之间存在滞后时间。在本发明的特定实施例中,不同的候选CFD可以位于图2内的不同地方。某些候选 CFD可能迅速到达静止并且准备移动到步骤204,而其他的则仍然循环回步骤201。如上所述,这一方法可以节省宝贵的计算时间,其原因在于已经收敛的CFD不会再次应用于数据。在步骤204中,选择所述候选CFD的相关集合。候选CFD的相关集合将是针对数据集合的数据质量规则。相关性主要由任何特定候选CFD的覆盖水平确定。覆盖,如上所述,并且是指候选CFD应用于多少数据点。在本发明的特定实施例中,相关性还可以通过稳定的候选CFD的适配统计分析的良好程度来设定。相关性适配分析的良好程度将包括检测到的错误率和CFD的覆盖程度。依照相关性适配分析的良好程度、最相关的CFD将是覆盖水平最高以及其检测到的错误率与所估计的错误率之间的接近度最小的那些。在本发明的特定实施例中,可以自动地存储数据质量规则。这将是重要的,其原因在于,在很多复杂情形下,稳定的候选CFD的数目将非常高并且其分析将是耗费时间的。例如,可以根据兴趣度因子对相关集合中的候选CFD进行排名。可以进行该排名,从而使得评估相关CFD的个人在引导注意力方面得到辅助。兴趣度因子将随着包含候选CFD所基于的值之一的数据集合部分减小而增大,使用上述示例,如果数据集合中有1000个地区代码属性为值408的数据点,并且数据集合中有4个地区代码属性为值212的数据点,则基于等于 212的地区代码的候选CFD将具有更高的兴趣度因子值。在本发明的另一特定实施例中,可以将数据质量规则一起归组为解决类似数据质量问题的规则子集。在又一实施例中,可以随规则一起提供统计数据,诸如规则之间的连接、规则之间的冲突以及每个规则所覆盖的数据百分比。在本发明的另一实施例中,提供了一种用于增强数据质量的方法。该方法将以参考图2所描述的差不多的方式进行。然而,由该过程产生的候选CFD的相关集合将被应用于增强数据集合的数据质量。候选CFD (此时将是数据增强规则)将被应用于数据集合中的所有数据。不符合数据增强规则的数据点将被标记以供以后注意或者可以被删除或修改为对其正确值的最佳猜测,由此增强数据集合的数据质量。在本发明的实施例中,还可以将根据本发明生成的数据增强规则应用于增强数据集合的相关群组的数据质量。可以将规则应用于任何数目的具有类似内容的数据集合,意味着相关数据集合中的数据具有与该方法在其上确定数据质量规则的原始数据集合的特征类似的特征。这一过程可以通过向数据质量产品或外部数据库管理系统导出相关规则而针对外部地存储的数据集合来调整。特别地,可以向其导出规则的数据质量产品可以是TS Discovery、Informatica IDE/IDQ I^XM Oracle Data Integrator。图3显示了根据本发明的用于开发数据质量规则的计算机系统。规则库302用于存储数据质量规则。在本发明的特定实施例中,规则库302能够向诸如插件303之类的数据交换器插件递送规则。可以将插件303添加至系统,这允许可以以兼容的方式向另一系统导出数据规则。在优选实施例中,插件303可以包括插件集合,其中每个插件确保与不同外部系统的兼容性。这种实施例将是希望的,其原因在于然后规则就可以适于沿着数据线路 304应用于任何数目的外部系统。能够接收数据质量规则的外部系统可以是如下系统,该系统运行数据质量产品、外部数据库管理系统或者数据质量规则可以应用于的任何其他系统。特别地,该外部系统可以是运行诸如TS DiscoveryJnformatica IDE/IDQ以及OracleData Integrator之类的数据质量产品的系统。规则库302从数据质量规则发现引擎301获得数据质量规则。数据质量规则发现引擎301能够接收来自用户接口 300的数据集合、数据集合的本体以及规则生成参数集合。 用户接口 300还能够输出由数据质量规则发现引擎301发现的数据质量规则以供外部使用。数据质量规则发现引擎301基于数据集合的本体来形成候选CFD集合,并且基于当应用于数据时这些规则如何运行来迭代地完善这些规则。当候选CFD到达静止状态并且成为数据质量规则时,数据质量规则发现引擎301终止迭代的完善处理。在特定实施例中,用户接口,诸如用户接口 300,可以进一步包括图形用户接口 (GUI)。在本发明的特定实施例中,这种GUI可能能够接收来自用户的规则生成参数、数据集合地址、相关数据集合地址以及本体地址。规则生成参数还可以由用户通过使用⑶I来调整。最后,GUI还可能能够向用户显示由规则发现引擎生成的规则,从而使得用户可以再次检查以及可选地修改所显示的规则。还可以通过GUI向用户显示关于规则的信息,诸如规则所应用于的数据部分以及当应用于规则时检测到的数据错误率。图4显示了根据本发明的⑶I的输入显示的示例。⑶I 400能够向用户显示信息以及从用户接收信息。显示窗口 401包含若干选择器。在特定实施例中,选择器可以包括能够接受和设定候选CFD数目的最大规则数目选择器402,能够接受和设定每个候选CFD中的最大条件数目的最大条件数目选择器403,能够接受和设定每个候选CFD中的最大候选种子数目的最大种子数目选择器404,能够接受和设定应用于数据集合的任何特定CFD的所希望覆盖的覆盖选择器405,能够接受和设定应用于数据集合的任何特定CFD的期望错误率的错误率选择器406,能够接受和设定针对每次将任何特定CFD应用于数据集合的扫描周期的频率选择器407,以及能够接受和设定在针对静止而评估规则之前需要评估的数据量的窗口大小选择器408。可以将由选择器选择的值提交给数据质量规则发现引擎301。图5显示了根据本发明的⑶I的输出显示的示例。⑶I 500能够向用户显示信息以及从用户接收信息。显示窗口 501能够通过报告诸如规则之间的连接、规则之间的冲突以及每个规则所覆盖的数据百分比之类的关键信息来使得商业用户和技术用户两者能够理解、修改和管理所发现的规则。规则显示格503能够显示每个规则的概要以及规则的重要统计数据。规则列表502能够以组织好的且可修改的格式显示规则,其中每个规则的统计数据概要显示在旁边。细节格504能够显示关于所选择规则的更深入信息。下面描述一种解决如下限制的方法,这些限制在于需要FD作为输入以及与和很大数目的属性的关系成比例的困难度。这一方法能够有效地削减搜索空间并且因此能够处理与很大数目的(例如多达100个)属性的关系;以高度鲁棒方式处理发现期间的污染数据并且因此甚至是在数据具有很大百分比的不一致性(例如高达50%)时也能够发现有用的CFD ;以及确定规则何时变得稳定并且因此能够避免检查整个数据集合和过度适配。在一个实施例中,该方法可以称为“CFinder”。在一个实施例中,CFinder通过以下步骤从感兴趣的关系中发现CFD。CFinder首先生成初始候选CFD集合。然后,CFinder 通过移除无关的(或无效的)条件来完善每个CFD,并且当CFD变为稳定时,停止完善CFD。 最后,CFinder过滤弱的(且被归入其中(subsume)的)CFD,并且归纳其余CFD以增加其可应用性。在一个实施例中,给定关系R,CFinder生成候选CFD ( S卩(X — Y,Tp)形式的规则,其中X和Y是来自R的属性,并且Tp是包括来自这些属性的值的模式元组)。在一个实施例中,CFinder首先从R生成大小为N+1的所有属性组合,其中N是CFD 的前项X中所允许的最大属性数目(并且因此是最大条件数目)。CFinder加上这一限制是因为在前项中具有很大数目的条件的CFD在实践中具有有限的可应用性。然后,CFinder从每个组合生成候选CFD。对于组合中的每个属性,CFinder将该属性转换为CFD的后项(即Y)并且将其余属性转换为前项(即X)。然后,CFinder利用来自这些属性的其频率超出最小支持阈值的相应值来实例化模式元组。例如,给定表1,来自密西根州接收的美国联邦拨款的记录和属性的样本
权利要求
1 一种用于产生针对数据集合的数据质量规则的计算机实现的方法,包括通过使用所述数据集合的本体、基于候选种子集合来生成候选条件功能依赖关系集合,所述候选种子包括从所述数据集合的属性集合提取的、在所述本体中具有预定隔离度的属性子集;单独向所述数据集合应用所述候选条件功能依赖关系,以获得针对所述候选条件功能依赖关系的对应结果值集合;如果所述对应结果值集合不具有达到预定期望的结果签名,则单独完善所述候选条件功能依赖关系,并且重复所述应用;当所述候选条件功能依赖关系单独到达静止状态时,单独终止对所述候选条件功能依赖关系的所述完善和应用;以及选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则。
2.根据权利要求1的用于产生针对数据集合的数据质量规则的计算机实现的方法,其中所述完善通过省略单独一个所述候选条件功能依赖关系的高熵属性来实现。
3.根据权利要求1的用于产生针对数据集合的数据质量规则的计算机实现的方法,其中在生成所述候选条件功能依赖关系集合之前,每个所述候选条件功能依赖关系的第一数目的条件能够由用户调节;并且在生成所述候选种子集合之前,所述候选种子集合的候选种子中的第二数目的属性能够由用户调节。
4.根据权利要求1的用于产生针对数据集合的数据质量规则的计算机实现的方法,其中所述预定期望通过由单独一个所述候选条件功能依赖关系覆盖的第一部分所述数据集合的预定覆盖估计以及将为错误的第二部分所述数据集合的预定错误估计来设定。
5.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法,其中所述候选条件功能依赖关系集合具有预定数目的所述候选条件功能依赖关系;并且所述预定数目的条件功能依赖关系能够由用户调节。
6.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法,其中所述相关集合中的所述候选条件功能依赖关系具有对应的组合结果签名集合,就所述数据集合的最大覆盖程度以及检测到的错误率与所述预定错误估计之间的最小接近度而言, 所述对应的组合结果签名集合具有最佳的适配度。
7.根据权利要求6的用于产生针对数据集合的数据质量规则的计算机实现的方法,进一步包括根据兴趣度因子对所述相关集合中的所述候选条件功能依赖关系进行排名;其中随着包括特定的一个所述候选条件功能依赖关系所基于的数据值的一部分所述数据集合减小,针对所述特定的一个所述候选条件功能依赖关系的所述兴趣度因子增大。
8.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法,其中在所述应用期间、所述候选条件功能依赖关系向其应用的所述数据集合的数据片段的大小通过预定扫描周期来设定。
9.根据权利要求8的用于产生针对数据集合的数据质量规则的计算机实现的方法,其中所述预定覆盖估计、所述预定错误估计以及所述预定扫描周期能够由用户调节。
10.根据权利要求4的用于产生针对数据集合的数据质量规则的计算机实现的方法, 其中针对特定的一个所述候选条件功能依赖关系的所述静止状态为这样的时刻,即,已经通过所述应用将所述特定的一个所述候选条件功能依赖关系单独应用于总共包含大小等于预定窗口周期的数据点量的一系列所述数据片段,以及所述一系列的所述数据片段已经包含稳定数据,而所述完善不会改变所述特定候选条件功能依赖关系。
11.根据权利要求10的用于产生针对数据集合的数据质量规则的计算机实现的方法, 其中所述预定窗口周期能够由用户调节。
12.一种用于增强数据质量的计算机实现的方法,包括步骤通过使用数据集合的本体、基于候选种子集合来生成候选条件功能依赖关系集合,每个所述候选种子包括从所述数据集合的所有属性的集合提取的、在所述本体中具有预定隔离度的属性子集;单独向所述数据集合应用所述候选条件功能依赖关系以获得针对每个所述候选条件功能依赖关系的对应结果值集合;如果所述对应结果值集合不具有达到预定期望的结果签名,则单独完善所述候选条件功能依赖关系,并且重复所述应用;当所述候选条件功能依赖关系单独到达静止状态时,单独终止对所述候选条件功能依赖关系的所述完善和应用;选择所述候选条件功能依赖关系的相关集合以用作针对所述数据集合的所述数据质量规则;以及通过相对于所述相关集合检查所述数据集合的数据,以及如果所述数据不遵循所述相关集合中所包含的规则则滤除所述数据,来增强所述数据集合的数据质量。
13.根据权利要求12的用于增强数据质量的计算机实现的方法,进一步包括继续应用所述相关集合以增强在内容上与所述数据集合相关的附加数据集合群组的数据质量。
14.根据权利要求12的用于增强数据质量的计算机实现的方法,进一步包括向数据质量产品和外部数据库管理系统中的一个导出所述相关集合。
15.一种用于开发数据质量规则的计算机系统,包括规则库,用于存储所述数据质量规则;用户接口,能够接收数据集合、本体以及规则生成参数集合,并且能够输出数据质量规则集合;数据质量规则发现引擎,能够接收来自所述用户接口的所述数据集合、所述本体以及所述规则生成参数集合,生成所述数据质量规则集合,以及向所述规则库发送所述数据质量规则集合;其中所述数据质量规则发现引擎通过使用所述本体、基于候选种子集合制定候选条件功能依赖关系集合,所述候选种子包括从所述数据集合的所有属性的集合提取的、在所述本体中具有预定隔离度的属性子集;以及其中所述数据质量规则发现引擎执行如下操作如果所述候选条件功能依赖关系集合在应用于所述数据集合时并未达到预定期望,则迭代地完善所述候选条件功能依赖关系集合,并且当所述条件功能依赖关系集合到达静止状态并成为所述数据质量规则时,终止所述完善。
16.根据权利要求15的用于开发数据质量规则的计算机系统,所述用户接口进一步包括图形用户接口,能够显示和接收所述规则生成参数、所述数据集合的地址、相关数据集合地址、所述本体的地址以及所述数据质量规则集合;以及其中所述规则生成参数能够由用户通过所述图形用户接口调节。
17.根据权利要求15的用于开发数据质量规则的计算机系统,其中所述数据质量规则发现引擎通过省略所述候选条件功能依赖关系的高熵属性来完善所述候选条件功能依赖关系。
18.根据权利要求15的用于开发数据质量规则的计算机系统,进一步包括数据交换器插件,其能够向数据质量产品和外部数据库管理系统中的一个导出所述数据质量规则的相关集合。
全文摘要
本发明的实施例解决了如下技术问题,即标识、收集和管理用于由改善企业方案(其范围从数据管控到业务智能)的较差质量数据的规则。在本发明的特定实施例中,提供了一种用于产生针对数据集合的数据质量规则的方法。生成候选条件功能依赖关系集合,包括在数据集合的本体中的特定相关度内的属性的候选种子。然后,向数据应用候选条件功能依赖关系,并在其到达静止状态之前对其进行完善,其中在该静止状态处,尽管候选条件功能依赖关系所应用于的数据已经稳定,也不对该候选条件功能依赖关系进行完善。所得到的完善后的候选条件功能依赖关系是针对数据集合和其他相关的数据集合的数据增强规则。在本发明的另一特定实施例中,提供了一种用于开发数据质量规则的计算机系统,其具有规则库、数据质量规则发现引擎以及用户接口。
文档编号G06F17/30GK102257496SQ201080002524
公开日2011年11月23日 申请日期2010年12月6日 优先权日2009年12月7日
发明者C·A·普里, P·Z-C·耶 申请人:埃森哲环球服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1