用于基于知识的数据质量解决方案的域的制作方法

文档序号:6380449阅读:153来源:国知局
专利名称:用于基于知识的数据质量解决方案的域的制作方法
用于基于知识的数据质量解决方案的域技术领域
本发明一般涉及数据质量,尤其涉及基于知识的数据质量方案。
背景技术
随着计算技术的提高以及计算设备变得更普遍,出于个人和公务原因使用计算机对于日常活动已经变得常见。为了跟上需求,数据集合呈指数级增长。数据集合以及数据的后续处理的目的在于理解所收集数据的意义,并出于有用的目的汇编所搜集的数据。
与数据的累积以及数据的任何相应使用相关联的问题在于数据内包含的错误(例如低质量数据)。错误的示例可包括不正确的数据、缺失的数据、拼写错误、误置数据、重复数据、以及其它问题。依赖含错误数据的人和公司可基于该数据作出决定、分析、和/或其它动作,并且如果该数据有缺陷,则所得到的决定、分析等等也会是有缺陷的。如果事后发现错误,则会损坏数据的置信度和相关信任。在一些情形中,如果数据不满足足够的质量水平,则该数据可能无法加以信赖。
一些系统利用一般方法来改进数据质量。该一般方法基于“一视同仁”(one-size fits all)的思想。例如,该一般方法对数据应用一般算法,以尝试净化或改进数据的质量。 由于一般算法是不管数据内容为何就应用的,因此一般方法仅能提供有限的解决方案。在一些情形中,一般方法可能无法解决与数据相关联的问题。由此,已用一般算法净化的数据的质量仍然会较低,因为原来的问题并没有得到解决。
当今计算系统和数据质量方案的上述缺点仅旨在提供常规系统的一些问题的概览,并且不旨在是穷尽性的。常规系统的其他问题以及此处所描述的各非限制性实施例的对应益处可以在审阅以下描述后变得更显而易见。发明内容
此处提供了简化的发明内容以帮助能够对以下更详细的描述和附图中的示例性、 非限制性实施例的各方面有基本或大体的理解。然而,本发明内容并不旨在是详尽的或穷尽的。相反,本发明内容的唯一目的在于,以简化的形式提出与一些示例性、非限制性实施例相关的一些概念,作为以下各实施例的更详细的描述的序言。
本文中所揭示的各个方面涉及提供基于知识的数据质量解决方案。该数据质量解决方案基于关于数据的知识的采集与数据处理的明确分离。还提供一种可传递、可移动、可插入的知识容器(例如,知识库)。该数据质量解决方案还提供受引导的知识采集和向基于云的知识的无缝可扩展性。
另一方面涉及从内部信息(例如,来自客户机或来自数据本身)和外部信息(例如, 来自包含数据质量解决方案知识供下载的第三方网站)获取有关数据的知识(例如,知识库的创建)。进一步针对此方面地,应用知识库来净化数据、剖析数据、或执行语义去重复。
又一方面涉及一种包括数据质量服务器(及内部组件)的体系结构,该数据质量服务器链接客户机和包含数据质量解决方案知识以供下载的第三方网站。此外,一方面涉及计算机辅助的知识采集和交互式净化。再一方面涉及创建域、合成域以及交叉域。这些域是可移动、可下载的,并且可被共享。
这些和其他实施例在下文中更详细地描述。




构;

参考附图进一步描述各非限制性实施例,在附图中图I示出根据一方面的示例性计算系统的框图;图2示出根据一方面的配置成提供知识驱动的数据质量解决方案的系统的框图; 图3示出根据一方面的用于数据质量解决方案的另一系统;图4示出根据一方面的配置成提供数据质量解决方案的系统;图5示出根据一方面的配置成提供数据的去重复的系统;图6示出根据一方面的构建为匹配项目的输出的示例性匹配结果域;图7示出根据一方面的用于基于知识的数据质量解决方案的示例性系统体系结图8示出根据一方面的数据质量(DQ)服务器的组件;图9示出根据一方面的使用数据集成的批量净化;图10示出根据一方面的用于创建知识库并使用知识库来改进数据质量的方法的非限制性流程图
图11程图12
图13 制性流程图14
图15
图16 的框图;以及
图I7示出根据一方面的用于基于知识的数据质量解决方案的方法的非限制性流示出了根据一方面的另一方法的非限制性流程图;示出根据一方面的用于执行去重复作为基于知识的解决方案的方法的非限示出根据一方面的用于交互式净化数据的方法的非限制性流程图;示出根据一方面的用于创建知识库的方法的非限制性流程图;是表示其中可实现在本文所述的各个实施例的示例性、非限制性联网环境是表示其中可实现本文所述的各个实施例的一个或多个方面的示例性、非限制性计算系统或操作环境的框图。
具体实施方式
概览
数据质量缺陷对商业战略措施会有负面影响(有时是显著的负面影响)。数据质量缺陷(例如,低质量数据)的影响包括纠正数据(如果发现了错误)所花费的额外时间、信用的损失、客户不满、遵从性问题和收入损失、以及其它影响。由此,各种各样的机构都寻求改进其商业数据的质量。针对数据质量的一般方法(例如,基于零知识)不足以产生用于当今商务的高质量数据。此外,针对数据质量的基于知识的方法可呈现诸如知识采集、使用、移动性、可扩展性等等的多种挑战。
由此,通过采集知识和处理知识的分离以提高数据质量来提供基于知识的数据质量方法将是有益的。在一示例中,采集知识可包括计算机辅助的知识采集。所公开各个方面中的一个或多个提供基于丰富知识库的知识驱动的数据质量解决方案。例如,数据质量知识库被创建、维护和再使用以供执行各种数据质量操作,诸如数据净化和匹配。本文中所公开的数据质量解决方案是快速、容易部署的,并且能快速地建立。
本文中所呈现的各个方面涉及用于针对数据质量过程采集和表示有效知识的数据域(例如,类型),包括简单域和合成域。其它方面涉及语义去重复。另一些方面涉及可扩展性的树形生成应用法。还有一些方面涉及第三方集成的商业模型。
一个方面涉及一种包括知识管理器组件和数据增强组件的系统。知识管理器组件被配置成搜集与数据集相关的信息。该信息至少部分地从数据集的一样本搜集,并且该信息被保留在知识库中。数据增强组件被配置成对数据集执行一个或多个操作以提高该数据集的质量。该一个或多个操作基于所搜集的信息。
在一示例中,知识管理器组件基于数据集的描述、一个或多个规则、推断、数据字段正确值的列表、以及与用户的交互来搜集信息。
根据一示例,数据增强组件被配置成净化作为所搜集信息的结果的数据集。在另一示例中,数据增强组件被配置成基于所搜集信息对数据集进行去重复。
在一实现中,系统进一步包括数据分析模块,该数据分析模块被配置成基于完整性、符合度、一致性、准确性、及时性和重复度的至少之一来定义数据集的质量。
根据另一实现,该系统进一步包括配置成获取有关数据集的语义信息的采集模块。进一步地,该系统包括发现模块,该发现模块被配置成输出对有关语义信息的细节的一个或多个请求并接收作为回复的对该一个或多个请求的响应。接收到的响应被保留在知识库中。
在又一示例中,该系统包括被配置成保留与用户数据和第三方数据的属性有关的历史信息的历史模块。数据增强组件被配置成利用历史信息来对数据集执行一个或多个操作。
在再一示例中,该系统包括统计模块,该统计模块被配置成提供与数据质量、与数据相关联的问题、以及数据质量问题源的至少之一相关的统计信息。数据增强组件被配置成利用统计信息来对数据集执行一个或多个操作。
在另一示例中,该系统包括净化模块,该净化模块被配置成基于知识管理器组件所搜集的信息来修改、移除、或丰富不正确或不完整的数据。
数据集包括第一数据子集和第二数据子集,根据又一示例该系统进一步包括配置成标识第一数据子集和第二数据子集之间的重复数据的匹配模块。该系统还包括配置成选择性地去除标识出的重复数据的合并模块。
在另一实现中,知识管理器组件被进一步配置成创建知识库并将该知识库上传至外部源。进一步针对此实现地,知识库被在先创建并上传至外部源。根据一示例,外部源是由第三方数据源所管理的知识库存储。
另一方面涉及用于数据质量解决方案的方法。该方法包括从与数据集相关联的信息建立匹配策略。该信息被包含在知识库中。该方法包括基于匹配策略对数据集进行匹配训练。该方法还包括作为匹配训练的结果构建匹配项目。匹配项目标识数据集中所包括的重复数据并合并重复数据以创建单个条目。
在一示例中,建立匹配策略包括从第三方数据源下载知识库并用与数据集相关的附加知识补充该知识库。附加知识通过辅助知识采集来获取。
在又一示例中,执行匹配训练包括索要对重复数据的反馈信息并用该反馈信息补充知识库。在再一示例中,构建匹配项目包括构建包括每个重复数据和每个重复数据中所包含信息的电子表格。
在一示例中,合并重复数据是基于用户偏好和规则的至少之一的。在另一示例中, 执行匹配训练包括获取数据集中的至少一个子集的语义理解。
另一方面涉及计算机可读存储介质,该计算机可读存储介质包括存储在其中的计算机可执行指令,这些指令响应于执行使计算系统执行各操作。这些操作包括搜集与数据集相关的信息并将该信息供应给知识库。这些操作还包括基于知识库中的信息对数据集执行一个或多个操作,其中该一个或多个操作包括净化数据集。
在一示例中,操作进一步包括基于对数据集的语义理解标识数据集中所包含的重复数据,其中语义理解被包括在知识库中。操作还包括基于与用户偏好或规则的一致性选择重复数据的至少之一,并从数据集中移除未被选择的重复数据。
另一方面涉及包括数据质量引擎的装置。数据质量引擎包括配置成基于数据样本获取关于数据的信息、并将该信息保存在知识库中的知识发现组件。数据质量引擎还包括配置成基于知识库中的信息净化数据的净化组件,以及配置成移除数据内发现的重复数据的匹配组件。
在一示例中,数据质量引擎与数据质量服务器通信,该数据质量服务器配置成与一个或多个数据质量客户机和一个或多个第三方数据源通过接口连接。在另一示例中,数据质量服务器包括配置成对知识库中所包含的信息执行参考数据服务的应用程序接口。
根据另一示例,数据质量服务器与配置成从知识库获取和更新参考数据的应用程序接口通信。此外,应用程序接口被配置成从第三方源获取参考数据服务和参考数据集。
在一些示例中,知识发现组件被配置成提供辅助知识采集以采集与数据相关的信肩、O
在一示例中,装置进一步包括数据剖析和探查组件。在另一示例中,装置包括来自知识库存储的参考数据,知识库存储包括已发布的知识库。
在又一示例中,参考数据组件被进一步配置成将本地创建的知识库发布到远程存储介质。根据另一示例,参考数据组件被进一步配置成接收对本地创建的知识库的选择并从远程位置下载该本地创建的知识库。
又一方面涉及一种对数据进行交互式净化的方法。该方法包括接收对改进数据源质量的请求,并访问包括与数据源中的数据元素相关的信息的知识库。该方法还包括应用来自外部源的参考数据服务。该参考数据服务包括有关数据元素的外部知识。该方法还包括因变于参考数据服务修正数据元素的子集。
在一示例中,访问知识库包括获取针对数据元素的参考数据定义。根据另一示例, 访问知识库包括获取值和规则以应用于数据元素。在又一示例中,访问知识库包括获取被配置成标识和消除数据元素中的重复数据的匹配策略。
根据另一示例,修正数据元素的子集包括在数据元素中审阅不正确记录,并输出修正不正确记录的至少之一的建议。进一步针对此示例地,该方法包括基于对该建议的肯定回复对不正确记录的至少之一应用修正。
在一示例中,应用参考数据服务包括使用来自第三方数据服务的参考数据服务。 在另一示例中,应用参考数据服务包括接收对参考数据服务的选择并使用来自外部源的参考数据服务。
另一方面涉及一种包括用于索要有关数据集的信息的装置的系统。该系统还包括用于将信息储存在知识库中的装置。该系统中还包括用于基于知识库评估信息的装置。此外,该系统包括用于因变于评估来净化数据的装置和用于基于评估移除数据集内的重复数据的装置。
根据一示例,该系统还包括用于提供计算机辅助的知识采集以采集附加信息的装置。
在一些示例中,用于去除重复数据的装置进一步被配置成创建数据的合并视图, 其中该合并视图以视觉格式输出。
又一方面涉及用于数据质量解决方案的系统。该系统包括配置成采集关于第一数据集和第二数据集的数据信息的访问模块。系统还包括配置成针对第一数据集和第二数据集创建一个或多个域的域创建模块。该系统还包括配置成集聚一个或多个域并用集聚后的域填充知识库的编译模块。该知识库用于处理一个或多个数据质量集。
在一示例中,域创建模块被配置成因变于数据或数据的属性来创建域。在另一示例中,域创建模块被进一步配置成创建基本域,该基本域包括与第一数据集或第二数据集的属性相关联的数据质量问题。在又一示例中,域创建模块被进一步配置成基于跨两个或更多个域应用的规则来创建合成域。
在另一示例中,访问模块被配置成通过辅助知识采集过程来采集数据信息。根据一些示例,知识库包括封装为单个可移动单元的多个域。在另一示例中,知识库以可共享和可下载的格式储存。
在一实现中,系统包括配置成获取关于第一数据集和第二数据集的语义信息的采集模块。该系统还包括配置成部分地基于语义信息标识第一数据集和第二数据集之间的重复数据的匹配模块。此外,系统包括配置成与第一数据集和第二数据集组合大致同时地合并标识出的重复数据。
在一些实现中,系统进一步包括配置成捕捉与第一数据集和第二数据集的属性相关的历史信息的历史模块,其中历史信息被包括在域中。在另一实现中,系统包括配置成捕捉与关联于第一数据集和第二数据集的源的数据质量度量相关的统计信息的统计模块,其中统计信息被包括在域中。在另一示例中,系统包括配置成作出与第一数据集或第二数据集相关的一个或多个推断的推断模块,其中一个或多个推断被包括在域中。
根据另一方面,提供一种包括获取与属性和参考数据服务提供者相关联的参考数据的方法。该方法还包括针对每个属性创建多个域,其中多个域中的每一个包括属性和与该属性相关联的参考数据。此外,该方法包括储存多个域的编译作为知识库。
在一示例中,获取参考数据包括获取属性的参考数据定义。在另一示例中,获取参考数据包括将规则与一个或多个属性相关联。
在一些示例中,创建多个域包括创建包括与属性相关联的数据质量问题的基本域。在另一示例中,创建多个域包括创建包括两个或更多个基本域的合成域,其中规则跨两个或更多个基本域应用。在又一示例中,储存编译包括将知识库上传至外部源所维护的存储。
根据一些实现,方法包括检索知识库,以及因变于知识库中包含的域对数据执行一个或多个处理。
另一方面涉及计算机可读存储介质,该计算机可读存储介质包括存储在其中的计算机可执行指令,这些指令响应于执行使计算系统执行各操作。操作包括采集关于多个属性的参考数据,并创建包括参考数据和多个属性的一个或多个域。操作还包括编译一个或多个域作为可再使用的知识库,其中该一个或多个域包括基本域和合成域。在一示例中,操作进一步包括实现计算机辅助的知识发现以采集参考数据。
此处,以上已经呈现了用于实现基于知识的数据质量解决方案的实施例中的某些的概览。作为接下来的内容的向导,更详细地描述基于知识的数据质量管理的各示例性、非限制性实施例和特征。随后,为了附加说明,给出一些非限制性实现和示例,之后是其中可实现这些实施例和/或特征的代表性网络和计算环境。
基于知识的数据质量解决方案
本文中所公开的各个方面提供针对数据质量解决方案的知识管理、知识应用、以及管理服务。知识管理包括创建包含关于数据集的信息(例如,参考数据)的知识库。知识库可包括诸如如何净化数据、如何从数据学习、如何连接外部源(例如,提供知识管理的外部源)等等的信息。在一些方面中,知识管理和相关联的参考数据管理可包括创建和管理数据质量知识库,从内部(例如,机构内部)数据样本发现知识,以及用第三方参考数据进行探查和集成。应用知识包括净化数据、修正数据、执行匹配、执行去重复、和数据的标准化、 以及其它应用。管理服务可包括用于监视和控制数据质量过程的工具。
在一些方面中,提供了调整数据的用户访问权的安全模型。例如,每个用户可具有不同的角色和与该角色相关联的不同凭证。在三个用户的示例中,第一用户可以是管理者, 第二用户可创建知识,而第三用户可净化数据并使用数据。根据一方面,安全模型可被配置成维护知识库的完整性。
通过利用所公开的各个方面,数据可被净化并且可通过应用数据质量解决方案的持续过程来保持纯净。基于此,企业数据中的置信度可被构建、恢复和/或扩展。此外,数据质量结果可快速地获得,而无需等待数周或数月以便完成手动数据质量过程。
通过参考用于提供通过分离的知识采集和应用实现的数据质量解决方案的一个或多个非限制性方式进行的进一步描述,图I大致地示出了示例性计算系统的框图。该示例性计算系统被配置成搜集有关感兴趣数据的知识(例如,来自内部和/或外部源的一个或多个数据集)以创建知识库并使用该知识库来精炼数据。例如,原始数据集可被精炼以产生与原始数据集相比具有改进质量的数据集。根据一些方面,该示例性计算系统实现采集与数据集相关的知识、以及因变于该知识可对数据执行的处理的分离。
图I所示的计算系统包括具有一个或多个结构化数据集110的环境100。例如,结构化数据可以包括但不限于数据库、表格、电子表格等的多种格式保留。将来自各个源的数据收集成结构化数据已呈指数级地增加。然而,数据在至少部分时间可具有低质量。例如, 可能存在附随至少一个数据子集的一个或多个问题(例如,不准确的数据、拼写错误的词、 数据部分缺失、误置数据、重复数据以及其它问题)。附随数据的问题(例如,低质量数据)的影响可对数据的使用有直接影响。例如,如果决定或分析基于低质量数据,则该决定或分析可固有地具有缺陷,且数据可能不再能作为分析的依据。
在一示例中,如果数据是手动输入(例如,通过操作人员)的,则出错(包括简单错误)的可能性在疲劳、生病、厌倦期间或其它原因会增大。在另一示例中,数据可源自带噪声源。例如,即使数据显现为已自动生成,有时人还是会对一个或多个自动传感器编程和/或手动输入数据,该程序可能会被粗心地编写,和/或所生成的数据由于另一未知原因具有低质量。
为了提供改进的质量解决方案以修正或补偿低质量数据,知识管理器组件120被配置成搜集与环境100中所包含数据(例如,一个或多个结构化数据集110)相关的信息。这种知识可基于一个或多个规则、推断、数据字段正确值的列表、与用户的交互以及其它源从数据(或数据子集)的描述搜集。
知识管理器组件120所搜集的信息或知识可涵盖不同类型的信息。例如,信息可以是针对属性(例如,电子表格中的列)可用的正确值列表。例如,如果列为“美国的州”,则可以有50个正确值(尽管如果结合完全拼写出的州名使用缩写,则可以有更多的正确值)。 值的紧凑列表(在一些情形中可以是数据的所有可能值的长列表)是有关可通过知识管理器组件120获得的数据的信息或知识的一种形式。
在另一示例中,通过知识管理器组件120搜集的信息可与拼写数据属性的通常错误相关。有关数据的信息的另一示例是同义字(例如,Jack (杰克^PJohn (约翰)、William (威廉)和Bill (比尔)、无和伪等等)。其它示例与规则相关。例如,规则可以是字段的长度不长于20个字符。规则的另一示例是字段以8个数位结束、或者字段以大写字母开始。 其它示例包括众多规则、描述、(一个或多个)数据的模型等等。
根据一些方面,知识管理器组件120获取信息,并从所采集的信息创建知识库 130。“知识库”是保留各种类型数据的原子单元。数据的“类型”可以是例如具有多个属性 (例如,10个属性或列)的消费者数据,针对该消费者数据创建知识库。知识库中所包括的是一个或多个域。“域”是包含有关特定数据的信息的原子单元。继续以上示例,域的示例包括地址、姓名、城市、年龄等等。
两种不同类型的域包括基本域和合成域。基本域是数据的属性(例如,公司名称) 且包含有关该数据的所有知识。例如,该域可包含核心值列表、错误列表、同义字列表、验证规则等等。在一些方面中,该域可包含向数据质量引擎指示该域内所包含的数据要由例如第三方来净化的陈述。
在一些情形中,利用一个以上的域。例如,对于地址,该地址可包含地址行、城市、 州和邮编。在该情形中,每个域可单独地修正。然而,如果不同的域一起作为一个实体来修正,则可获得改进的结果。例如,知晓邮编可有助于修正地址行或州。为了创建该有不同域的实体,创建合成域。该合成域包括若干域,并且这些域之间的关系在合成域内定义。
知识库130可由知识管理器组件120保留在本地。然而,根据各个方面,知识库 130通过云计算从外部源检索。云计算可提供各种计算能力(例如,软件、数据访问、存储服务等),而无需用户(例如,终端用户)知晓递送服务的系统的物理位置和/或配置。
在一些方面中,保留在知识库130中的信息是第三方(例如,提供信息的商用数据库)提供的信息,有时称为外部参考数据或外部参考源。在其它方面中,保留在知识库130中的信息是数据的用户(例如,与环境100相关联的机构)所编译的信息,称为内部参考数据。 例如,用户能创建内部参考数据,且该数据可通过知识管理器组件120编译到知识库内。此外,知识库可被上传至云用于储存和检索用途,以供后来使用和/或修改。
基于由知识管理器组件120搜集的参考数据,数据增强组件140被配置成应用知识来对数据执行操作以提高数据的质量。如在本文中使用的“数据质量”表示数据适于在商业(以及非商业)过程中使用的程度。数据的质量可通过各种数据质量度量来定义、测量和管理。质量度量的示例包括完整性、符合度、一致性、精确性、重复度、及时性等等。在一些方面中,数据质量可通过人、技术和过程来实现。
数据增强组件140可被配置成基于知识库130中所包括的参考信息来净化数据。 例如,可因变于参考信息来分析数据行,并且可修正该行内的错误。在另一示例中,数据增强组件140可被配置成配齐数据的缺失部分。在又一示例中,数据增强组件140可被配置成修正常见错误拼写、识别同义字、和/或执行其它功能。
根据另一示例,数据增强组件140可被配置成执行数据的匹配(有时称为去重复或实体解析)。匹配或去重复是从实体列表开始、且解析该列表以使每个实体仅被包括一次的过程。例如,数据库包括消费者列表,并且可以假设每个消费者仅列出一次。然而,情形是单个消费者会因为错误拼写或替代拼写而重复出现(例如,该列表包括“Tom Mangas”, “Thomas Mangas”, “Tom B.Mangas”, “Mr. Mangas”等等,这些全部指同一人)。 在另一示例中,同一人可列有不同地址、不同电话号码、不同电子邮件别名等等。如果替代名与不同地址、电话号码等等组合,则数据重复问题会是复合式的。由此,机构所具有的消费者的数量可能是过分膨胀的,这可导致其它问题(例如,不实际的企业成长)。数据增强组件140被配置成识别这些重复数据,并且合并重复数据以产生单个实体,和/或选择实体之一作为重复数据的代表且删除其它(重复)实体。
如由数据增强组件140执行的对数据的改变或改进可被传达至知识管理器组件 120,并保留为知识库130的一部分。根据一些方面,在数据增强组件140对数据执行各种操作之后(例如,由用户)对数据的修改可由知识管理器组件120监视,并应用至知识库130。 可以理解,知识管理器组件120可执行进行中的信息发现以允许知识库130以及时的方式更新。
在一实施例中,图I所示的计算系统在操作上可不同于常规的计算系统,以便提供胜于可由采用一般解决方案的计算系统获得的益处的额外益处。这种一般解决方案由于数据的实际知识未知而会受到限制,因此对于可应用于数据的修正的数量或修正的深度存在限制。例如,本文中所揭示的计算系统可基于具有数据的知识来提供数据质量解决方案, 该数据的知识包括数据内容的知识、数据的源、以及数据的期望用途。在一示例中,计算系统可创建关于数据的知识,并使用该知识来对数据进行净化或去重复。此外,这种知识是可再使用的。例如,信息工作者和信息技术专业人员(例如,用户)可合并和再使用各种数据质量改进和企业数据管理过程(例如,净化、匹配、标准化、丰富等等)的知识。
由此,所公开的各个方面可提供与以一致、受控、被管理、集成和快速的方式传递经改进的数据质量有关的益处,经对改进的数据质量进行的传递提供经改进的商业结果。 本文中所揭示的数据质量解决方案知识库方法使机构能通过其用户有效地捕捉和精炼数据质量知识库中的数据质量相关知识。11
图2示出根据一方面的配置成提供知识驱动的数据质量解决方案的系统200的框图。系统200可被配置成获取有关一个或多个数据集的知识,并基于所获取的知识对数据集执行处理。根据一方面,获取知识和执行处理是分离和不同的过程。根据不同方面,可获得的关于数据的信息或知识的量和/或深度对知识应用于可对数据执行的处理(例如,净化数据、数据的去重复、或其它功能)的效率有直接影响。
系统200中所包括的是可被配置成获取关于数据集210 (例如,感兴趣的数据)的知识的知识管理器组件205。系统200中还包括的是可被配置成基于知识库中所包含的信息改进数据质量的数据增强组件215。知识库可被保留在系统200或其信息正在被处理的机构外部。例如,知识库可被发布,并储存在外部存储位置中(例如,云中)。然而,在一些方面,知识库被保留在本地(例如,系统200本地)。
根据一些方面,数据增强组件215被配置成对数据集210对于使用目的而言是足够还是不足进行定义。例如,由数据增强组件215执行的定义可基于将在以下进一步详细讨论的一个或多个质量度量。如果数据集210对于使用目的而言不足,则数据增强组件215 被配置成部分地基于知识管理器组件205获取的信息和/或基于质量度量对数据执行处理。
知识管理器组件205被配置成搜集与数据集210相关的信息。这种信息搜集可由知识管理器组件205基于显式证据和/或隐式证据来执行。该显式证据可包括直接从源(例如,用户、第三方等)接收的信息。隐式证据可包括基于数据本身获得的信息(例如,确定电子表格中的列包含州名等)。
为了获得显式证据和/或隐式证据,知识管理器组件205可包括被配置成获取关于数据集210的信息或参考数据225的采集模块220。
在一示例中,参考数据225可从用户环境230和/或外部环境235 (例如,用户外部)获得。但是,在一些方面中,用户环境230可包括用户数据240,该用户数据240被储存在外部环境235中(例如,云计算)。用户数据240可以是由用户生成的数据(例如,由用户直接输入的数据,先前通过外部源获得且由用户修改或与其它用户数据组合的数据,等等)。 外部环境235包括第三方数据245,其可包括来自一个或多个外部源的数据,这些外部源诸如供应信息的第三方数据服务、从其导入数据的数据库等等。用户数据240和/或第三方数据245可包括数据本身以及有关数据的信息(例如,知识库)。
通过采集模块220获取的参考数据225可包括提供数据集210的语义理解的信息。例如,语义理解包括与数据集210的同义字或其它组分相关的知识。语义理解的示例是知晓“Corp. ”和“Corporation”(公司)旨在被解释为同一词。为便于采集模块220获取此知识,数据拥有人或所有者可与采集模块220 (和知识管理器组件205和/或数据增强组件215的其它组件)交互,以提供至少一些语义理解。根据一些方面,采集模块220可被配置成从外部环境235 (例如,外部源、第三方数据库等)获取对数据集210的语义理解。
例如,采集模块220可被配置成发送对标识各种属性或电子表格内列的内容的请求。列标识可以是该列包含适当名称、该列包含地址、该列包含销售额等等。采集模块220 所获取的其它信息可包括各种属性的内容和该内容的相关源的标识(例如,对从哪里获取数据、对用来获取诸如自动生成数据或手动输入数据的数据的方法等等的标识)。
根据一方面,采集模块220被配置成提供计算机辅助的知识采集。例如,采集模块220可与发现模块250交互,该发现模块250被配置成审阅数据集210中的至少一个样本, 并尝试基于参考数据225中所包含的各种标准(例如,规则/策略、常见错误拼写等等)来理解数据。发现模块250 (或另一系统200的组件)可请用户确认(例如,通过用用户计算环境显示的提示)通过发现模块250的理解是否正确。根据一方面,发现模块250可执行与用户的来回交互以便于获取其它关于数据集210的信息。
根据一些方面,发现模块250 (以及知识管理器组件205和/或数据增强组件215 的其它模块)可通过接口组件255与用户交互。接口组件255可以提供图形用户界面(⑶I )、 命令行界面、语音界面、自然语言文本界面等等。例如,可以呈现向用户提供对各种请求进行加载、导入、选择、读取等的区域或手段的⑶I,并且该⑶I可包括呈现这些动作的结果的区域。这些区域可以包括已知的文本和/或图形区域,包括对话框、静态控件、下拉菜单、列表框、弹出式菜单、编辑控件、组合框、单选按扭、复选框、按钮以及图形框。另外,可使用便于信息传达的实用工具,诸如用于导航的垂直和/或水平滚动条以及用于确定一区域是否可被查看的工具条按钮。
用户还可与这些区域交互,以便例如通过诸如鼠标、滚球、键区、键盘、笔、用照相机捕捉的姿势和/或语音激活等各种设备来选择和提供信息。通常,诸如键盘上的按钮或回车键等机构可在输入了信息之后采用以启动信息传达。然而,可以理解,所公开的各方面不限于此。例如,只突出显示一复选框可以启动信息传达。在另一示例中,可以使用命令行界面。例如,命令行界面可通过提供文本消息、产生音调等来向用户提示信息。用户然后可提供适当的信息,诸如对应于在该界面提示中提供的选项的字母数字输入或对提示中所提出的问题的回答。可以理解,命令行界面可以与⑶I和/或API结合使用。另外,命令行界面还可以与硬件(例如,视频卡)和/或具有有限的图形支持的显示器(例如,黑白、以及 EGA)、和/或低带宽通信信道结合使用。
在一示例中,采集模块220被配置成处理来自数据集210的一个样本,并关于什么值是重要的作出判定。基于该判定,发现模块250可索要来自用户的(例如,通过接口组件 255)关于判定是否正确的反馈。基于从用户处接收到的反馈,关于哪些值重要的信息可被保留(例如,在知识库中)。如果来自用户的反馈指示由采集模块220作出的判定不正确,则可索要来自用户的进一步输入以改进系统性能。
基于知识管理器组件205保留或形成的参考数据225,数据增强组件215被配置成对数据集210执行处理。该处理可包括净化数据、匹配数据元素(例如,去重复)、以及用于改进数据的其它过程。如果数据具有足够的质量,则数据增强组件215可确定对数据的修改将不会是有益的。
在一方面,数据增强组件包括被配置成评估与数据集210相关联的数据质量的质量分析模块260。数据质量表示数据适合商业用途(以及其它用途)的程度。因为数据可由跨机构和地理边界的多个系统和多方生成,所以数据常常包含不准确、不完整、或陈旧的数据元素。质量分析模块260被配置成利用围绕数据质量的各种数据质量问题来解决和修正这些问题。根据一些方面,质量分析模块260可确定质量问题不存在或者数量不够多,因此,将不执行数据的净化(或其它处理)。
在一示例中,质量分析模块260可将一致性用作数据度量。一致性涉及多个值是否表示相同的含义、和/或多个数据元素是否被一致性地定义和理解。在一示例中,质量分析模块260可确定收入是否总是用美元来表示,或者收入是否还可能用欧元来表示。
质量分析模块260还可执行对数据是否完整和相关信息是否可用的分析。完整性查询可询问数据值是缺失还是处于不可使用状态的问题。在一些情形中,缺失数据是不相关的,但当缺失的信息对所定义的商业过程是关键的时候,完整性就变成问题了。完整性缺少的一个示例是可能具有消费者数据库中20%的姓字段为空白的数据的系统。在另一示例中,系统可具有50%的邮编列为“99999”的数据。在又一示例中,如果存在其中总共75,000 个记录中只呈现50,000个值的电子邮件字段,则电子邮件字段是66. 6%完整的。
可由质量分析模块260分析的另一质量度量或问题涉及符合度。符合度涉及是否期望数据值符合所定义的格式,并且如果符合则所有(或基本上所有)的值是否符合那些格式。维持与所定义格式的符合度对数据表示、呈现、集聚报告、搜索和建立关键关系有用。 例如,两个不同系统中的性别代码(例如,男、女、未知)可不同地表示。在第一系统中,代码被定义为“M”,“F”和“U”,而在第二系统中,代码显现为“0”,“I”和“2”。质量分析模块 260可被配置成因变于与数据相关的知识(例如,第一系统和第二系统中的列都与如知识管理器组件205所确定的性别代码相关)使这两个系统相关。
质量分析模块260可分析的另一度量是数据的准确性。例如,质量分析模块260 可确定数据对象是否准确地表示了期望数据对象建模的“真实世界”值。例如,产品名称或人名、地址的不准确拼写、以及甚至非当前数据(例如,过时)的不及时会影响操作和分析应用。例如,消费者的地址是有效的USPS地址,但是邮编不准确并且消费者姓名包含拼写错误。在另一示例中,数据的准确性可与数据是否准确地表示了实际或可确认源相关。例如, 供应商可能被列为“活动”,但却在六年前破产。
质量分析模块260还可被配置成评估数据的有效性、或数据值是否落在可接受范围内 。例如,对于职位级别51和52,薪水值要在$60,000至$120,000之间。质量分析模块 260可审阅数据,且确定该数据是否符合可接受范围。
质量分析模块260可分析的另一度量是数据的排他性。当数据出现数次时,这种排他性数据质量问题会产生。例如,在系统中出现了 Jack Ryan和John Ryan两者,但是他们却是同一个人。由此,质量分析模块260可确定在数据集内是否存在相同数据对象的多个非必要表示。跨多个系统无法对每个实体维护单个表示造成了多个弱点和风险。测量重复数据在记录总数中所占百分比。可存在重复的个人、公司、地址、生产线、帐单等等。以下示例表格示出数据集中存在的重复记录。
权利要求
1.一种用于数据质量解决方案的系统,包括 配置成采集关于第一数据集和第二数据集的数据信息的访问模块(340); 配置成针对所述第一数据集和所述第二数据集创建一个或多个域的域创建模块(385);以及 配置成集聚所述一个或多个域并用集聚后的域填充知识库(330)的编译模块(390),其中所述知识库(330)用于处理一个或多个数据质量集。
2.如权利要求I所述的系统,其特征在于,所述域创建模块(385)被配置成因变于数据或数据的属性来创建所述域。
3.如权利要求I所述的系统,其特征在于,所述域创建模块(385)被进一步配置成创建基本域,所述基本域包括与所述第一数据集或所述第二数据集的属性相关联的数据质量问题。
4.如权利要求I所述的系统,其特征在于,所述域创建模块(385)被进一步配置成基于跨两个或更多个域应用的规则来创建合成域。
5.如权利要求I所述的系统,其特征在于,所述访问模块(340)被配置成通过辅助的知识采集过程采集数据信息。
6.如权利要求I所述的系统,其特征在于,所述知识库(330)包括封装为单个可移动单元的多个域。
7.如权利要求I所述的系统,其特征在于,所述知识库(330)以可共享和可下载格式储存。
8.如权利要求I所述的系统,其特征在于,进一步包括 配置成获取关于第一数据集和第二数据集的语义信息的采集模块(220); 配置成部分地基于所述语义信息标识所述第一数据集和所述第二数据集之间的重复数据的匹配模块(440);以及 配置成与所述第一数据集和所述第二数据集的组合大致同时地合并所标识出的重复数据的合并模块(450)。
9.如权利要求I所述的系统,其特征在于,进一步包括配置成捕捉与所述第一数据集和所述第二数据集的属性相关的历史信息的历史模块(370),其中所述历史信息被包括在域中。
10.如权利要求I所述的系统,其特征在于,进一步包括配置成捕捉与关联于所述第一数据集和所述第二数据集的源的数据质量度量相关的统计信息的统计模块(375),其中所述统计信息被包括在域中。
11.如权利要求I所述的系统,其特征在于,进一步包括配置成作出与所述第一数据集或所述第二数据集相关的一个或多个推断的推断模块(380),其中所述一个或多个推断被包括在域中。
12.—种方法,包括 获取(1500)与属性和参考数据服务提供者相关联的参考数据; 针对每个属性创建(1510)多个域,其中所述多个域中的每一个包括属性和与该属性相关联的参考数据;以及 将所述多个域的编译储存(1520)为知识库。
13.如权利要求12所述的方法,其特征在于,所述获取包括获取对所述属性的参考数据定义。
14.如权利要求12所述的方法,其特征在于,所述获取包括使规则和所述属性的一个或多个相关联。
15.如权利要求12所述的方法,其特征在于,所述创建包括创建包括与所述属性相关联的数据质量问题的基本域。
全文摘要
本发明涉及基于丰富知识库的知识驱动的数据质量解决方案,具体为用于基于知识的数据质量解决方案的域。该数据质量解决方案可提供连续的改进,并且可基于连续(或持续)的知识采集。该数据质量解决方案可建立一次,且可重新用于多次数据质量提高,其可针对相同数据或相似数据。所公开的各个方面容易使用且集中于生产力和用户体验。此外,所公开的各个方面是开放和可扩展的,且可应用于基于云的参考数据(例如第三方数据源)和/或用户生成的知识。根据一些发明,所公开的各个发明可与数据集成服务集成。
文档编号G06F17/30GK102982097SQ20121043508
公开日2013年3月20日 申请日期2012年11月2日 优先权日2011年11月3日
发明者J·玛尔卡, E·齐克利克, E·胡迪斯, M·拉维夫, G·皮莱格, D·法伊比希 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1