用于元数据管理的系统的制作方法

文档序号:9422680阅读:423来源:国知局
用于元数据管理的系统的制作方法
【专利说明】用于元数据管理的系统
[0001]优先权要求
[0002]本申请要求2013年3月15日提交的美国专利申请61/790,074的优先权,其全部内容通过引用包含于此。
【背景技术】
[0003]本说明书涉及用于维护和比较数据处理系统的多个版本的系统。
[0004]企业使用诸如数据仓库、客户关系管理、数据挖掘等的复杂的数据处理系统来管理数据。在许多数据处理系统中,将数据从诸如数据库文件、操作系统、非结构文件(flatfile)和因特网等的许多不同的数据源拉入中央存储库。经常,在将数据载入数据系统之前对数据进行变换。变换可以包括整理(cleansing)、集成和提取。为了保持对数据及其源和存储在数据系统中的数据所发生过的变换的追踪,可以使用元数据。元数据(有时也称为“与数据有关的数据”)是描述其它数据的属性、格式、来源、历史和相互关系等的数据。元数据管理可以在复杂的数据处理系统中起到核心作用。
[0005]有时数据库用户可能想研究如何从不同的数据源获得特定数据。例如,数据库用户可能想知道数据集或数据对象是如何生成的或者是从哪个源导入的。将数据集回溯至获得该数据集的源称为数据志跟踪(data lineage tracing)(或“上游数据志跟踪”)。有时数据库用户可能想研究特定数据集是如何被使用的(称为“下游数据志跟踪”或“影响分析”),例如,哪个应用程序读取了给定数据集。数据库用户还可能有兴趣知道数据集是如何与其它数据集相关的。例如,用户可能想知道如果修改了数据集,则将影响哪些输出表。

【发明内容】

[0006]通常,本发明中所述的主题的一个创新方面可以实现为以下的方法,该方法包括接收在包括节点的第一图中选择第一节点的用户输入的动作。所述方法还包括接收与所述第一节点相关联的第一对象的第一数据志的动作,其中,所述第一对象具有类型,并且所述第一数据志描述所述第一对象与一个或多个数据集或变换之间的关系。所述方法还包括接收从包括节点的第二图选择第二节点的用户输入。所述方法还包括接收与所述第二节点相关联的第二对象的第二数据志的动作,其中,所述第二对象具有与所述第一对象的类型相同的类型,并且所述第二数据志描述所述第一对象与一个或多个其它数据集或变换之间的关系。所述方法还包括将所述第一节点和所述第一数据志与所述第二节点和所述第二数据志进行比较的动作。所述方法还包括基于所述比较生成报告的动作。
[0007]该方面的其它实施例包括相应的计算机系统、设备和记录在一个或多个计算机存储装置上的计算机程序,其中这些计算机系统、设备和计算机程序各自被配置为进行该方法的动作。一个或多个计算机的系统可被配置为通过将软件、固件、硬件或它们的组合安装在该系统上来进行特定动作,其中该一个或多个计算机在工作时使该系统进行这些动作。一个或多个计算机程序可被配置为通过包括如下指令来进行特定动作,其中这些指令在由数据处理设备执行的情况下使设备进行该动作。
[0008]上述和其它实施例可以各自可选地以单独或组合方式包括以下特征中的一个或多个。所述第一节点的类型可以是包括数据集的字段、数据集的列、数据集或变换的组的其中之一。所述图可以包括表示数据处理系统的组件的节点和表示数据处理系统的组件之间的数据流的有向边。差异可以限于所述第一对象和所述第二对象之间的结构差异。所述第一对象可以是对象的第一版本并且所述第二对象是所述对象的第二版本。所述方法还可以包括使用针对所述对象的所述第一版本的唯一标签和查找表来访问所述对象的所述第一版本。所述方法还可以包括使用针对所述对象的所述第二版本的唯一标签和查找表来访问所述对象的所述第二版本。所述对象的所述第一版本和所述对象的所述第二版本在修改历史中可以具有祖先-后代关系。所述对象的所述第一版本和所述对象的所述第二版本在修改历史中可以具有共同的祖先,但所述对象的任一版本不是所述对象的另一版本的后代。所述对象的所述第一版本和所述对象的所述第二版本可以同时描述所述数据处理系统所采用的实现方式。
[0009]方面可以包括以下优点中的一个或多个。一些实现可以使得能够进行多组件数据处理系统中的改变的影响分析。一些实现可以便于比较多组件数据处理系统的替代版本。一些实现可以便于维护复杂的多组件数据处理系统。一些实现可以减少多组件数据处理系统的开发和维护成本。
[0010]通过以下的说明书和权利要求书,本发明的其它特征和优点将变得明显。
【附图说明】
[0011]图1是用于管理数据处理系统的多个版本的元数据的系统的框图。
[0012]图2A?2C示出反映描述数据处理系统的两个版本的元数据之间的差异的数据志图的示例。
[0013]图3A示出比较两个不同的应用程序的数据集的报告的示例。
[0014]图3B示出比较两个数据集的报告的示例。
[0015]图3C示出比较目录的报告的示例。
[0016]图3D示出比较字段或列的报告的示例。
[0017]图3E示出反映描述数据处理系统的两个版本的元数据之间的差异的数据志表的示例。
[0018]图4是用于生成对数据处理系统的版本进行比较的数据志的表示的示例处理的流程图。
【具体实施方式】
[0019]元数据是描述数据的数据。元数据可以是技术的,即,元数据可以描述数据结构的规格,例如,数据结构的记录格式、图像的大小或图像的颜色深度。元数据还可以与业务相关,即,元数据可以提供与数据有关的非结构信息,例如,针对数据结构的记录系统、拍摄图像的时间或拍摄者的名字等。
[0020]元数据可以响应于底层系统或数据源的改变而改变。系统可以存储多个版本的元数据。用户可能希望将改变后的元数据与元数据的前一版本或者在元数据的多个版本之间进行比较。
[0021]一些实现为了比较针对多组件计算系统的元数据的多个版本而提供组件间的依赖性。使得用户能够评估版本之间的变化的系统范围影响(system-wide impact)。可以使用这些技术中的一些技术来比较元数据的分支或并行(例如,表示不同的地理区域中所配置的数据处理系统的实例)版本。可以在单个界面中比较元数据的多个版本的数据志。例如,可以对数据志的图形表示进行颜色编码以指示元数据版本所描述的计算系统中的哪些组件在版本之间是相同的或不同的。可以利用编码(例如,颜色编码)来进一步强调系统级别的影响以指示上游改变何时改变了组件的输出而不是组件本身。
[0022]还可以将数据志的比较表示为反映组件之间的依赖性的系统组件的表格列表。还可以启用元数据的结构比较(例如,用以从注释的改变中区分出有效改变)。在一些实现中,元数据的各个版本具有使用查找表来映射到各种系统组件的唯一版本标签。
[0023]图1是用于管理数据处理系统的多个版本的元数据的系统的框图。环境100包括数据源102,该数据源102可以包括诸如存储装置或与在线数据流的连接等的一个或多个数据的源,其中该一个或多个源各自可以以各种存储格式(例如,数据库表、电子表格文件、非结构文本文件或大型机所使用的原本格式)中的任何格式来存储数据。数据处理系统120包括数据处理组件(处理组件A 122、……、处理组件Z 124)。在诸如UNIX操作系统等的适当操作系统的控制下,数据处理系统120可以安装在一个或多个通用计算机上。例如,数据处理系统120中的处理组件(例如,处理组件A 122)可以包括包含使用多个中央处理单元(CPU)的计算机系统的结构的多节点并行计算环境,可以是本地的(例如,诸如SMP计算机等的多处理器系统)或本地分布式的(例如,作为集群所连接的多个处理器或MPP)、或者远程或远程分布式的(例如,经由局域网(LAN)和/或广域网(WAN)连接的多个处理器)、或者它们的任何组合。
[0024]在一些实现中,从包括基于不同的技术(例如,以不同的编程语言编写的软件或者由运行不同的操作系统的单独计算装置操控的模块等)的处理组件的意义上而言,数据处理系统是异构(heterogeneous)的。
[0025]数据处理系统120访问来自数据源102的数据,使用其处理组件(例如,122和124)来处理该数据以生成输出数据。数据处理系统120的用户可以直接存储和/或使用该输出数据。在一些实现中,可以导出输出数据,例如,写回数据源102中的一个或多个数据源或者写出至任何其它数据宿(data sink)。
[0026]元数据管理系统130收集描述数据处理系统120和/或其外部数据源102的操作的元数据。可以将描述数据处理系统120的组件(例如,处理组件A 122和/或外部大型机数据源110)的元数据存储在数据存储系统140上的关系数据库142中作为元数据对象记录。元数据管理系统130维护描述数据处理系统的一个或多个版本的元数据,其中该元数据包括对外部数据源102的描述,并且使得用户(例如,用户150)能够经由用户终端152的用户接口与元数
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1