用于元数据管理的系统的制作方法_2

文档序号:9422680阅读:来源:国知局
据进行交互。例如,用户终端152可以包括用户150用来与元数据管理系统130进行交互的图形用户界面。用户可能能够查询和/或编辑描述数据处理系统120的各个版本的组件的元数据。
[0027]元数据管理系统130向用户150提供的功能的其中之一是用以生成和查阅数据志表示(例如,数据志图、数据志表或反映数据处理系统120的组件之间的依赖性的其它表示)的能力。
[0028]在一些示例中,数据存储器140可以包括基础数据存储器和接口数据存储器二者。基础存储器可以存储技术元数据,并且可以包括应用程序及其诸如图和变换等的相关元数据。除存储技术元数据外,基础数据存储器还可以进行包括依赖性分析(例如,如以下更详细地说明,计算数据志)的各种类型的分析,还可以接收和存储这种分析的结果。在一些示例中,可以组合基础数据存储器和接口数据存储器并且作为单个数据存储器来实现。
[0029]尽管技术元数据在各种功能上对开发者是有用的,但存在许多需要分析和操作的更高级别的元数据的实例。有时称为“企业”或“业务”元数据的该更高级别的元数据在数据分析中经常有用。业务元数据的一些示例包括数据管理工作,该数据管理工作指示哪个员工负责数据和作为文件和文件内的字段的业务定义的数据字典。业务元数据超越数据的技术描述,并且可以存储在诸如接口数据存储器等的与基础数据存储器分离的平台上。
[0030]以元数据对象的形式存储在数据存储器140中的信息使得能够对应用程序和利用这些应用程序所处理的数据进行各种类型的分析。例如,如以下进一步讨论,用户可以获得针对与数据志有关的问题(例如,给定值从哪里来?如何计算出了输出值?哪些应用程序产生并且依赖于该数据?)的答案。开发者可以理解所提出的修改的后果(例如,如果其发生改变,则还将影响什么?如果该源格式发生改变,则将影响哪些应用程序?)。用户/开发者还可以获得针对包含技术元数据和业务元数据二者的答案的问题(例如,哪些组负责产生和使用该数据?谁最后改变了该应用程序?他们作了什么改变?)
[0031]数据存储器140能够追踪所存储的元数据对象的状态。将存储在数据存储器140中的对象版本化,使得可以检查如上周、上个月或去年的事项的状态,并且将其与今天的事项的状态进行比较。数据存储器140可以收集作业追踪、或使得能够进行趋势分析(例如,我们的数据增长有多快?)和能力计划(例如,该应用程序用了多长时间运行?该应用程序处理了多少数据,以及速率是多少?应用程序消耗了什么资源?我们什么时候将需要添加另一台服务器?)的执行信息。
[0032]在一些情况下,可以从数据存储器140或数据的其它源提取关系(诸如志信息等)。接口数据存储器可以保持数据志的高级别汇总。志信息(或其它数据依赖性分析)可以在系统100内自动计算,也可以从外部系统接收,或者来自人工输入。例如,系统100可以接收已经通过人对代码进行分析所采集到和准备好的志信息。可以将志信息以各种预定格式(例如,电子表格)中的任何格式从文件导出至数据存储器140。
[0033]例如,数据志表示可以显示针对数据和/或表示数据存储器140中所存储的元数据对象的处理节点的端对端志,即,给定开始对象所依赖的对象(给定开始对象的源)和给定开始对象所影响的对象(给定开始对象的目标)。在一些实现中,可以生成数据志表示来反映描述数据处理系统120的元数据的两个以上版本之间的差异。例如,可以对组件(例如,图中的节点,或者表格中的一个或多个单元)的表示进行颜色编码以反映该组件的两个版本之间的差异。例如,通过在数据志的表示上覆盖两个版本的差异信息,可以使得用户能够更容易地评估在数据处理系统120的两个版本之间切换的系统范围影响。这从而可以减少对该数据处理系统的维护成本和潜在系统停机时间。
[0034]提供数据源102的存储装置相对于数据处理系统120可以是本地的,例如,存储在连接至运行数据处理系统120的一个或多个处理组件的计算机的存储介质(例如,硬盘驱动器108)上,或者相对于数据处理系统120可以是远程的,例如,通过远程连接而安装在与运行数据处理系统120的一个或多个处理组件的计算机进行通信的远程系统(例如,大型机110)上。在一些实现中,数据源102中的一个或多个数据源装置被不同的实体所操作并且它们可利用的元数据仅描述识别数据源和使得数据处理系统120能够从它们提取数据所需要的信息(例如,限于识别和应用程序编程接口(API)信息),从这种意义上而言,数据源102中的一个或多个数据源装置在数据处理系统120的外部。
[0035]图2A示出示例数据志图200的第一版本的示意图。该图示出数据存储和变换之间的依赖关系。数据经过用于对从一个或多个数据源到一个或多个数据宿(统一数据存储)的数据流进行处理的、由数据志图的节点所表示的数据处理组件的序列。可以利用在分开的处理装置上运行的处理来实现底层数据处理系统中的各种数据处理组件中的任何数据处理组件,或者可以利用在单个处理装置上运行的一个或多个处理来实现多个数据处理组件。在一些实现中,可以在输入数据记录到达(例如,响应于针对信用卡交易的请求)时连续地对其进行处理。在一些实现中,可以分批处理数据,其中对要利用数据志图200所反映的系统来处理的一组输入数据记录进行标识。
[0036]在该示例中,数据源“美国馈送”202将数据提供给“变换A”204变换。变换A 204对“美国馈送”202所提供的数据进行操作并且将结果存储在“中间数据集1”206数据存储器中。中间数据集1206数据存储器和“墨西哥馈送”208数据存储器将数据提供给“变换B”210变换。变换B 210变换使用从墨西哥馈送208和中间数据集1206提供的数据并且将结果存储在“输出数据集” 212数据存储器中。
[0037]图2B示出示例数据志图220的第二版本的示意图。第二版本可以是以上针对图2A所述的数据志图的第一版本的更近期版本或更新版本。第二版本还可以是可以与数据志的第一版本并行的数据志。
[0038]在该示例中,数据源“美国馈送”222将数据提供给“变换A”224变换。变换A 224对“美国馈送”222所提供的数据进行操作并且将结果存储在“中间数据集1”226数据存储器中。数据源“墨西哥馈送”228和“巴西馈送”238将数据提供给“变换C”230变换。变换C230变换对“墨西哥馈送”228所提供的数据进行操作并且将结果存储在“中间数据集2 ”232数据存储器中。
[0039]中间数据集1226数据存储器和中间数据集2232数据存储器将数据提供给“变换B ”234变换。变换B 234变换使用从中间数据集1226和中间数据集2232提供的数据并且将结果存储在“输出数据集” 236数据存储器中。
[0040]图2C示出描述数据处理系统的元数据的两个版本的示例数据志图240的示意图。在该示例中,将上述的第一版本与第二版本进行比较。数据志图240包括元数据的两个版本之间的差异的指示。在所示的示例中,利用等同于颜色编码的阴影图案来指示该差异。
[0041]在该示例中,数据源“美国馈送”242将数据提供给“变换A”246变换。变换A 246对“美国馈送”242所提供的数据进行操作并且将结果存储在“中间数据集1”248数据存储器中。数据源“墨西哥馈送”250和“巴西馈送”260将数据提供给“变换C”252变换。变换C 252变换对“墨西哥馈送” 250所提供的数据进行操作并且将结果存储在“中间数据集2” 254数据存储器中。
[0042]中间数据集1248数据存储器和中间数据集2254数据存储器将数据提供给“变换B ”256变换。变换B 256变换使用从中间数据集1248和中间数据集2254提供的数据并且将结果存储在“输出数据集” 258数据存储器中。
[0043]节点252、254和260的阴影指示数据处理系统的相应组件和数据存储器仅存在于该数据志的表示中的正在被比较的两个版本其中之一(例如,仅在第二版本中)。例如,在底层数据处理系统的第二版本中,变换C可以从无法匹配特定标准的数据流移除特定记录(例如,移除针对不居住在墨西哥城的客户的所有记录)。在底层数据处理系统的第一版本中,变换C不存在,因此包括针对墨西哥城客户的记录的所有记录将经由数据处理系统传递至数据流中的下一组件。可以将所传递的记录存储在数据存储器2中。由节点256所反映的变换B组件没有阴影,这指示其出现在两个版本中。在各版本中,变换B将对源自美国馈送、墨西哥馈送和巴西馈送的记录进行操作以填入输出数据集。变换B组件本身可以针对存储或显示来对从中间数据集I以及墨西哥馈送(针对版本I)或中间数据集2(针对版本2)接收到的数据进行格式化。例如,在第一版本中,报告可以包括来自产品订单的所有收入的总和,并且在第二版本中,报告a可以包括来自墨西哥城的居民的产品订单的所有收入的总和。尽管,变换C和输出数据集不变,但由于上游组件变换C插入到了一个版本而没有插入另一个版本,因此在两个版本之间变换C和输出数据集各自的输出可以是不同的。查
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1