表征数据存储系统中的数据源的制作方法

文档序号:8435849阅读:588来源:国知局
表征数据存储系统中的数据源的制作方法
【专利说明】表征数据存储系统中的数据源
[0001]相关申请的交叉引用
[0002]本申请要求2012年10月22日提交的序列号为61/716,909的美国申请的优先权,其通过引用合并于此。
【背景技术】
[0003]本说明书涉及表征(characterizing)数据存储系统中的数据源。
[0004]存储的数据集常包括各种特性未知的数据。例如,数据集的取值范围或典型值、数据集内的不同字段之间的关系、或不同字段中值之间的依赖关系可能是未知的。数据剖析(data profiling)可涉及检查数据集的源以确定这些特性。

【发明内容】

[0005]在一个方面中,一般地,一种用于表征数据的方法,包括:从接口读取数据到数据存储系统,并存储两组或更多组汇总数据,所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据;以及使用至少一个处理器处理所存储的各组汇总数据,以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息。所述处理包括:分析所存储的各组汇总数据,以选择存储了满足预定准则的数据的两个或更多个数据源,以及至少部分基于来自用于汇总所选择的数据源中的第一数据源的所存储的一组汇总数据的值与来自用于汇总所选择的数据源中的第二数据源的所存储的一组汇总数据的值之间的比较,来生成所述系统信息,所述系统信息包括用于识别包括在不同数据源中的记录的字段之间潜在的关系的信息。
[0006]各个方面可以包括一个或多个以下特征。
[0007]所述处理还包括:存储对应于相应各组汇总数据的数据单元,所述数据单元中的至少一些数据单元包括用于描述与对应的一组汇总数据相关联的一个或多个特性的描述性信息,以及基于从所存储的数据单元聚合得到的所述描述性信息来生成所述系统信息。
[0008]所述处理还包括方法:应用一个或多个规则到两个或更多个第二组汇总数据,聚合所述第二组汇总数据以生成第三组汇总数据,以及存储所述第三组汇总数据。
[0009]两个或更多个第二组汇总数据由相同记录格式的两个或更多个数据源推导出。
[0010]所述一个或多个规则对所述两个或更多个第二组汇总数据之间的一个或多个所选择的字段的值进行比较。
[0011]用于汇总存储在特定的数据源中的数据的所存储的一组汇总数据,对于所述特定的数据源中记录的至少一个所选择的字段而言,包括值条目的相应列表,每个值条目包括在所选择的字段中出现的值。
[0012]对应于特定的数据源的值条目列表中每个值条目还包括:在所选择的字段中出现该值的记录的数量的计数。
[0013]对应于特定的数据源的值条目列表中每个值条目还包括:识别在所选择的字段中出现该值的记录在所述特定的数据源内相应位置的位置信息。
[0014]所述位置信息包括所识别出的相应位置的比特向量表示。
[0015]所述比特向量表示包括经压缩的比特向量。
[0016]所述位置信息指向不再存储数据的位置,基于已存储的副本来重构该位置信息所指向的数据。
[0017]所述处理还包括:将一个或多个字段添加到所述多个数据源中的至少一个数据源的记录。
[0018]所添加的字段填充有由所述至少一个数据源的一个或多个所选择的字段或字段的片段计算出的数据。
[0019]所添加的字段填充有由所述至少一个数据源的一个或多个所选择的字段或字段的片段计算出的数据,并填充有来自所述至少一个数据源以外的数据(例如,来自查找以丰富该记录)。
[0020]所述处理还包括:将所述一个或多个字段添加到第一组汇总数据。
[0021]在另一方面中,一般地,一种用于表征数据的方法,包括:从接口读取数据到数据存储系统,并存储两组或更多组汇总数据,所述汇总数据用于汇总存储在所述数据存储系统中的不同相应数据源的数据;以及使用至少一个处理器处理所存储的各组汇总数据,以生成用于表征来自所述数据存储系统中多个数据源的数据的系统信息。所述处理包括:存储对应于相应各组汇总数据的数据单元,所述数据单元中的至少一些数据单元包括用于描述与对应的一组汇总数据相关联的一个或多个特性的描述性信息,以及基于从所存储的数据单元聚合得到的所述描述性信息来生成所述系统信息。
[0022]各个方面可以包括一个或多个特征。
[0023]用于汇总第一数据源中存储的数据的至少第一组汇总数据,对于所述第一数据源中存储的记录的至少一个字段而言,包括在所述字段中出现的特异值的列表以及每个特异值所出现的记录的数量的相应计数。
[0024]用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述与所述第一组汇总数据相关联的一个或多个潜在问题的问题信息。
[0025]所述一个或多个潜在问题包括:被检测为候选主关键字字段的字段中存在重复值。
[0026]用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述所述第一数据源中存储的记录的字段的填充度的填充信息。
[0027]用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述所述第一数据源中存储的记录的字段中出现的值的唯一性程度的唯一性信息。
[0028]用于描述与所述第一组汇总数据相关联的一个或多个特性的描述性信息包括:用于描述对所述第一数据源中存储的记录的字段中出现的值加以表征的一个或多个重复模式的模式信息。
[0029]在另一方面,一般地,一种用于表征数据的计算机程序,存储在计算机可读存储介质上,所述计算机程序包括用于使得计算机系统执行上述方法中任一种的各个步骤的指令。
[0030]在另一方面,一般地,一种用于表征数据的计算系统,所述计算系统包括:数据存储系统,和被配置为从数据存储系统接收数据的输入设备或端口 ;以及至少一个处理器,被配置为实施上述方法中任一种的各个步骤。
[0031 ] 各个方面可以包括一个或多个以下优点。
[0032]在一些数据处理和/或软件开发环境中,数据质量跟踪程序中的一个方面包括在数据存储系统内对数据源(多个)进行剖析,以生成特征描述,其使得该程序能够对数据质量进行量化。特征描述中的信息和从特征描述中提取的数据质量信息使得用户或数据分析员能够更好地理解该数据。除了特征描述中的信息以外,诸如唯一值和特异值的计数、最大和最小值或共同和非共同值的列表、字段特定验证规则(例如,“在信用卡号字段中的值必须是16-位数字”)等可以在剖析之前推断出,并且特征描述将包括逐个字段基础上的每个验证规则的无效例的计数。从长远来看,因为对具有相同格式和出处的一系列数据源进行了剖析,所以数据质量指标(例如,“具有无效的信用卡号的记录的分数比例(fract1n)”)可以被定义和用于随着时间的推移监测数据质量。
[0033]对于某些程序,数据剖析和数据质量跟踪基本上在逐个字段基础上(因此在一次一个源的基础上)构思而成,(尽管允许涉及跨越源配对的字段的规则)。数据剖析中的验证规则被应用于字段,或字段的组合、字段级,并且在剖析之前被指定,并用作对字段特定值进行分类。多个验证规则可被应用到同一字段,导致包含在被分析的记录的该字段中的值的更多样的分类,而不是简单地分为有效的或无效的。
[0034]在剖析之后,在为数据源中的特定字段初始定义之后,可应用数据质量度量。数据质量度量的值可聚合到一定层级上的数据质量测量值,以给出多组相关字段视图。例如,顾客数据中“first_name (名字)”和“last_name (姓氏)”字段的关于质量和填充度的字段特定数据质量度量能够被聚合到“顾客姓名”的数据质量测量值,其依次被与“顾客地址”的类似的经聚合的数据质量测量值结合,以计算“顾客信息”的数据质量测量值。汇总仍然是数据特定的:数据质量测量值“顾客信息”的意思和用途来源于包含顾客数据的字段中的原始数据(相对于例如生成数据而言)。
[0035]然而,在某些情况下,数据质量的系统级视图是有用的。例如,在第一种情景下,一个公司有一个包括一千张表格的关系数据库。一千个数据特征描述可以包括关于每一个表格的大量有用的信息,但不提供整个数据库的视图,基本无需数据分析员的更多时间和精力投资。特别是,用不断发展的验证规则对完整的表格进行重新剖析的代价可能很高,而在开始剖析之前构建完整的一组验证规则的延迟可能很长。
[0036]在第二种情景下,一个公司迀移到一个新的计费系统。他们现有的计费系统包括多个数据库,好几个数据库包含有一千张以上表格。他们知道在开始数据迀移前应对数据进行剖析,但他们将如何及时消化所有的分析结果,更不用说利用它?此外,在适合迀移之前他们将需要确保数据符合预定义的数据质量标准。他们如何优化精力来清理数据?
[0037]在第三种情景下,公司有多个副本数据库,但这些数据库已经被允许进行更新,并可能独立修改。没有人知道它们是否仍然保持同步,或可能有什么差异。他们只是想无需构建验证规则来比较这些数据库一一他们更关注一致性而非有效性。
[0038]本文描述的技术使得能够基于应用一个或多个表征步骤来表征数据,包括在批量数据的情况下,可以在数据剖析和数据质量跟踪之间执行,既按照处理的次序又依据目的来进行。在一些实现方式中,表征步骤使得数据表征能够基于剖析结果,更有效地应用验证规则或者各种数据质量度量,而无需对数据存储系统中的所有数据源进行多个数据剖析。
[0039]从下面的描述中,以及从权利要求书中,本发明的其他特征和优点将变得明显。
【附图说明】
[0040]图1是用于表征数据源的系统的方框图。
[0041]图2是数据表征步骤的示意图。
【具体实施方式】
[0042]参照图1,数据处理系统100从存储在数据存储系统中的一个或多个数据源102 (例如,数据库表或含有记录集合的其他数据集)读取数据,并使用剖析引擎104对其进行剖析。存储数据源102的数据存储系统可以包括例如任何数量的数据库系统或存储介质,并且可以与数据处理系统100集成或经由一个或多个本地或网络连接进行耦接。剖析引擎104从元数据存储106读取记录格式信息、验证规
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1