一种用于生成索引的多个数据字段的方法及系统与流程

文档序号:16248836发布日期:2018-12-11 23:49阅读:173来源:国知局
一种用于生成索引的多个数据字段的方法及系统与流程

本发明涉及大数据处理技术领域,具体而言,涉及一种用于生成索引的多个数据字段的方法及系统。

背景技术

在数据溢出和数据过载的时代,从设备生成,接收,处理等原始数据的用户经常使用计算设备来分析这些数据以在其中找到含义或识别之前可能忽略的含义。随着云存储和计算的巨大增长,数据处理或托管提供商继续增加用户的数据存储容量。同时,随着处理器或微处理器处理能力的提高以及互联网访问速度的提高,基于客户端的数据处理和基于云的数据处理之间的差距已大大缩小。

除了别的以外,关注于数据存储和计算能力的不断增加,以解决对表记录数据组织结构方案和数据结构软件编程产生负面影响的问题。该问题涉及作为数据组织和/或结构的函数的时间量,其从数据集的查询获得期望的数据结果。计算能力和数据存储技术(例如,从硬盘驱动器盘(hdd)到固态驱动器(ssd))的增加试图减轻或减轻搜索,访问和处理数据的影响。但是,时间因素更加明显,尤其是当处理所需的数据集包括一个非常大的集合时,例如具有数百万或数十亿条记录的数据集。



技术实现要素:

本发明提出了一种用于生成索引的多个数据字段的方法,包括:

通过计算机可执行处理器识别多个数据集中的至少两个数据集的连接操作指令;

在不对所述至少两个数据集执行连接操作指令的情况下,所述计算机可执行处理器响应所识别的连接操作指令创建元连接索引,所述创建所述元连接索引包括:

通过计算机可执行处理器过滤在由连接操作指令中的参数标识的至少两个数据集之一中的值;

所述计算机可执行处理器构建第一列值位图索引,所述第一列值位图索引存储与所述参数所标识的至少两个数据集之一中的滤波后的记录值对应的索引标识符;

所述计算机可执行处理器构建第二列值位图索引,所述第二列值位图索引存储与所述参数所标识的所述至少两个数据集中的另一个中的所述过滤后的记录值相对应的索引标识符;

由计算机可执行处理器通过基于在至少两个数据集中找到的公共连接密钥关联至少两个数据集来生成元连接索引;

由计算机可执行处理器执行关于所创建的元连接索引的连接操作指令。

所述的方法,其中,所述公共连接密钥包括本地唯一标识符(luid)。

所述的方法,其中,所述元连接索引包括数据结构,所述数据结构具有用于标识所述公共连接密钥的数据字段和用于存储索引值的多个数据字段。

所述的方法,其中创建所述元连接索引包括创建所述元连接索引而不对所述至少两个数据集进行排序。

所述的方法,其中创建所述元连接索引包括创建所述元连接索引而不创建所述至少两个数据集的临时表。

所述的方法,其中创建所述元连接索引包括创建所述元连接索引而不对所述至少两个数据集进行文件搜索操作。

一种计算机化系统,用于生成表示用于存储在非暂时性计算机可读介质上的元连接索引的多个数据字段,包括:

用于存储数据集的存储器;

计算机可执行处理器,可由存储器访问,被配置用于执行计算机可执行指令,用于:

接收来自用户的数据库查询指令,用于连接至少两个数据集中的数据;

识别多个数据集中的至少两个数据集的连接操作指令;

而不是对存储器中的至少两个数据集执行连接操作指令,响应于所识别的连接操作指令创建元连接索引,所述创建元连接索引包括:

过滤由连接操作指令中的参数识别的至少两个数据集之一中的记录值;

构建第一列值位图索引,存储与由参数识别的至少两个数据集中的一个中的过滤记录值相对应的索引标识符;

构建第二列值位图索引,存储与由参数识别的至少两个数据集中的另一个中的过滤记录值相对应的索引标识符;

通过基于在至少两个数据集中找到的公共连接密钥关联至少两个数据集来生成元连接索引;

和由计算机可执行处理器执行关于所创建的元连接索引的连接操作指令。

所述的系统,其中,所述公共连接密钥包括本地唯一标识符(luid)。

所述的系统,其中所述元连接索引包括表格。

所述的系统,其中所述处理器被配置为创建所述元连接索引包括所述处理器被配置为在不首先对所述至少两个数据集进行排序的情况下创建所述元连接索引的所述元连接索引;其中所述处理器被配置为创建所述元连接索引包括:所述处理器被配置为创建所述元连接索引所述元连接索引,而不创建所述至少两个数据集的临时表;其中所述处理器被配置为创建所述元连接索引包括:所述处理器被配置为在不对所述至少两个数据集执行文件搜索操作的情况下创建所述元连接索引的所述元连接索引。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。

图1是本发明的用于生成索引的多个数据字段的方法的示意图。

具体实施方式

为了使得本发明的目的、技术方案及优点更加清楚明白,以下结合其实施例,对本发明进行进一步详细说明;应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。对于本领域技术人员而言,在查阅以下详细描述之后,本实施例的其它系统、方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内、包括在本发明的范围内,并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征,并且这些特征根据以下将详细描述将是显而易见的。

实施例一:

如图1所示,是本发明的用于生成索引的多个数据字段的方法的示意图。包括:

通过计算机可执行处理器识别多个数据集中的至少两个数据集的连接操作指令;

在不对所述至少两个数据集执行连接操作指令的情况下,所述计算机可执行处理器响应所识别的连接操作指令创建元连接索引,所述创建所述元连接索引包括:

通过计算机可执行处理器过滤在由连接操作指令中的参数标识的至少两个数据集之一中的值;

所述计算机可执行处理器构建第一列值位图索引,所述第一列值位图索引存储与所述参数所标识的至少两个数据集之一中的滤波后的记录值对应的索引标识符;

所述计算机可执行处理器构建第二列值位图索引,所述第二列值位图索引存储与所述参数所标识的所述至少两个数据集中的另一个中的所述过滤后的记录值相对应的索引标识符;

由计算机可执行处理器通过基于在至少两个数据集中找到的公共连接密钥关联至少两个数据集来生成元连接索引;

和由计算机可执行处理器执行关于所创建的元连接索引的连接操作指令。

所述的计算机化方法,其中,所述公共连接密钥包括本地唯一标识符(luid)。

所述的计算机化方法,其中,所述元连接索引包括数据结构,所述数据结构具有用于标识所述公共连接密钥的数据字段和用于存储索引值的多个数据字段。

所述的计算机化方法,其中创建所述元连接索引包括创建所述元连接索引而不对所述至少两个数据集进行排序。

所述的计算机化方法,其中创建所述元连接索引包括创建所述元连接索引而不创建所述至少两个数据集的临时表。

所述的计算机化方法,其中创建所述元连接索引包括创建所述元连接索引而不对所述至少两个数据集进行文件搜索操作。

实施例二:

一种计算机化系统,用于生成表示用于存储在非暂时性计算机可读介质上的元连接索引的多个数据字段,包括:

用于存储数据集的存储器;

计算机可执行处理器,可由存储器访问,被配置用于执行计算机可执行指令,用于:

接收来自用户的数据库查询指令,用于连接至少两个数据集中的数据;

识别多个数据集中的至少两个数据集的连接操作指令;

而不是对存储器中的至少两个数据集执行连接操作指令,响应于所识别的连接操作指令创建元连接索引,所述创建元连接索引包括:

过滤由连接操作指令中的参数识别的至少两个数据集之一中的记录值;

构建第一列值位图索引,存储与由参数识别的至少两个数据集中的一个中的过滤记录值相对应的索引标识符;

构建第二列值位图索引,存储与由参数识别的至少两个数据集中的另一个中的过滤记录值相对应的索引标识符;

通过基于在至少两个数据集中找到的公共连接密钥关联至少两个数据集来生成元连接索引;

和由计算机可执行处理器执行关于所创建的元连接索引的连接操作指令。

所述的计算机化系统,其中,所述公共连接密钥包括本地唯一标识符(luid)。

所述的计算机化系统,其中所述元连接索引包括表格。

所述的计算机化系统,其中所述处理器被配置为创建所述元连接索引包括所述处理器被配置为在不首先对所述至少两个数据集进行排序的情况下创建所述元连接索引的所述元连接索引。

所述的计算机化系统,其中所述处理器被配置为创建所述元连接索引包括:所述处理器被配置为创建所述元连接索引所述元连接索引,而不创建所述至少两个数据集的临时表。

所述的计算机化系统,其中所述处理器被配置为创建所述元连接索引包括:所述处理器被配置为在不对所述至少两个数据集执行文件搜索操作的情况下创建所述元连接索引的所述元连接索引。。

实施例三:

一种计算机化系统,用于生成表示用于存储在非暂时性计算机可读介质上的元组索引的多个数据字段,包括:

用于存储数据集的存储器;

计算机可执行处理器,可由存储器访问,被配置用于执行计算机可执行指令,用于:

接收数据库查询指令,用于对至少两个数据集中的数据进行分组;

识别所接收的数据库查询指令中的分组条件,用于对所述至少两个数据集中的数据值进行分组;

不是在存储器中的至少两个数据集上执行分组条件,而是响应于所识别的分组条件创建元分组索引,所述创建元分组索引包括:

识别至少两个数据集的连接操作指令;

过滤由连接操作指令中的参数识别的至少两个数据集之一中的记录值;

构建第一列值位图索引,存储与由所识别的参数识别的至少两个数据集之一中的记录值相对应的索引标识符;

构建第二列值位图索引,存储与由所识别的参数识别的至少两个数据集中的另一个中的记录值相对应的索引标识符;

和由计算机可执行处理器执行对所创建的元分组索引的分组条件。

所述的计算机化系统,其中,所述处理器还被配置为在构造所述第二列值位图索引之后执行以下计算机可执行指令:

通过基于在至少两个数据集中找到的公共连接关键字来关联至少两个数据集来构建元连接索引;和

将元连接索引与第一列值位图索引和第二列值位图索引相关联。

所述的计算机化系统,其中,所述处理器还被配置为聚合所述元组索引中的数据值的实例。

所述的计算机化系统,其中,所述公共连接密钥包括本地唯一标识符(luid)。

所述的计算机化系统,其中所述元连接索引包括表格。

所述的计算机化系统,其中所述处理器被配置为创建所述元连接索引包括所述处理器被配置为在不首先对所述至少两个数据集进行排序的情况下创建所述元连接索引的所述元连接索引。

所述的计算机化系统,其中所述处理器被配置为创建所述元连接索引包括:所述处理器被配置为创建所述元连接索引所述元连接索引,而不创建所述至少两个数据集的临时表。

所述的计算机化系统,其中所述处理器被配置为创建所述元连接索引包括:所述处理器被配置为在不对所述至少两个数据集执行文件搜索操作的情况下创建所述元连接索引的所述元连接索引。

虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。也就是说上面讨论的方法,系统或设备等均是示例。各种配置可以适当地省略,替换或添加各种过程或组件。例如,在替代配置中,可以以与所描述的顺序不同的顺序执行方法,和/或可以添加,省略和/或组合各种阶段。而且,关于某些配置描述的特征可以以各种其他配置组合。可以以类似的方式组合配置的不同方面和元素。此外,随着技术的发展许多元素仅是示例而不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而,可以在没有这些具体细节的情况下实践配置例如,已经示出了众所周知的电路、过程、算法、结构和技术而没有不必要的细节,以避免模糊配置。该描述仅提供示例配置,并且不限制权利要求的范围,适用性或配置。相反,前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。

此外,尽管每个操作可以将操作描述为顺序过程,但是许多操作可以并行或同时执行。另外,可以重新排列操作的顺序。一个过程可能有其他步骤。此外,可以通过硬件、软件、固件、中间件、代码、硬件描述语言或其任何组合来实现方法的示例。当在软件、固件、中间件或代码中实现时,用于执行必要任务的程序代码或代码段可以存储在诸如存储介质的非暂时性计算机可读介质中,并通过处理器执行所描述的任务。

综上,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,所述权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1