数据查询的方法及终端设备与流程

文档序号:17601664发布日期:2019-05-07 20:23阅读:283来源:国知局
数据查询的方法及终端设备与流程

本发明属于数据库存储技术领域,尤其涉及一种数据查询的方法及终端设备。



背景技术:

大数据时代,众多应用领域的数据量爆炸式增长,迫切需要研究和寻找有效的大数据存储管理方法,提供实时或者准实时的大数据查询分析能力,hbase系统为大数据的存储管理提供了一种具有高可扩展性的技术方法和系统平台。现有技术中,通常对hbase表的每个区域region建立单独的索引表,当查询需要的数据时,需要访问所有的region。在检索任务较重的情况下,查询数据过程会耗费大量不必要的计算资源,最终降低系统的并发查询吞吐量和系统的查询效率。



技术实现要素:

有鉴于此,本发明实施例提供了一种数据查询的方法及终端设备,以解决现有技术中在检索任务较重的情况下,查询数据过程会耗费大量不必要的计算资源,最终降低系统的查询效率的问题。

本发明实施例的第一方面提供了一种数据查询的方法,包括:

接收索引数据查询的请求;

根据所述请求,在索引内存缓存层中查询所述索引数据;

当所述索引内存缓存层中不包括所述索引数据时,在索引持久化存储层中查询所述索引数据;

当查询到所述索引数据时,返回所述索引数据以及对应的内容。

在一实施例中,在所述接收索引数据查询的请求之前,还包括:

根据hbase上存储的用户表中的非主键数据列建立索引表;

将所述索引表保存在所述索引持久化存储层上。

在一实施例中,所述索引表的索引表主键定义的格式为:

<用户表索引列名,用户表索引列值,用户表主键>。

在一实施例中,所述在索引持久化存储层中查询所述索引数据,包括:

在索引持久化存储层中保存的所述索引表的所述索引表主键中查询所述索引数据。

在一实施例中,在所述接收索引数据查询的请求之前,还包括:

当保存在hbase上的索引表中的数据的搜索频率大于阈值时,确定其为热点数据;

将所述热点数据保存在所述索引内存缓存层。

在一实施例中,所述索引内存缓层中所述热点数据的主键定义的格式为:

索引主键为<用户表索引列名,用户表索引列值>;

索引集合为{<用户表主键,{阈值<频繁访问列名,频繁访问列值>}>}。

在一实施例中,所述用户表索引列名用比所述用户表索引列名长度短的第一别名替代。

本发明实施例的第二方面提供了一种数据查询的装置,包括:

接收模块,用于接收索引数据查询的请求;

第一查询模块,用于根据所述请求,在索引内存缓存层中查询所述索引数据;

第二查询模块,用于当所述索引内存缓存层中不包括所述索引数据时,在索引持久化存储层中查询所述索引数据;

处理模块,用于当查询到所述索引数据时,返回所述索引数据以及对应的内容。

本发明实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述数据查询的方法所述的步骤。

本发明实施例的第四方面提供了一种计算机可读存储介质,包括:所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述数据查询的方法所述的步骤。

本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过根据接收到的索引数据查询的请求,在索引内存缓存层中查询所述索引数据;当所述索引内存缓存层中不包括所述索引数据时,在索引持久化存储层中查询所述索引数据;当查询到所述索引数据时,返回所述索引数据以及对应的内容。从而查询需要的数据时,不需要访问所有的region,并且极大的提高了查询速度和查询效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据查询的方法的实现流程示意图;

图2是本发明实施例提供的存储模型的示意图;

图3是本发明实施例提供的一种数据查询的装置的示例图;

图4是本发明实施例提供的另一种数据查询的装置的示意图;

图5是本发明实施例提供的终端设备的示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。

本发明实施例提供一种数据查询的方法,如图1所示,该方法包括以下步骤:

步骤101,接收索引数据查询的请求;

可选的,在本步骤之前,还包括:根据hbase上存储的用户表中的非主键数据列建立索引表,将所述索引表保存在所述索引持久化存储层上。

hbase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库,另一个不同的是hbase基于列的存储模式,而不是基于行的存储模式。

本实施例中,hbase可以为非主键索引表维护全局统一的region划分,为索引表提供可扩展性和容错性支持。如图2所示,hbase中可存储多个region,每个region中存储索引表、用户表以及值表。用户表中保存所有用户数据,为了避免对hbase非主键数据查询时进行全表扫描,提供快速的非主键查询能力,为保存在hbase用户表中的非主键属性建立索引表,并将索引表保存在hbase中,借助hbase获得良好的可扩展性和容错性。

可选的,索引表用来存储hbase用户表中的某个待查询非主键数据列的索引。由于索引表存储在hbase中,因此,索引表的每一行也需要一个主键。为此,本发明实施例为hbase用户表中待建立索引的非主键数据列定义如下格式的索引表主键:

<用户表索引列名,用户表索引列值,用户表主键>。

可选的,用户表索引列名可以用比所述用户表索引列名长度短的第一别名替代,第一别名也即简短别名。例如用户表索引列名为height,则第一别名可以为h,从而减少索引表主键存储空间的开销。

可选的,用户表索引列值为用户表中被索引列的用户表索引列名对应的值。

可以理解的,用户表主键即为用户表中被索引的记录的主键。在索引表主键中存储用户表主键有两个作用:一是保证了索引表主键的唯一性;二是提供了hbase用户表中被索引数据的地址,通过用户表主键,可快速获得用户表中被索引的数据。

值表用于保存用户表列值,因此值表的记录条数会比用户表小很多。

另外,在hbase上保存的索引表中的数据,有部分数据的访问频率较高,当访问频率大于阈值时,将此部分数据作为热点数据,并将所述热点数据保存在索引内存缓存层。阈值为根据经验设置的值。

可选的,索引内存缓存层中保存的热点数据可以隔一段时间更新一次,以保证热点数据的热度,例如隔一周更新一次,或者隔一个月更新一次。更新频率可以根据经验设置。

所述索引内存缓层中所述热点数据的主键定义的格式为:

索引主键为<用户表索引列名,用户表索引列值>;

索引集合为{<用户表主键,{阈值<频繁访问列名,频繁访问列值>}>}。

索引主键中包含的用户表索引列名和用户表索引列值与索引表中的用户表索引列名和用户表索引列值具有相同的含义,在此不再重复介绍。

索引内存缓层中的每个索引主键对应着一个具有相同用户表索引列值的索引集合,该集合包含了与用户表索引列值对应的所有索引表数据记录。与索引持久化存储层一样,集合中也附加了可能需要使用的其他非主键列数据。

步骤102,根据所述请求,在索引内存缓存层中查询所述索引数据。

可选的,本步骤为在索引内存缓存层中保存的热点数据中查询。

可选的,本实施例中在接收到索引数据查询的请求时,首先在热点数据中进行搜索,当在热点数据中可以直接搜索到所述索引数据时,则不需要在hbase上继续查询,返回所述索引数据以及对应的内容,查询流程结束,这样缩短了查询时间,极大的提高了查询速度和效率。

步骤103,当所述索引内存缓存层中不包括所述索引数据时,在索引持久化存储层中查询所述索引数据。

可选的,本步骤进一步查询时,在索引持久化存储层的所述索引表的所述索引表主键中查询所述索引数据。

步骤104,当查询到所述索引数据时,返回所述索引数据以及对应的内容。

可选的,索引表中包含索引表主键和非主键内容,当在索引表主键中查询到请求的索引数据时,可以返回索引数据对应的一条记录。

本发明实施例提供一种数据查询的方法,通过接收索引数据查询的请求,根据所述请求,在索引内存缓存层中查询所述索引数据;当所述索引内存缓存层中不包括所述索引数据时,在索引持久化存储层中查询所述索引数据;当查询到所述索引数据时,返回所述索引数据以及对应的内容,可以提高查询速度以及效率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

本发明实施例提供一种数据查询的装置,如图3所示,该装置包括:接收模块301,第一查询模块302,第二查询模块303,处理模块304。

接收模块301,用于接收索引数据查询的请求。

可选的,如图4所示,在接收模块301接收索引数据查询的请求之前,建立模块305,用于根据hbase上存储的用户表中的非主键数据列建立索引表;第一保存模块306,用于将所述索引表保存在所述索引持久化存储层上。

所述索引表的索引表主键定义的格式为:

<用户表索引列名,用户表索引列值,用户表主键>。

可选的,用户表索引列值为用户表中被索引列的用户表索引列名对应的值。

可以理解的,用户表主键即为用户表中被索引的记录的主键。在索引表主键中存储用户表主键有两个作用:一是保证了索引表主键的唯一性;二是提供了hbase用户表中被索引数据的地址,通过用户表主键,可快速获得用户表中被索引的数据。

可选的,如图4所示,检测模块307,用于当保存在hbase上的索引表中的数据的搜索频率大于阈值时,确定其为热点数据;第二保存模块308,用于将所述热点数据保存在所述索引内存缓存层。

可选的,索引内存缓存层中保存的热点数据可以隔一段时间更新一次,以保证热点数据的热度,例如隔一周更新一次,或者隔一个月更新一次。更新频率可以根据经验设置。

所述索引内存缓层中所述热点数据的主键定义的格式为:

索引主键为<用户表索引列名,用户表索引列值>;

索引集合为{<用户表主键,{阈值<频繁访问列名,频繁访问列值>}>}。

可选的,所述用户表索引列名用比所述用户表索引列名长度短的第一别名替代,这样可以降低索引表主键的存储空间以及热点数据的主键的存储空间。

第一查询模块302,用于根据所述请求,在索引内存缓存层中查询所述索引数据。

当在索引内存缓存层中查询到所述索引数据时,返回所述索引数据以及对应的内容。

第二查询模块303,用于当所述索引内存缓存层中不包括所述索引数据时,在索引持久化存储层中查询所述索引数据。

可选的,当所述索引内存缓存层中不包括所述索引数据时,所述第二查询模块303用于在索引持久化存储层中保存的所述索引表的所述索引表主键中查询所述索引数据。

处理模块304,用于当查询到所述索引数据时,返回所述索引数据以及对应的内容。

本发明实施例提供一种数据查询的装置,通过根据接收到的索引数据查询的请求,第一查询模块在索引内存缓存层中查询所述索引数据;当所述索引内存缓存层中不包括所述索引数据时,第二查询模块在索引持久化存储层中查询所述索引数据;当查询到所述索引数据时,处理模块返回所述索引数据以及对应的内容,本实施例提供的数据查询的装置可以提高查询速度以及效率。

图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器501、存储器502以及存储在所述存储器502中并可在所述处理器501上运行的计算机程序503,例如数据查询程序。所述处理器501执行所述计算机程序503时实现上述数据查询方法实施例中的步骤,例如图1所示的步骤101至104。所述处理器501执行所述计算机程序503时实现上述各装置实施例中各模块的功能,例如图3所示模块301至304的功能,或者图4所示模块301至308。

示例性的,所述计算机程序503可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器502中,并由所述处理器501执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序503在所述数据查询装置或者终端设备5中的执行过程。例如,所述计算机程序503可以被分割成接收模块301,第一查询模块302,第二查询模块303,处理模块304,各模块具体功能如图3所示,或者所述计算机程序503可以被分割成接收模块301,第一查询模块302,第二查询模块303,处理模块304,建立模块305,第一保存模块306,检测模块307,第二保存模块308,各模块具体功能如图4所示,在此不再一一赘述。

所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器501、存储器502。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器501可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器502可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器502也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器502还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器502用于存储所述计算机程序以及所述终端设备5所需的其他程序和数据。所述存储器502还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1