HBase数据库二级索引数据批量导入方法、装置、设备及介质与流程

文档序号：30183403发布日期：2022-05-26 16:01阅读：117来源：国知局

hbase数据库二级索引数据批量导入方法、装置、设备及介质
技术领域
1.本发明涉及计算机领域，并且更具体地涉及一种hbase数据库二级索引数据批量导入的方法、装置、设备及可读介质。

背景技术：

2.hbase数据库(是一个分布式的、面向列的开源数据库，可存储海量数据，底层数据文件存储在hdfs中)作为大数据领域常用的分布式数据库，其支持千亿行、百万列的数据存储，但hbase数据库本身只提供基于行键和全表扫描的查询，涉及到了多条件的组合查询时，只能通过全表扫描，并且效率低下。多条件组合查询在大数据应用场景中是比较常见的，目前我们产品中的indexer(一种二级索引工具)基于开源hbase-indexer进行改造，基于hbase wal日志实时同步hbase二级索引(用于弥补hbase数据库自身多条件组合查询不足的一种方案)数据并写入到es(是一个基于apache lucene(tm)的开源搜索引擎，其数据检索和分析功能十分强悍)中，不会给hbase数据库带来入侵式的代码，而且不会影响写入性能。该需求可以提升hbase数据库二级索引的效率，满足全文索引场景。大数据量多查询组合场景下，可将查询耗时从小时级提升至秒级，组合查询性能极大提升。但在生产场景下，会生成hfile文件后批量导入hbase中，提升数据写入速度，降低集群负载。该方式的数据写入方式不经过wal日志，因此indexer无法同步到该部分数据，只能在hfile导入后，通过全表扫描+时间戳过滤的方式重构这部分索引数据，这种方式效率低，速度慢，且对hbase数据库压力较大，严重的甚至会使hbase数据库业务访问停止。

技术实现要素：

3.有鉴于此，本发明实施例的目的在于提出一种hbase数据库二级索引数据批量导入的方法、装置、设备及可读介质，通过使用本发明的技术方案，能够替代原有hbase数据库全表扫描的方式导入增量二级索引数据到es中，不对hbase数据库的业务产生影响，且执行速度有较大提升。
4.基于上述目的，本发明的实施例的一个方面提供了一种hbase数据库二级索引数据批量导入的方法，包括以下步骤：
5.遍历hbase数据库中指定路径下所有的hfile文件，并获取每个hfile文件的绝对路径；
6.根据获取到的hfile文件的绝对路径将每个hfile文件分别解析为预设格式的数据；
7.将预设格式的数据转换为result格式的数据；
8.构建es客户端，并将result格式的数据通过es客户端批量写入es中。
9.根据本发明的一个实施例，将每个hfile文件分别解析为预设格式的数据包括：
10.将hfile文件解析为row+family+qualify+value+type+timestamp格式的数据。
11.根据本发明的一个实施例，将预设格式的数据转换为result格式的数据包括：
12.将预设格式的数据转换为hfilerecord格式的数据，并在hfilerecord格式的数据中加入comparito数据；
13.根据row字段将hfilerecord格式的数据进行聚合以将单行单列的hfilerecord格式的数据组合为单行多列的result格式的数据；
14.根据索引信息将result格式的数据进行筛选和过滤以剔除索引信息外的数据。
15.根据本发明的一个实施例，构建es客户端，并将result格式的数据通过es客户端批量写入es中包括：
16.根据用户输入的es连接参数构建一个es客户端，es连接参数包括超时时间、批写入大小和es集群参数；
17.将result格式的数据通过所述es客户端批量写入es中以完成二级索引数据的批量导入。
18.本发明的实施例的另一个方面，还提供了一种hbase数据库二级索引数据批量导入的装置，装置包括：
19.获取模块，获取模块配置为遍历hbase数据库中指定路径下所有的hfile文件，并获取每个hfile文件的绝对路径；
20.解析模块，解析模块配置为根据获取到的hfile文件的绝对路径将每个hfile文件分别解析为预设格式的数据；
21.转换模块，转换模块配置为将预设格式的数据转换为result格式的数据；
22.导入模块，导入模块配置为构建es客户端，并将result格式的数据通过es客户端批量写入es中。
23.根据本发明的一个实施例，解析模块还配置为：
24.将hfile文件解析为row+family+qualify+value+type+timestamp格式的数据。
25.根据本发明的一个实施例，转换模块还配置为：
26.将预设格式的数据转换为hfilerecord格式的数据，并在hfilerecord格式的数据中加入comparito数据；
27.根据row字段将hfilerecord格式的数据进行聚合以将单行单列的hfilerecord格式的数据组合为单行多列的result格式的数据；
28.根据索引信息将result格式的数据进行筛选和过滤以剔除索引信息外的数据。
29.根据本发明的一个实施例，导入模块还配置为：
30.根据用户输入的es连接参数构建一个es客户端，es连接参数包括超时时间、批写入大小和es集群参数；
31.将result格式的数据通过所述es客户端批量写入es中以完成二级索引数据的批量导入。
32.本发明的实施例的另一个方面，还提供了一种计算机设备，该计算机设备包括：
33.至少一个处理器；以及存储器，存储器存储有可在处理器上运行的计算机指令，指令由处理器执行时实现上述任意一项方法的步骤。
34.本发明的实施例的另一个方面，还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述任意一项方法的步骤。
35.本发明具有以下有益技术效果：本发明实施例提供的hbase数据库二级索引数据
批量导入的方法，通过遍历hbase数据库中指定路径下所有的hfile文件，并获取每个hfile文件的绝对路径；根据获取到的hfile文件的绝对路径将每个hfile文件分别解析为预设格式的数据；将预设格式的数据转换为result格式的数据；构建es客户端，并将result格式的数据通过es客户端批量写入es中的技术方案，能够替代原有hbase数据库全表扫描的方式导入增量二级索引数据到es中，不对hbase数据库的业务产生影响，且执行速度有较大提升。
附图说明
36.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。
37.图1为根据本发明一个实施例的hbase数据库二级索引数据批量导入的方法的示意性流程图；
38.图2为根据本发明一个实施例的数据处理和批量导入的示意图；
39.图3为根据本发明一个实施例的hbase数据库二级索引数据批量导入的装置的示意图；
40.图4为根据本发明一个实施例的计算机设备的示意图；
41.图5为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
42.为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。
43.基于上述目的，本发明的实施例的第一个方面，提出了一种hbase数据库二级索引数据批量导入的方法的一个实施例。图1示出的是该方法的示意性流程图。
44.如图1中所示，该方法可以包括以下步骤：
45.s1遍历hbase数据库中指定路径下所有的hfile文件，并获取每个hfile文件的绝对路径。
46.可以构建一个hdfs客户端，在hbase数据库中对指定路径进行遍历，对路径的类型(文件、目录)和文件的类型(hfile文件、其他文件)进行判断，获取到每个hfile文件的绝对路径。
47.s2根据获取到的hfile文件的绝对路径将每个hfile文件分别解析为预设格式的数据。
48.预设格式的数据为row(行)+family(族)+qualify(列)+value(值)+type(类型)+timestamp(时间戳)格式的数据(cell数据格式)，也就是将hfile文件中的诸多内容筛选或提取出上述关键字对应的数据内容，并将各个数据内容进行组合以形成上述预设格式的数据。每个hfile文件都进行相同的操作，即可以得到多个cell数据格式的数据。
49.s3将预设格式的数据转换为result格式的数据。
50.然后将上述每个cell数据格式转换为hfilerecord格式的数据，并加入comparito
数据，用于map阶段输出的排序、对比，在reduce阶段，根据row字段进行聚合，将数据从单行单列的hfilerecord格式的数据组合为单行多列的result格式的数据，并根据索引信息进行筛选和过滤，以剔除索引列外的数据。
51.s4构建es客户端，并将result格式的数据通过es客户端批量写入es中。
52.根据用户输入的es连接参数(如超时时间、批写入大小、es集群参数)构建一个es客户端，然后将上述result格式的数据批量写入到es中，完成二级索引数据的批量导入，如图2所示。
53.通过本发明的技术方案，能够替代原有hbase数据库全表扫描的方式，不对hbase数据库的业务产生影响，且执行速度有较大提升。
54.在本发明的一个优选实施例中，将每个hfile文件分别解析为预设格式的数据包括：
55.将hfile文件解析为row+family+qualify+value+type+timestamp格式的数据。row、family、qualify、value、type和timestamp可以理解为关键字，也就是解析后的数据只包括上述关键字对应的内容。
56.在本发明的一个优选实施例中，将预设格式的数据转换为result格式的数据包括：
57.将预设格式的数据转换为hfilerecord格式的数据，并在hfilerecord格式的数据中加入comparito数据；
58.根据row字段将hfilerecord格式的数据进行聚合以将单行单列的hfilerecord格式的数据组合为单行多列的result格式的数据；
59.根据索引信息将result格式的数据进行筛选和过滤以剔除索引信息外的数据。
60.在本发明的一个优选实施例中，构建es客户端，并将result格式的数据通过es客户端批量写入es中包括：
61.根据用户输入的es连接参数构建一个es客户端，es连接参数包括超时时间、批写入大小和es集群参数；
62.将result格式的数据通过所述es客户端批量写入es中以完成二级索引数据的批量导入。
63.通过本发明的技术方案，能够替代原有hbase数据库全表扫描的方式导入增量二级索引数据到es中，不对hbase数据库的业务产生影响，且执行速度有较大提升。
64.需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，上述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory，rom)或随机存取存储器(random access memory，ram)等。上述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
65.此外，根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时，执行本发明实施例公开的方法中限定的上述功能。
66.基于上述目的，本发明的实施例的第二个方面，提出了一种hbase数据库二级索引
数据批量导入的装置，如图3所示，装置200包括：
67.获取模块，获取模块配置为遍历hbase数据库中指定路径下所有的hfile文件，并获取每个hfile文件的绝对路径；
68.解析模块，解析模块配置为根据获取到的hfile文件的绝对路径将每个hfile文件分别解析为预设格式的数据；
69.转换模块，转换模块配置为将预设格式的数据转换为result格式的数据；
70.导入模块，导入模块配置为构建es客户端，并将result格式的数据通过es客户端批量写入es中。
71.在本发明的一个优选实施例中，解析模块还配置为：
72.将hfile文件解析为row+family+qualify+value+type+timestamp格式的数据。
73.在本发明的一个优选实施例中，转换模块还配置为：
74.将预设格式的数据转换为hfilerecord格式的数据，并在hfilerecord格式的数据中加入comparito数据；
75.根据row字段将hfilerecord格式的数据进行聚合以将单行单列的hfilerecord格式的数据组合为单行多列的result格式的数据；
76.根据索引信息将result格式的数据进行筛选和过滤以剔除索引信息外的数据。
77.在本发明的一个优选实施例中，导入模块还配置为：
78.根据用户输入的es连接参数构建一个es客户端，es连接参数包括超时时间、批写入大小和es集群参数；
79.将result格式的数据通过所述es客户端批量写入es中以完成二级索引数据的批量导入。
80.基于上述目的，本发明实施例的第三个方面，提出了一种计算机设备。图4示出的是本发明提供的计算机设备的实施例的示意图。如图4所示，本发明实施例包括如下装置：至少一个处理器21；以及存储器22，存储器22存储有可在处理器上运行的计算机指令23，指令由处理器执行时实现以下方法：
81.遍历hbase数据库中指定路径下所有的hfile文件，并获取每个hfile文件的绝对路径；
82.根据获取到的hfile文件的绝对路径将每个hfile文件分别解析为预设格式的数据；
83.将预设格式的数据转换为result格式的数据；
84.构建es客户端，并将result格式的数据通过es客户端批量写入es中。
85.在本发明的一个优选实施例中，将每个hfile文件分别解析为预设格式的数据包括：
86.将hfile文件解析为row+family+qualify+value+type+timestamp格式的数据。
87.在本发明的一个优选实施例中，将预设格式的数据转换为result格式的数据包括：
88.将预设格式的数据转换为hfilerecord格式的数据，并在hfilerecord格式的数据中加入comparito数据；
89.根据row字段将hfilerecord格式的数据进行聚合以将单行单列的hfilerecord格
式的数据组合为单行多列的result格式的数据；
90.根据索引信息将result格式的数据进行筛选和过滤以剔除索引信息外的数据。
91.在本发明的一个优选实施例中，构建es客户端，并将result格式的数据通过es客户端批量写入es中包括：
92.根据用户输入的es连接参数构建一个es客户端，es连接参数包括超时时间、批写入大小和es集群参数；
93.将result格式的数据通过所述es客户端批量写入es中以完成二级索引数据的批量导入。
94.基于上述目的，本发明实施例的第四个方面，提出了一种计算机可读存储介质。图5示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图5所示，计算机可读存储介质31存储有被处理器执行时执行如下方法的计算机程序32：
95.遍历hbase数据库中指定路径下所有的hfile文件，并获取每个hfile文件的绝对路径；
96.根据获取到的hfile文件的绝对路径将每个hfile文件分别解析为预设格式的数据；
97.将预设格式的数据转换为result格式的数据；
98.构建es客户端，并将result格式的数据通过es客户端批量写入es中。
99.在本发明的一个优选实施例中，将每个hfile文件分别解析为预设格式的数据包括：
100.将hfile文件解析为row+family+qualify+value+type+timestamp格式的数据。
101.在本发明的一个优选实施例中，将预设格式的数据转换为result格式的数据包括：
102.将预设格式的数据转换为hfilerecord格式的数据，并在hfilerecord格式的数据中加入comparito数据；
103.根据row字段将hfilerecord格式的数据进行聚合以将单行单列的hfilerecord格式的数据组合为单行多列的result格式的数据；
104.根据索引信息将result格式的数据进行筛选和过滤以剔除索引信息外的数据。
105.在本发明的一个优选实施例中，构建es客户端，并将result格式的数据通过es客户端批量写入es中包括：
106.根据用户输入的es连接参数构建一个es客户端，es连接参数包括超时时间、批写入大小和es集群参数；
107.将result格式的数据通过所述es客户端批量写入es中以完成二级索引数据的批量导入。
108.此外，根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序，该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时，执行本发明实施例公开的方法中限定的上述功能。
109.此外，上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
110.本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模
块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能，但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
111.在一个或多个示例性设计中，功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现，则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质，该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的，该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备，或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外，任何连接都可以适当地称为计算机可读介质。例如，如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件，则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的，磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘，其中磁盘通常磁性地再现数据，而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
112.以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。
113.应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
114.上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。
115.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
116.所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋文豪
技术所有人：苏州浪潮智能科技有限公司
我是此专利的发明人

上一篇：一种铝型材钻孔攻丝机的制作方法
上一篇：一种幼儿园垃圾自动清扫车的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。