跨Hbase集群的数据存储方法、装置和业务系统与流程

文档序号:36250788发布日期:2023-12-02 22:17阅读:29来源:国知局
跨的制作方法

本发明涉及数据存储和检索领域,具体而言,涉及一种跨hbase集群的数据存储方法、装置、计算机可读存储介质和业务系统。


背景技术:

1、随着数字化的快速发展,非结构化数据扮演起越来越重要的角色,在企业经验及业务办理处理过程中,不断产生数量众多及种类繁多的凭证、合同、档案、报表、音视频等非结构化数据,这些数据格式多种多样,包括广泛使用的office文档,如doc、ppt、excel、pdf等,还包括半结构化的html、xml、email,以及图像、音频、视频、多媒体流文件等其他专业格式的文档。

2、当前面对海量的非结构化数据,一般采用hdfs+hbase组合的方式来进行海量非结构化数据的存储管理。而文件索引号是为每一个文件生成的全局唯一的编号,是用来标识并访问文件的唯一索引信息。传统hbase中的行是按照rowkey的字典顺序排序的,大量访问会使热点region所在的单个机器超出自身承受能力,引起性能下降甚至region不可用,这也会影响同一个regionserver上的其他region,由于主机无法服务其他region的请求,这样就造成数据热点现象,导致吞吐量下降,降低数据上传速度。


技术实现思路

1、本技术的主要目的在于提供一种跨hbase集群的数据存储方法、装置、计算机可读存储介质和业务系统,以至少解决现有技术中文件按顺序存入同一区域引发热点现象,降低数据存储速度的问题。

2、为了实现上述目的,根据本技术的一个方面,提供了一种跨hbase集群的数据存储方法,所述方法包括:在接收到数据上传报文的情况下,获取待存储数据的位置信息、第一时间信息和第一标识信息,所述位置信息用于表征所述待存储数据计划存储的存储位置,所述第一时间信息用于表征所述待存储数据的上传时间,所述第一标识信息用于表征所述待存储数据在第一目标服务器中计划存储的存储分区,所述第一目标服务器为所述待存储数据计划存储的服务器;将所述位置信息、所述第一时间信息和所述第一标识信息编码得到索引号,所述索引号用于唯一标识所述待存储数据;将所述索引号反转得到所述待存储数据的行键值,根据所述行键值将所述待存储数据存储至所述第一目标服务器中的第一目标分区,所述第一目标分区为与所述行键值中对应所述第一标识信息的字节对应的所述存储分区,所述行键值与所述索引号的字节顺序相反。

3、可选地,将所述位置信息、所述第一时间信息和所述第一标识信息编码得到索引号,包括:将第一位置信息进行十进制编码得到所述索引号的第一字节和第二字节,所述第一位置信息用于表征所述待存储数据计划存储的集群组的地理位置,所述集群组包括多个hbase集群和hdoop集群;将第二位置信息进行二进制编码得到所述索引号的第三字节,所述第二位置信息用于表征所述待存储数据计划存储的集群;将第三位置信息进行三十二进制编码得到所述索引号的第四字节,所述第三位置信息用于表征所述待存储数据计划存储的服务器;将第一时间子信息以十进制编码得到所述索引号的第五字节和第六字节,将第二时间子信息以三十二进制编码得到所述索引号的第七和第八字节,所述第一时间子信息为所述第一时间信息中用于表征年份的部分,所述第二时间子信息为所述第一时间信息中用于表征月份和日期的部分;将所述第一标识信息以三十二进制编码得到所述索引号的第九字节至第十二字节。

4、可选地,在获取待存储数据的位置信息、第一时间信息和第一标识信息之前,所述方法还包括:对所述数据上传报文进行解析,得到第一报文格式和报文数据量,所述第一报文格式包括所述数据上传报文的格式信息,所述报文数据量为所述数据上传报文的数据大小;在所述第一报文格式与第一预设格式一致且所述报文数据量与预设数据量一致的情况下,确定所述数据上传报文校验无误;在所述第一报文格式与第一预设格式不一致和/或所述报文数据量与预设数据量不一致的情况下,确定所述数据上传报文检验出错并发出第一信令,所述第一信令用于指示所述待存储数据存储失败。

5、可选地,根据所述行键值将所述待存储数据存储至所述第一目标服务器中的第一目标分区,包括:根据所述行键值确定第二标识信息,所述第二标识信息与所述索引号中第九字节至第十二字节对应且顺序相反;获取第三标识信息,所述第三标识信息为所述第一目标服务器中各分区的唯一标识号;根据所述第二标识信息和所述第三标识信息确定所述第一目标分区并将所述待存储数据写入所述第一目标分区。

6、可选地,在根据所述行键值将所述待存储数据存储至所述第一目标服务器中的第一目标分区之后,所述方法还包括:获取目标索引号并根据所述目标索引号确定目标数据的存储状态,所述目标索引号为与所述目标数据对应的所述索引号,所述存储状态包括已删除和未删除;在所述存储状态为未删除的情况下,根据所述目标索引号确定目标集群组,所述目标集群组为所述目标数据所属的集群组;根据所述目标索引号确定目标集群,所述目标集群为所述目标数据所属的集群;根据所述目标索引号确定第二目标服务器,所述第二目标服务器为所述目标数据所属的服务器;将所述目标索引号反转得到目标行键值,根据所述目标行键值从所述第二目标服务器的第二目标分区中读取所述目标数据。

7、可选地,在获取目标索引号之前,所述方法还包括:获取数据访问报文并对所述数据上传报文进行解析得到第二报文格式,所述第二报文格式包括所述数据访问报文的格式信息;在所述第二报文格式与第二预设格式一致的情况下,确定所述数据访问报文校验无误;在所述第二报文格式与第二预设格式不一致的情况下,确定所述数据访问报文校验出错并发送第二信令,所述第二信令用于指示数据访问失败。

8、可选地,根据所述目标索引号确定目标数据的存储状态,包括:根据所述目标索引号确定所述第一时间信息;获取第二时间信息和目标生命周期,所述第二时间信息为当前时间,所述目标生命周期为所述目标服务器中所述目标数据的保留时间;根据所述第一时间信息、第二时间信息和所述目标生命周期确定所述目标数据的所述存储状态。

9、根据本技术的另一方面,提供了一种跨hbase集群的数据存储装置,所述装置包括:第一获取单元,用于在接收到数据上传报文的情况下,获取待存储数据的位置信息、第一时间信息和第一标识信息,所述位置信息用于表征所述待存储数据计划存储的存储位置,所述第一时间信息用于表征所述待存储数据的上传时间,所述第一标识信息用于表征所述待存储数据在第一目标服务器中计划存储的存储分区,所述第一目标服务器为所述待存储数据计划存储的服务器;编码单元,用于将所述位置信息、所述第一时间信息和所述第一标识信息编码得到索引号,所述索引号用于唯一标识所述待存储数据;反转单元,用于将所述索引号反转得到所述待存储数据的行键值,根据所述行键值将所述待存储数据存储至所述第一目标服务器中的第一目标分区,所述第一目标分区为与行键值中与所述第一标识信息对应的字节对应的所述存储分区,所述行键值与所述索引号的字节顺序相反。

10、根据本技术的再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行任意一种所述的方法。

11、根据本技术的又一方面,提供了一种业务系统,包括:一个或多个处理器,存储器,以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行任意一种所述的方法。

12、应用本技术的技术方案,在上述跨hbase集群的数据存储方法中,首先,在接收到数据上传报文的情况下,获取待存储数据的位置信息、第一时间信息和第一标识信息,上述位置信息用于表征上述待存储数据计划存储的存储位置,上述第一时间信息用于表征上述待存储数据的上传时间,上述第一标识信息用于表征上述待存储数据在第一目标服务器中计划存储的存储分区,上述第一目标服务器为上述待存储数据计划存储的服务器;然后,将上述位置信息、上述第一时间信息和上述第一标识信息编码得到索引号,上述索引号用于唯一标识上述待存储数据;最后,将上述索引号反转得到上述待存储数据的行键值,根据上述行键值将上述待存储数据存储至上述第一目标服务器中的第一目标分区,上述第一目标分区为与上述行键值中对应上述第一标识信息的字节对应的上述存储分区,上述行键值与上述索引号的字节顺序相反。本技术设计了一种文件索引码,包含集群组代码、集群代码、顺序码、机器码和日期编码,为数据快速索引提供支持,然后将文件索引号反转得带行键值,其中顺序码在反转过程中顺序发生变化,按照行键值将原本依次存入同一区域的文件散列于不同区域,解决了现有技术中文件按顺序存入同一区域引发热点现象,降低数据存储速度的问题。同时集群组代码、集群代码机器码和日期码支持对数据所在位置的快速定位加快了检索速度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1