一种集群式数据存储系统、方法、电子设备及存储介质与流程

文档序号:34877967发布日期:2023-07-25 10:23阅读:31来源:国知局
一种集群式数据存储系统、方法、电子设备及存储介质与流程

本技术涉及计算机数据处理,尤其是涉及一种集群式数据存储系统、方法、电子设备及存储介质。


背景技术:

1、弹性分布式数据集(resilient distributed datasets,rdd),是分布式内存的一个抽象概念。rdd提供了一种高度受限的共享内存模型,允许开发人员在大型集群上执行基于内存的计算。集群是一组相互独立的、可以进行网络互联的计算机,这些计算机以单一系统的模式加以管理。随着社会的进步和科技的发展,移动互联网的用户越来越多,同时服务端要处理的数据量也大量增长。因此服务端为了应对数据压力,一般采用集群式数据存储系统对于数据进行处理。

2、目前的集群式数据存储系统一般采用远程字典服务(remote dictionary serve,redis)或者其他系统进行数据读取和处理过程。待处理数据量极其庞大,在集群式数据存储系统中存储比较杂乱,且在处理数据时需要到后端磁盘上不断地获取数据。使得整个数据处理的效率较低。


技术实现思路

1、为了解决以上至少一项技术问题,本技术提供一种集群式数据存储系统、方法、电子设备及存储介质。

2、第一方面,本技术提供集群式数据存储系统,包括:rdd数据处理模块和访问模块;

3、所述访问模块与所述rdd数据处理模块连接;

4、所述访问模块用于接收访问者发送的访问请求,并将所述访问请求发送到所述rdd数据处理模块;

5、所述rdd数据处理模块用于接收并分析所述访问请求,得到所述访问请求对应的待处理数据和所述待处理数据的处理方式,根据所述处理方式确定对应的rdd;所述rdd中封装了所述处理方式的计算逻辑;

6、所述rdd数据处理模块还用于定位所述待处理数据并触发所述rdd进行计算并将计算结果发送到所述访问模块;

7、所述访问模块在接收到所述计算结果时具体用于读取所述计算结果并展示给所述访问者。

8、通过访问模块接收访问者发送的访问请求后发送到rdd数据处理模块,由rdd数据处理模块进行分析后确定对应的待处理数据和处理方式。然后确定封装了该处理方式计算逻辑的rdd,并在定位待处理数据的位置后在该位置上,触发该rdd进行计算。在数据处理过程中避免多次调用数据,而是定位到待处理数据后,在该位置进行对应的计算,提升了数据处理的效率。

9、可选的,所述集群式数据存储系统还包括基础服务模块;

10、所述基础服务模块与所述rdd数据处理模块连接;

11、所述基础服务模块用于接收配置人员发送的配置指令,并根据所述配置指令生成所述rdd数据处理模块的配置方案;

12、所述rdd数据处理模块用于根据所述配置进行调整。

13、配置人员可以根据实际情况发送配置指令到基础服务模块,基础服务模块进行对应的配置方案的生成,rdd数据处理模块根据生成的配置方案自动进行调整。避免集群式数据存储系统可能缺失了某些配置,或者配置比较陈旧而影响数据处理的效率。

14、可选的,所述rdd数据处理模块包括数据集;所述数据集根据所述访问请求生成;

15、所述rdd数据处理模块用于判断所述访问请求对应的待处理数据是否包含在已有数据集中,当不包含时,生成所述待处理数据对应的数据集;所述待处理数据对应的数据集用于存储所述待处理数据。

16、在确定待处理数据未被存储时可以生成对应的数据集,若待处理数据已被存储则可以避免相同数据重复存储占用存储空间。

17、可选的,所述rdd数据处理模块用于计算所述待处理数据,得到处理过程中产生的中间数据并存储在所述待处理数据对应的数据集。

18、可以将计算待处理数据过程中产生的中间数据进行存储。当计算过程出错rdd自动进行重新计算时,可以直接调用中间数据进行重新的计算,避免从头计算占用时间和重复生成中间数据占用存储空间。提升了数据处理的整体效率。

19、可选的,所述rdd数据处理模块用于检测所述中间数据和/或所述计算结果是否丢失,当丢失时进行自动恢复。

20、rdd数据处理模块可以检测中间数据和/或计算结果是否丢失,若丢失了可以进行自动回复恢复。避免处理大量访问请求对应的待处理数据出现数据丢失的情况时,导致计算过程被异常终止而从头计算浪费过多时间,提升影响数据处理的效率。

21、可选的,所述rdd数据处理模块包括处理磁盘;

22、所述数据集用于定位所述待处理数据,并将所述待处理数据的位置发送给所述处理磁盘;

23、所述处理磁盘用于完成所述待处理数据的计算。

24、以上为rdd数据处理模块对于待处理数据的具体计算过程。数据集中的各个数据的具体位置可以被记录下来,当需要进行计算时,处理磁盘可以直接在待处理数据的位置调用对应的rdd,触发进行计算。避免多次调用待处理数据占用的处理时间。

25、可选的,所述rdd数据处理模块包括镜像磁盘;

26、所述数据集具体用于实时记录所述待处理数据计算过程中产生的处理数据和所述处理数据对应的产生时间;

27、当出现所述处理数据丢失的情况时,所述镜像磁盘用于根据丢失的处理数据的产生时间,查询对应的处理数据并自动恢复到所述数据集。

28、以上为待处理数据计算过程中出现数据丢失情况时,rdd数据处理模块对于丢失数据的具体恢复过程。rdd数据处理模块中的数据集可以实时记录计算过程中产生的处理数据和对应的产生时间,当出现丢失情况时,镜像磁盘可以根据丢失的处理数据的产生时间进行自动恢复。避免当集群式数据存储系统处理大量访问请求对应的待处理数据的过程中,产生数据丢失情况时可能出现的系统崩溃、处理进程停止等的突发状况,提升整个数据处理的效率。

29、第二方面,本技术提供一种集群式数据存储方法,包括:

30、接收访问者发送的访问请求;

31、分析所述访问请求,得到所述访问请求对应的待处理数据和所述待处理数据的处理方式;

32、根据所述处理方式确定对应的rdd;所述rdd中封装了所述处理方式的计算逻辑;

33、定位所述待处理数据并触发所述rdd进行计算,得到计算结果并将所述计算结果展示给所述访问者。

34、通过采用上述技术方案,先接收访问者发送的访问请求,对该访问请求进行分析后确定出访问请求中包含的待处理数据和待处理数据对应的处理方式。然后确定封装了该处理方式计算逻辑的rdd,并在定位待处理数据的位置后在该位置上,触发该rdd进行计算,最后将计算结果展示给访问者。使得在数据处理过程中避免多次调用数据,而是定位到待处理数据后,在该位置进行对应的计算,提升了数据处理的效率。

35、第三方面,本技术提供一种电子设备,包括:存储器和处理器,所述存储器上存储有能够被处理器加载并执行第二方面的方法的计算机程序。

36、第四方面,本技术提供一种计算机可读存储介质,存储有能够被处理器加载并执行第二方面的方法的计算机程序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1