基于spark的数据处理方法、装置、系统、设备及介质与流程

文档序号:35468015发布日期:2023-09-16 10:18阅读:31来源:国知局
基于spark的数据处理方法、装置、系统、设备及介质与流程

本发明涉及数据处理技术,尤其涉及一种基于spark的数据处理方法、装置、系统、电子设备及计算机可读存储介质。


背景技术:

1、随着网络的发展与科技的进步,以及移动终端的普及,数据处理能力在应用中显得尤为重要,而如何将这分散、零乱、标准不统一的数据整合到一起,为优化决策提供分析依据,是有待解决的问题。

2、相关技术中,对数据的加工处理,通常采用硬编码的方式,即针对当前的每一种数据结构,均需要采用不同的编码进行处理,而对于海量数据数据,由于其数据结构杂乱,不统一,则需要大量的人工进行编码处理,增加了数据加工配置流程,耗时耗力,不但增加了数据加工成本,还降低了数据的加工处理效率。

3、所以,如何提高海量数据的加工处理效率,是目前有待解决的技术问题。


技术实现思路

1、本发明提供一种基于spark的数据处理方法、装置、系统、电子设备及计算机可读存储介质,以至少解决相关技术中由于对海量数据的加工处理费时费力,导致加工成本增加,处理效率降低的技术问题。本发明的技术方案如下:

2、根据本发明实施例的第一方面,提供一种基于spark的数据处理方法,包括:

3、获取第一数据库和第二数据库中的数据,所述数据包括:多种不同类型的数据;

4、按照用户配置的数据处理策略对所述多种不同类型的数据进行加工整合处理,得到处理结果;

5、将所述处理结果存储到对应的第三数据库中。

6、可选的,所述获取第一数据库和第二数据库中的数据,所述数据包括多种不同类型的数据,包括:

7、按照用户通过可视化页面的拖拽操作获取第一数据库中的数据,其中,所述第一数据库包括第一分析型数据库;

8、通过数据处理通道logstash获取第二数据库中的数据,所述第二数据库包括第一分布式文档数据库。

9、可选的,所述按照用户配置的数据处理策略对所述多种不同类型的数据进行加工整合处理,得到处理结果,包括:

10、按照用户配置的数据处理策略中的数据处理操作算子对每种类型的数据进行分布式数据处理,得到对应处理结果集合;

11、按照用户配置的数据处理策略中的集合操作算子对多种类型的处理结果集合进行数据合并;

12、按照用户配置的数据处理策略中的关联分析操作算子对多种类型的处理结果集合进行数据关联。

13、可选的,在获取第一数据库和第二数据库中的数据之后,所述方法还包括:

14、通过分布式调度系统获取开启与关闭所述多种不同类型的数据的加工整合处理指令;

15、根据所述加工整合处理指令,控制开启或关闭所述按照用户配置的数据处理策略对所述多种不同类型的数据进行分布式加工整合处理的步骤。

16、可选的,所述将所述处理结果存储到第三数据库中,包括:

17、将所述处理结果按照数据存储方式存储到第三数据库,所述第三数据库至少包括下述之一:关系型数据库,第二分布式文档存储数据库和第二分析型数据库。

18、可选的,在获取第一数据库和第二数据库中的数据之前,所述方法还包括:

19、按照用户业务需求,预先为所述用户配置对应的数据处理策略,所述数据处理策略包括:数据处理操作算子、集合操作算子和关联分析操作算子,其中,

20、所述数据处理操作算子至少包括下述之一:排序、过滤、字段展示、去重、别名、类型转换、列运算、字符串转换、日期格式化、字符串转换、列分割、列合并和字段添加;

21、所述集合操作算子至少包括下述之一:交集、并集和差集;

22、所述关联分析操作算子至少包括下述之一:左关联、右关联、内关联和全关联。

23、根据本发明实施例的第二方面,提供一种基于spark的数据处理装置,包括:

24、第一获取模块,用于获取第一数据库和第二数据库中的数据,所述数据包括:多种不同类型的数据;

25、处理模块,用于按照用户配置的数据处理策略对所述多种不同类型的多种不同类型的数据进行分布式加工整合处理,得到处理结果;

26、存储模块,用于将所述处理结果存储到第三数据库中。

27、可选的,所述第一获取模块包括:

28、可视化获取模块,用于按照用户通过可视化页面的拖拽操作获取第一数据库中的数据,其中,所述第一数据库包括第一分析型数据库;

29、通道获取模块,用于通过数据处理通道logstash获取第二数据库中的数据,所述第二数据库包括第一分布式文档数据库。

30、可选的,所述处理模块包括:

31、数据处理模块,用于按照用户配置的数据处理策略中的数据处理操作算子对每种类型的数据进行分布式数据处理,得到对应处理结果集合;

32、合并处理模块,用于按照用户配置的数据处理策略中的集合操作算子对多种类型的处理结果集合进行数据合并;

33、关联处理模块,用于按照用户配置的数据处理策略中的关联分析操作算子对多种类型的处理结果集合进行数据关联。

34、可选的,所述装置还包括:

35、第二获取模块,用于在所述第一获取模块获取第一数据库和第二数据库中的数据之后,通过分布式调度系统获取开启与关闭所述多种不同类型的数据的加工整合处理指令;

36、控制模块,用于根据所述加工整合处理指令,控制开启或关闭所述按照用户配置的数据处理策略对所述多种不同类型的数据进行分布式加工整合处理的步骤。

37、可选的,所述存储模块,具体用于将所述处理结果按照数据存储方式存储到第三数据库中,所述第三数据库至少包括下述之一:关系型数据库,第二分布式文档存储数据库和第二分析型数据库中。

38、可选的,所述装置还包括:

39、配置模块,用于在所述第一获取模块获取第一数据库和第二数据库中的数据之前,按照用户业务需求,预先为所述用户配置对应的数据处理策略,所述数据处理策略包括:数据处理操作算子、集合操作算子和关联分析操作算子,其中,

40、所述数据处理操作算子至少包括下述之一:排序、过滤、字段展示、去重、别名、类型转换、列运算、字符串转换、日期格式化、字符串转换、列分割、列合并和字段添加;

41、所述集合操作算子至少包括下述之一:交集、并集和差集;

42、所述关联分析操作算子至少包括下述之一:左关联、右关联、内关联和全关联。

43、根据本发明实施例的第三方面,提供一种基于spark的数据处理系统,所述系统包括:网关模块,用于为用户提供用户界面,并通过rest api获取不同数据库中的业务数据,所述数据包括多种不同类型的数据;

44、业务服务模块,用于为用户提供可视化页面及提供统一的业务服务,并通过业务服务访问数据处理的相关服务,为用户配置的数据处理策略;并控制开启与关闭按照用户配置的数据处理策略对所述多种不同类型的数据进行分布式加工整合处理的任务;

45、数据处理模块,用于通过spark服务,按照用户配置的数据处理策略对所述多种不同类型的数据进行分布式加工整合处理,其中,spark服务的分布式计算依赖与hadoop分布式调度,通过分布式调度系统,在分布式环境中完成对所述多种不同类型的数据的分布式数据加工整合处理,得到处理结果,并将处理结果发送给数据存储模块;

46、数据存储模块,用于按照数据存储方式将接收到的所述处理结果存储到对应的数据库中,具体的,可以将所述处理结果存储到关系型数据库,第二分布式文档存储数据库和第二分析型数据库中的至少一个。

47、可选的,业务服务模块包括:

48、数据加工用户配置模块,用于为用户提供可视化页面,按照用户的拖拽的方式为用户配置数据加工处理任务的数据处理策略;

49、数据加工任务管理模块:用于管理所述数据加工用户配置模块按照用户配置的数据处理策略对所述多种不同类型的数据进行分布式加工整合处理的任务的开启与关闭。

50、可选的,该数据处理模块包括:数据加工配置加载模块,数据加工算子计算模块和分布式调度模块.其中,

51、数据加工配置加载模块,用于将数据加工整合处理任务发生给spark服务,由所述spark服务启动多种不同类型的数据加工任务;

52、分布式调度模块,用于根据所述数据加工任务通过hadoop分布式调度系统调度为用户配置的数据处理策略;

53、数据加工算子计算模块,用于通过所述分布式调度模块调度的所述用户配置的数据处理策略,在分布式环境中完成多种不同类型的数据的分布式数据加工整合处理。

54、根据本发明实施例的第四方面,提供一种电子设备,包括:

55、处理器;

56、用于存储所述处理器可执行指令的存储器;

57、其中,所述处理器被配置为执行所述指令,以实现如上所述的基于spark的数据处理方法。

58、根据本发明实施例的第五方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上所述的基于spark的数据处理方法。

59、根据本发明实施例的第六方面,提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被电子设备的处理器执行时实现如上所述的基于spark的数据处理方法。

60、本发明的实施例提供的技术方案至少带来以下有益效果:

61、本发明实施例中,获取第一数据库和第二数据库中的数据,所述数据包括:多种不同类型的数据;按照用户配置的数据处理策略对所述多种不同类型的数据进行分布式加工整合处理,得到格式化的处理结果;将所述处理结果存储到对应的第三数据库中。也就是说,本发明实施例中,将从多个数据库获取到的非格式化数据时,利用spark分布式计算架构,对分散、零乱、标准不统一的数据,进行统一的数据加工整合处理,简化数据加工配置流程,加快大量数据的加工效率,节省数据加工成本。

62、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1