数据处理方法、电子设备及计算机存储介质与流程

文档序号:34865594发布日期:2023-07-23 19:10阅读:37来源:国知局
数据处理方法、电子设备及计算机存储介质与流程

本申请实施例涉及互联网,尤其涉及一种基于分布式数据库系统的数据处理方法、电子设备及计算机存储介质。


背景技术:

1、分布式数据库系统是数据库技术与网络技术相结合的产物,具有硬件资源多、处理性能高,能满足大数据实时分析需求等特点。因而,分布式数据库系统在很多行业和领域中被广泛应用。

2、目前,基于分布式数据库系统的数据查询任务,通常采用分阶段协作的方式实现查询语句的整体。在这个过程中,多个分布式节点之间的任务交互是联通各个阶段的重要部分,是充分利用分布式硬件资源的基础。然而,现有的分布式数据库系统在完成数据查询任务时,可能因为各种原因导致交互所产生的硬件资源消耗较大,例如,高频计算的数据交互导致的内存资源消耗,计算阶段的哈希混洗操作的数据交互导致的网络通信链接数较大,等等。

3、因此,如何节省针对基于分布式数据库系统的数据查询任务的资源消耗,降低资源浪费,成为亟待解决的问题。


技术实现思路

1、有鉴于此,本申请实施例提供一种基于分布式数据库系统的数据处理方案,以至少部分解决上述问题。

2、根据本申请实施例的第一方面,提供了一种数据处理方法,包括:根据数据查询语句的解析结果,确定对应的数据查询任务在分布式数据库系统中的多个计算阶段;根据所述多个计算阶段对应的计算任务和所述计算任务的并行度,为所述多个计算阶段分别创建对应的任务执行算子;其中,在多并行度的计算任务对应的计算阶段,使用基于进程通信的任务执行算子;在单并行度的计算任务对应的计算阶段,使用基于线程通信的任务执行算子;使用所述多个计算阶段对应的任务执行算子,执行所述数据查询任务。

3、根据本申请实施例的第二方面,提供了另一种数据处理方法,包括:接收用于对存储的云日志进行数据查询的数据查询语句;对所述数据查询语句进行逻辑解析,并根据解析结果确定对应的数据查询任务在存储所述云日志的分布式数据库系统中的多个计算阶段;根据所述多个计算阶段对应的计算任务和所述计算任务的并行度,为所述多个计算阶段分别创建对应的任务执行算子;其中,在多并行度的计算任务对应的计算阶段,使用基于进程通信的任务执行算子;在单并行度的计算任务对应的计算阶段,使用基于线程通信的任务执行算子;使用所述多个计算阶段对应的任务执行算子,执行针对所述云日志的数据查询任务。

4、根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。

5、根据本申请实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的方法。

6、根据本申请实施例提供的方案,在基于分布式数据库系统进行数据查询时,会基于不同计算阶段的计算任务及其并行度,为不同计算阶段的计算任务构建不同的任务执行算子,基于这些算子执行数据查询任务。其中,若某计算阶段需执行多并行度的计算任务,则采用基于进程通信的任务执行算子,该类型的任务执行算子采用进程间通信的方式实现上下游计算任务的数据交互,如数据拉取、缓存及分发等,与传统的通过线程间通信实现上下游计算任务的数据交互的方式相比,极大地降低了网络通信链接数,从而降低了硬件资源消耗。而若某计算阶段需执行单并行度的计算任务,则采用基于线程通信的任务执行算子,该类型的任务执行算子可直接拉取数据进行相应的计算,无需进行缓存或分发等操作,一方面,在单并行度情况下,能够保障计算任务的顺利执行;另一方面,因可直接进行单并行度的计算,而无需再执行诸如缓存或分发等操作,也就无需再进行本地内存拷贝,从而降低了内存资源消耗。

7、可见,通过本申请实施例的方案,可有效节省针对基于分布式数据库系统的数据查询任务的资源消耗,降低资源浪费。



技术特征:

1.一种数据处理方法,包括:

2.根据权利要求1所述的方法,其中,所述根据所述多个计算阶段对应的计算任务和所述计算任务的并行度,为所述多个计算阶段分别创建对应的任务执行算子,包括:

3.根据权利要求2所述的方法,其中,

4.根据权利要求3所述的方法,其中,所述使用所述多个计算阶段对应的任务执行算子,执行所述数据查询任务,包括:

5.根据权利要求1-4任一项所述的方法,其中,所述使用所述多个计算阶段对应的任务执行算子,执行所述数据查询任务,包括:

6.根据权利要求1-4任一项所述的方法,其中,所述多个计算阶段包括:

7.根据权利要求6所述的方法,其中,所述根据所述多个计算阶段对应的计算任务和所述计算任务的并行度,为所述多个计算阶段分别创建对应的任务执行算子,包括:

8.根据权利要求7所述的方法,其中,所述任务输出算子与用于进行数据计算的算子之间,以及,所述远程交换算子与用于进行数据计算的算子之间,通过异步方式,使用共享阻塞队列进行交互。

9.根据权利要求1-4任一项所述的方法,其中,所述根据数据查询语句的解析结果,确定对应的数据查询任务在分布式数据库系统中的多个计算阶段,包括:

10.一种数据处理方法,包括:

11.根据权利要求10所述的方法,其中,所述根据所述多个计算阶段对应的计算任务和所述计算任务的并行度,为所述多个计算阶段分别创建对应的任务执行算子,包括:

12.根据权利要求11所述的方法,其中,

13.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

14.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-12中任一所述的方法。


技术总结
本申请实施例提供了一种数据处理方法、电子设备及计算机存储介质,其中,数据处理方法,包括:根据数据查询语句的解析结果,确定对应的数据查询任务在分布式数据库系统中的多个计算阶段;根据所述多个计算阶段对应的计算任务和所述计算任务的并行度,为所述多个计算阶段分别创建对应的任务执行算子;其中,在多并行度的计算任务对应的计算阶段,使用基于进程通信的任务执行算子;在单并行度的计算任务对应的计算阶段,使用基于线程通信的任务执行算子;使用所述多个计算阶段对应的任务执行算子,执行所述数据查询任务。通过本申请实施例,可有效节省针对基于分布式数据库系统的数据查询任务的资源消耗,降低资源浪费。

技术研发人员:王彬,马云雷,范阿冬,王桢,屈岳
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1