本申请涉及数据处理,尤其涉及一种数据处理方法及装置。
背景技术:
1、工作流是由一系列执行不同程序的节点串行或并行运行的工作流,每一种工作流包含的节点类型及运行顺序固定不变。部分节点基于当前工作流需要处理的业务数据量进行作业,其运行时长会根据需要计算的数据量及复杂度发生变化。
2、目前,在预测节点的运行时长进而监控其是否超时,需要考虑数据量的大小和复杂度。然而,这部分指标数值只有在整体工作流及所有节点都运行完成之后才能够获得。
3、因此,以上预测节点运行时长的方案存在预测效率低的缺陷。
技术实现思路
1、有鉴于此,本申请提供一种数据处理方法及装置,如下:
2、一种数据处理方法,包括:
3、在目标工作流中目标节点对应的父节点运行完成的情况下,根据所述父节点在所述目标工作流的当前运行流程中的运行时长,获得第一变量;
4、根据所述目标节点在所述目标工作流的历史运行流程中的运行时长,获得第二变量;
5、至少根据所述第一变量和所述第二变量,获得所述目标节点的预测运行时长。
6、上述方法,优选的,根据所述父节点在所述目标工作流的当前运行流程中的运行时长,获得第一变量,包括:
7、对所述父节点在所述目标工作流的当前运行流程中的运行时长进行主成分分析处理,以得到所述父节点对应的第一主成分;
8、获得所述父节点对应于所述第一主成分的主成分得分,所述主成分得分作为第一变量。
9、上述方法,优选的,对所述父节点在所述目标工作流的当前运行流程中的运行时长进行主成分分析处理,以得到所述父节点对应的第一主成分,包括:
10、根据所述父节点在所述目标工作流的当前运行流程中的运行时长,获得所述父节点对应的主成分载荷系数矩阵,所述主成分载荷系数矩阵中的矩阵元素表征相应的主成分对相应的父节点的运行时长的影响程度;
11、根据所述主成分载荷系数矩阵中的矩阵元素,获得第一主成分,所述第一主成分对所述父节点的运行时长的影响程度满足第一筛选条件。
12、上述方法,优选的,获得所述父节点对应于所述第一主成分的主成分得分,包括:
13、获得所述第一主成分对应的第一载荷系数矩阵,所述第一载荷系数矩阵中的矩阵元素表征所述第一主成分对相应的父节点的运行时长的影响程度;
14、根据所述第一载荷系数矩阵中的矩阵元素,对所述父节点的运行时长进行处理,以得到所述父节点对应于所述第一主成分的主成分得分。
15、上述方法,优选的,所述父节点为所述目标工作流中与所述目标节点之间关于运行时长的相关性系数满足第二筛选条件的父节点。
16、上述方法,优选的,根据所述目标节点在所述目标工作流的历史运行流程中的运行时长,获得第二变量,包括:
17、获得所述目标节点在第一运行流程中的运行时长与所述目标节点在至少一个第二运行流程中的运行时长之间的偏自相关系数,所述第一运行流程为所述目标工作流的最近一次的运行流程,所述第二运行流程为所述第一运行流程之前第n次的运行流程,n为大于或等于1的正整数;
18、至少根据所述偏自相关系数,获得第二变量。
19、上述方法,优选的,至少根据所述偏自相关系数,获得第二变量,包括:
20、根据所述偏自相关系数,获得至少一个目标运行时长,所述目标运行时长为所述目标节点在第三运行流程中的运行时长,所述第三运行流程为所述第二运行流程中对应的偏自相关系数满足第三筛选条件的运行流程;
21、根据所述目标运行时长以及其对应的偏自相关系数,获得第二变量。
22、上述方法,优选的,在至少根据所述第一变量和所述第二变量,获得所述目标节点的预测运行时长之后,所述方法还包括:
23、获得所述目标节点对应的运行数据库的性能参数;
24、根据所述性能参数,对所述预测运行时长进行调整。
25、上述方法,优选的,获得所述目标节点对应的运行数据库的性能参数,包括:
26、获得所述目标节点对应的运行数据库在至少一个性能指标上的指标值;
27、根据所述指标值,获得膨胀系数,所述膨胀系数表征所述运行数据库对应于所述目标节点的性能参数。
28、一种数据处理装置,包括:
29、第一变量获得单元,用于在目标工作流中目标节点对应的父节点运行完成的情况下,根据所述父节点在所述目标工作流的当前运行流程中的运行时长,获得第一变量;
30、第二变量获得单元,用于根据所述目标节点在所述目标工作流的历史运行流程中的运行时长,获得第二变量;
31、运行时长预测单元,用于至少根据所述第一变量和所述第二变量,获得所述目标节点的预测运行时长。
32、从上述技术方案可以看出,本申请公开的一种数据处理方法及装置中,在目标工作流中,根据已经运行完成的父节点在当前运行流程中的运行时长和目标节点在历史运行流程中的运行时长,对目标节点的运行时长进行预测。可见,本申请中无需等待目标工作流的节点全部运行完成,就可以使用已经完成的父节点的运行时长实现对其中节点的运行时长的预测,由此达到提高预测效率的目的。
1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,根据所述父节点在所述目标工作流的当前运行流程中的运行时长,获得第一变量,包括:
3.根据权利要求2所述的方法,对所述父节点在所述目标工作流的当前运行流程中的运行时长进行主成分分析处理,以得到所述父节点对应的第一主成分,包括:
4.根据权利要求2或3所述的方法,获得所述父节点对应于所述第一主成分的主成分得分,包括:
5.根据权利要求1或2所述的方法,所述父节点为所述目标工作流中与所述目标节点之间关于运行时长的相关性系数满足第二筛选条件的父节点。
6.根据权利要求1或2所述的方法,根据所述目标节点在所述目标工作流的历史运行流程中的运行时长,获得第二变量,包括:
7.根据权利要求6所述的方法,至少根据所述偏自相关系数,获得第二变量,包括:
8.根据权利要求1所述的方法,在至少根据所述第一变量和所述第二变量,获得所述目标节点的预测运行时长之后,所述方法还包括:
9.根据权利要求8所述的方法,获得所述目标节点对应的运行数据库的性能参数,包括:
10.一种数据处理装置,包括: