一种DAG图计算分布式大数据工作流任务调度平台的制作方法

文档序号:30417860发布日期:2022-06-15 12:04阅读:294来源:国知局
一种DAG图计算分布式大数据工作流任务调度平台的制作方法
一种dag图计算分布式大数据工作流任务调度平台
技术领域
1.本发明涉及智能计算大数据调度领域,更具体地说,本发明涉及一种dag图计算分布式大数据工作流任务调度平台。


背景技术:

2.现阶段,大数据工作流任务调度一般通过数据筛选清洗等处理后按照前后队列进行顺序调度或进行集中调度,调度效率较低;如何进一步可视化交互处理仍需提高;如何将程序调用接口标准化以及合成工作流进行管控仍待改进;如何进行弹性容错实时工作流处理仍需提高;进行分布式并行资源调度与任务调度仍待完善;因此,有必要提出一种dag图计算分布式大数据工作流任务调度平台,以至少部分地解决现有技术中存在的问题。


技术实现要素:

3.在发明内容部分中引入了一系列简化形式的概念,这将在具体实施方式部分中进一步详细说明;本发明的发明内容部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征,更不意味着试图确定所要求保护的技术方案的保护范围。
4.为至少部分地解决上述问题,本发明提供了一种dag图计算分布式大数据工作流任务调度平台,包括:
5.大数据工作流交互分系统,根据dag图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;
6.接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;
7.任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;
8.节点并行分布调度分系统,将工作流任务分配到高可用集群中多个dag图计算节点上并行运行,进行分布式并行资源调度与任务调度。
9.优选的,所述大数据工作流交互分系统包括:
10.dag图作业拓扑子系统,用于通过dag图描述处理作业拓扑;
11.数据处理知识挖掘子系统,用于通过大数据处理,挖掘提取大数据规律知识;
12.自动生成算法模型子系统,用于根据大数据规律知识通过自动生成多样化的可视化算法模型库。
13.优选的,所述接口标准任务管控分系统包括:
14.标准化接口子系统,用于通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;
15.工作流合成子系统,用于根据调用接口标准化,通过多种运算合成独立工作流;
16.算法库管理子系统,用于通过算法管理控制进行可视化算法模型库管控。
17.优选的,所述任务计算执行引擎分系统包括:
18.多源数据获取子系统,用于通过多源数据输入进行多种数据源数据获取,多种数据源包括:数据库输入数据源、多任务消息队列输入数据源和多终端逻辑输入数据源;
19.弹性容错处理子系统,用于通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;
20.数据传输输出子系统,用于通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
21.优选的,所述节点并行分布调度分系统包括:
22.提交驱动申请子系统,用于通过提交应用程序,调用资源调度器为驱动申请资源;
23.应用程序申请子系统,用于通过主节点申请,在驱动申请资源完成后,向主节点为应用程序申请资源;
24.执行分布调度子系统,用于通过分布式并行计算,进行分布式并行资源调度与任务调度。
25.优选的,所述自动生成算法模型子系统包括:
26.知识图谱创建单元,用于将大数据规律知识,按照节点关系规则创建知识图谱;
27.可视化模型库单元,用于将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
28.优选的,所述算法库管理子系统包括:
29.机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
30.特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
31.管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
32.保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
33.实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制。
34.优选的,所述多源数据获取子系统包括:
35.数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
36.消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
37.多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
38.优选的,所述执行分布调度子系统包括:
39.资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
40.集群分布计算单元,用于在高可用集群中多个dag图计算节点上进行分布式的并行计算;在高可用集群中多个dag图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个dag图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为gpu并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的dag图,所述dag图包括待计算节点
数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的dag图中并行读取预设数量的待计算节点数据;其中,在从所述dag图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
41.资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
42.优选的,所述资源任务调度单元包括:
43.任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
44.任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
45.调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
46.相比现有技术,本发明至少包括以下有益效果:
47.本发明一种dag图计算分布式大数据工作流任务调度平台,通过大数据工作流交互,根据dag图描述处理作业拓扑,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;通过高可用集群,进行弹性高吞吐的容错实时工作流处理;可以将工作流任务分配到高可用集群中多个dag图计算节点上并行运行进行分布式并行资源调度与任务调度;通过dag图描述处理作业拓扑;数据处理知识挖掘通过大数据处理,挖掘提取大数据规律知识;可以自动生成算法模型;程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;使大数据工作流任务调度效率提高;进一步提高可视化交互处理水平;可以将程序调用接口标准化闭并改进合成工作流管控;能够进行弹性容错实时的工作流处理;可以完善分布式并行资源调度与任务调度;大幅提高资源调度与任务调度的效率和资源利用率。
48.本发明所述的一种dag图计算分布式大数据工作流任务调度平台,本发明的其它
优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
49.附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
50.图1为本发明所述的一种dag图计算分布式大数据工作流任务调度平台结构图。
51.图2为本发明所述的一种dag图计算分布式大数据工作流任务调度平台实施例2图。
52.图3为本发明所述的一种dag图计算分布式大数据工作流任务调度平台实施例3图。
具体实施方式
53.下面结合附图以及实施例对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施;如图1-3所示,本发明提供了一种dag图计算分布式大数据工作流任务调度平台,包括:
54.大数据工作流交互分系统,根据dag图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;
55.接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;
56.任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;
57.节点并行分布调度分系统,将工作流任务分配到高可用集群中多个dag图计算节点上并行运行,进行分布式并行资源调度与任务调度。
58.上述技术方案的工作原理为,一种dag图计算分布式大数据工作流任务调度平台,包括:大数据工作流交互分系统与接口标准任务管控分系统进行数据传输,接口标准任务管控分系统并与任务计算执行引擎分系统进行数据传输,任务计算执行引擎分系统并行计算同时与节点并行分布调度分系统进行数据传输;大数据工作流交互分系统,根据dag图描述处理作业拓扑,通过可视化交互及大数据处理,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;任务计算执行引擎分系统,通过高可用集群,设置全局参数及节点自设参数,并通过高阶函数算法,进行弹性高吞吐的容错实时工作流处理;节点并行分布调度分系统,将工作流任务分配到高可用集群中多个dag图计算节点上并行运行,进行分布式并行资源调度与任务调度。
59.上述技术方案的有益效果为,本发明一种dag图计算分布式大数据工作流任务调度平台,通过大数据工作流交互,根据dag图描述处理作业拓扑,生成可视化算法模型库;接口标准任务管控分系统,将程序调用接口标准化,通过多种运算合成独立工作流,进行可视化算法模型库管控;通过高可用集群,进行弹性高吞吐的容错实时工作流处理;可以将工作流任务分配到高可用集群中多个dag图计算节点上并行运行进行分布式并行资源调度与任
务调度;通过dag图描述处理作业拓扑;数据处理知识挖掘通过大数据处理,挖掘提取大数据规律知识;可以自动生成算法模型;程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;使大数据工作流任务调度效率提高;进一步提高可视化交互处理水平;可以将程序调用接口标准化闭并改进合成工作流管控;能够进行弹性容错实时的工作流处理;可以完善分布式并行资源调度与任务调度;大幅提高资源调度与任务调度的效率和资源利用率。
60.在一个实施例中,所述大数据工作流交互分系统包括:
61.dag图作业拓扑子系统,用于通过dag图描述处理作业拓扑;
62.数据处理知识挖掘子系统,用于通过大数据处理,挖掘提取大数据规律知识;
63.自动生成算法模型子系统,用于根据大数据规律知识通过自动生成多样化的可视化算法模型库。
64.上述技术方案的工作原理为,大数据工作流交互分系统的dag图作业拓扑子系统分别与数据处理知识挖掘子系统、自动生成算法模型子系统进行数据传输;通过dag图描述处理作业拓扑;通过大数据处理,挖掘提取大数据规律知识;根据大数据规律知识通过自动生成多样化的可视化算法模型库。
65.上述技术方案的有益效果为,通过dag图描述处理作业拓扑;通过大数据处理,挖掘提取大数据规律知识;根据大数据规律知识通过自动生成多样化的可视化算法模型库;通过大数据处理挖掘提取大数据规律知识,可以自动生成算法模型;
66.在一个实施例中,所述接口标准任务管控分系统包括:
67.标准化接口子系统,用于通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;
68.工作流合成子系统,用于根据调用接口标准化,通过多种运算合成独立工作流;
69.算法库管理子系统,用于通过算法管理控制进行可视化算法模型库管控。
70.上述技术方案的工作原理为,接口标准任务管控分系统的标准化接口子系统,通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化;标准化接口子系统的标准化接口一端连接工作流合成子系统另一端连接算法库管理子系统;根据调用接口标准化,通过多种运算合成独立工作流;通过算法管理控制进行可视化算法模型库管控。
71.上述技术方案的有益效果为,通过程序调用接口标准化将机器学习算法的多个应用程序调用接口标准化,提高应用程序调用的效率;根据调用接口标准化,通过多种运算合成独立工作流,增加工作流的处理速度;通过算法管理控制进行可视化算法模型库管控,提高算法模型库管控可视化水平。
72.在一个实施例中,所述任务计算执行引擎分系统包括:
73.多源数据获取子系统,用于通过多源数据输入进行多种数据源数据获取,多种数据源包括:数据库输入数据源、多任务消息队列输入数据源和多终端逻辑输入数据源;
74.弹性容错处理子系统,用于通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;
75.数据传输输出子系统,用于通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
76.上述技术方案的工作原理为,任务计算执行引擎分系统的多源数据获取子系统分
别与数据库输入、多任务消息队列输入和多终端逻辑输入进行数据传输;多源数据获取子系统的数据源传输到弹性容错处理子系统,通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理;弹性容错处理子系统传输数据到数据传输输出子系统输出数据,通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面。
77.上述技术方案的有益效果为,可以获取多源数据并分别与数据库输入、多任务消息队列输入和多终端逻辑输入进行多源数据相互传输,相互补充数据源;通过高阶函数算法、机器学习算法以及图形处理算法,进行弹性高吞吐的容错实时工作流处理,提高弹性容错处理能力;弹性容错处理子系统传输数据到数据传输输出子系统输出数据,通过数据传输输出将处理后的数据输出到文件系统、数据仓库以及实时可视化界面,提高实时可视化水平。
78.在一个实施例中,所述节点并行分布调度分系统包括:
79.提交驱动申请子系统,用于通过提交应用程序,调用资源调度器为驱动申请资源;
80.应用程序申请子系统,用于通过主节点申请,在驱动申请资源完成后,向主节点为应用程序申请资源;
81.执行分布调度子系统,用于通过分布式并行计算,进行分布式并行资源调度与任务调度。
82.上述技术方案的工作原理为,节点并行分布调度分系统通过提交驱动申请子系统与应用程序申请子系统进行数据传输,提交应用程序,调用资源调度器为驱动申请资源;应用程序申请子系统,向主节点为应用程序申请资源后传输指令数据到执行分布调度子系统;执行分布调度子系统通过分布式并行计算,进行分布式并行资源调度与任务调度。
83.上述技术方案的有益效果为,调用资源调度器为驱动申请资源,向主节点为应用程序申请资源后传输指令数据到执行分布调度子系统;使资源分配更加合理,避免资源过度占用;执行分布调度子系统通过分布式并行计算,进行分布式并行资源调度与任务调度,大幅提高资源调度与任务调度的效率和资源利用率。
84.在一个实施例中,所述自动生成算法模型子系统包括:
85.知识图谱创建单元,用于将大数据规律知识,按照节点关系规则创建知识图谱;
86.可视化模型库单元,用于将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
87.上述技术方案的工作原理为,自动生成算法模型子系统的知识图谱创建单元分别与数据处理知识挖掘子系统以及可视化模型库单元进行数据传输,将数据处理知识挖掘子系统传输的大数据规律知识,按照节点关系规则创建知识图谱;可视化模型库单元,将知识图谱创建单元知识图谱不同种类的数据可视化,自动交互生成可视化算法模型库;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库。
88.上述技术方案的有益效果为,将数据处理知识挖掘子系统传输的大数据规律知识,按照节点关系规则创建知识图谱;可视化模型库单元,将知识图谱创建单元知识图谱不
同种类的数据可视化;可视化算法模型库包括:产品可视化库、供应链可视化库、产业流程可视化库、库存可视化库、排程可视化库、关键设备/产线可视化库、物料可视化库、能耗可视化库;提高自动交互能力及丰富算法模型并能够提高可视化水平。
89.在一个实施例中,所述算法库管理子系统包括:
90.机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
91.特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
92.管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
93.保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
94.实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制;计算协同过滤管理控制信息协同预测值,计算公式如下:
[0095][0096]
其中,pczmn为协同过滤管理控制信息协同预测值,tpjmn为协同过滤管理控制共评价数量,i为第i个协同过滤管理控制共评价,dmi为第i个协同过滤管理控制单评价预测值,vmi为第i个协同过滤管理控制单评价实际值;如果协同过滤管理控制信息协同预测值越大,则协同过滤管理控制信息准确度越高;通过计算协同过滤管理控制信息协同预测值,提高协同过滤管理控制信息准确度。
[0097]
上述技术方案的工作原理为,所述算法库管理子系统的机器学习算法管控单元和特征变换维度管控单元分别和管控构建评估调整单元进行数据传输,管控构建评估调整单元同时与保存加载模型管控单元和实用程序管理控制单元进行数据传输;机器学习算法管控单元对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;特征变换维度管控单元,对特征进行提取、变换、降维和选择管理控制;管控构建评估调整单元,对管控进行构建、评估和调整机器学习管控工具;保存加载模型管控单元,保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;实用程序管理控制单元,对实用程序线性统计及数据处理进行管理控制;计算协同过滤管理控制信息协同预测值,计算公式如下:
[0098][0099]
其中,pczmn为协同过滤管理控制信息协同预测值,tpjmn为协同过滤管理控制共评价数量,i为第i个协同过滤管理控制共评价,dmi为第i个协同过滤管理控制单评价预测值,vmi为第i个协同过滤管理控制单评价实际值;如果协同过滤管理控制信息协同预测值越大,则协同过滤管理控制信息准确度越高;通过计算协同过滤管理控制信息协同预测值,提高协同过滤管理控制信息准确度。
[0100]
上述技术方案的有益效果为,所述算法库管理子系统包括:
[0101]
机器学习算法管控单元,用于对机器学习算法进行管理控制,包括:分类、回归、聚类和协同过滤管理控制;
[0102]
特征变换维度管控单元,用于对特征进行提取、变换、降维和选择管理控制;
[0103]
管控构建评估调整单元,用于对管控进行构建、评估和调整机器学习管控工具;
[0104]
保存加载模型管控单元,用于保存及加载机器学习管控算法、机器学习管控模型和机器学习管控状态;
[0105]
实用程序管理控制单元,用于对实用程序线性统计及数据处理进行管理控制;计算协同过滤管理控制信息协同预测值,其中,pczmn为协同过滤管理控制信息协同预测值,tpjmn为协同过滤管理控制共评价数量,i为第i个协同过滤管理控制共评价,dmi为第i个协同过滤管理控制单评价预测值,vmi为第i个协同过滤管理控制单评价实际值;如果协同过滤管理控制信息协同预测值越大,则协同过滤管理控制信息准确度越高;通过计算协同过滤管理控制信息协同预测值,提高协同过滤管理控制信息准确度。
[0106]
在一个实施例中,所述多源数据获取子系统包括:
[0107]
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
[0108]
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
[0109]
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
[0110]
上述技术方案的工作原理为,所述多源数据获取子系统包括:
[0111]
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
[0112]
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
[0113]
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
[0114]
上述技术方案的有益效果为,所述多源数据获取子系统包括:
[0115]
数据库输入数据源单元,用于通过多种类型数据库连接数据进行多种数据源数据获取;
[0116]
消息列传输数据源单元,用于通过消息队列传输数据进行多种数据源数据获取;
[0117]
多终端逻辑数据源单元,用于通过多终端逻辑程序生成数据进行多种数据源数据获取。
[0118]
在一个实施例中,所述执行分布调度子系统包括:
[0119]
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
[0120]
集群分布计算单元,用于在高可用集群中多个dag图计算节点上进行分布式的并行计算;在高可用集群中多个dag图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个dag图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为gpu并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的dag图,所述dag图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中
的服务器发起的调用,从与所述调用的发起方对应的dag图中并行读取预设数量的待计算节点数据;其中,在从所述dag图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
[0121]
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
[0122]
上述技术方案的工作原理为,所述执行分布调度子系统包括:
[0123]
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
[0124]
集群分布计算单元,用于在高可用集群中多个dag图计算节点上进行分布式的并行计算;在高可用集群中多个dag图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个dag图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为gpu并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的dag图,所述dag图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的dag图中并行读取预设数量的待计算节点数据;其中,在从所述dag图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
[0125]
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
[0126]
上述技术方案的有益效果为,所述执行分布调度子系统包括:
[0127]
资源调度分发单元,用于通过资源调度器把工作流任务分发到工作节点执行器;
[0128]
集群分布计算单元,用于在高可用集群中多个dag图计算节点上进行分布式的并行计算;在高可用集群中多个dag图计算节点上进行分布式的并行计算包括:所述高可用集群通过节点分布子单元、集群数据传输子单元以及并行计算子单元在多个dag图计算节点上进行分布式的并行计算;其中,所述高可用集群中的服务器均为gpu并行运算服务器,所述节点分布子单元中的服务器均在数据库维护了对应的dag图,所述dag图包括待计算节点数据以及与所述待计算节点数据对应的运算阶段,所述运算阶段包括初始运算阶段、中间运算阶段、完成运算阶段以及循环运算阶段;节点分布子单元中的服务器在接收到计算任务时,分别向集群数据传输子单元中的服务器并行发起调用;其中,所述计算任务包括周期
计算任务以及随机计算任务;集群数据传输子单元中的服务器响应所述节点分布子单元中的服务器发起的调用,从与所述调用的发起方对应的dag图中并行读取预设数量的待计算节点数据;其中,在从所述dag图中读取待计算节点数据时,如果所述计算任务为周期计算任务,优先读取循环运算阶段的节点数据;如果所述计算任务为随机计算任务,优先读取初始运算阶段的节点数据;所述集群数据传输子单元中的服务器分别向并行计算子单元中的服务器并行发起调用,将读取到的所述预设数量的待计算节点数据下发至并行计算子单元中的服务器,以由所述并行计算子单元中的服务器基于接收到的所述待计算节点数据执行多线程的并行计算;
[0129]
资源任务调度单元,用于通过调用资源调度器,实现多节点分布式并行资源调度与任务调度。
[0130]
在一个实施例中,所述资源任务调度单元包括:
[0131]
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
[0132]
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
[0133]
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
[0134]
上述技术方案的工作原理为,所述资源任务调度单元包括:
[0135]
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
[0136]
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
[0137]
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
[0138]
上述技术方案的有益效果为,所述资源任务调度单元包括:
[0139]
任务调度依赖关系子单元,用于确定多个资源调度器任务调度;确定所述多个资源调度器任务调度之间的依赖关系;
[0140]
任务调度并行执行子单元,用于根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度;其中,所述根据所述多个资源调度器任务调度之间的依赖关系,执行所述多个资源调度器任务调度,包括:并行地执行没有依赖关系的资源调度器任务调度,串行地执行具有依赖关系的资源调度器调度操作;其中,所述确定所述多个资源调度器任务调度之间的依赖关系,包括:如果第二资源调度器任务调度涉及的主机集合与第三资源调度器任务调度涉及的主机集合存在交集,则确定所述第二资源调度器任务调度和所述第三资源调度器任务调度具有依赖关系;
[0141]
调度依赖关系判定子单元,用于对任务调度依赖关系判定,降低资源调度器调用频率;如果第四资源调度器任务调度涉及的主机集合与第五资源调度器任务调度涉及的主机集合没有交集,则确定所述第四资源调度器任务调度和所述第五资源调度器任务调度没有依赖关系。
[0142]
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节与这里示出与描述的图例。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1