基于近数据计算原则的多卫星数据中心工作流调度算法

文档序号:6640890阅读:259来源:国知局
基于近数据计算原则的多卫星数据中心工作流调度算法
【专利摘要】本发明公开了一种基于近数据计算原则的多卫星数据中心工作流调度算法,包括步骤1:构建工作流执行综合时间最小化的近数据计算模型;步骤2:基于计算资源处理能力与关键数据资源传输代价的虚拟工作流动态构建方法;步骤3:基于超图理论的按组划分任务方式PGH对步骤2中的虚拟工作流调度进行优化;步骤4:对预先设置的多卫星数据中心计算近数据计算模型之间的算法进行自动迁移。本发明的有益效果为:可实现最大程度地降低工作流总执行时间,从而大大提高多卫星数据中心的工作流调度效率,能够快速构建基于多卫星数据中心架构的一站式遥感数据产品服务模式,并为应对多用户的复杂需求提供技术支撑。
【专利说明】基于近数据计算原则的多卫星数据中心工作流调度算法

【技术领域】
[0001] 本发明涉及一种面向多卫星数据中心工作流调度算法,具体来说,涉及一种基于 近数据计算原则的多卫星数据中心工作流调度算法。

【背景技术】
[0002] 随着对地观测领域内多种传感器的发展,海量多源遥感数据获取能力的提高,专 业化的数据获取与多源数据的综合应用呈现出精细化分工与协同式综合处理需求并存的 发展局面。一方面,各类遥感数据获取与管理方式更为专业化,由此形成了多个不同类型卫 星、不同区域或国家的数据中心;另一方面,遥感领域的大型综合性应用又需要得到不同卫 星、不同区域或国家数据中心的数据支持,面临着需要同时面对不同类型传感器数据的处 理、不同数据中心之间数据类型与覆盖区域的互补、综合性信息处理等现实问题。
[0003] 这一系列现实状况、需求与发展趋势,一方面催生了各数据中心联合提供数据共 享的动力与技术解决方案,另一方面,各中心联合起来,共同为用户提供综合性的信息处理 与一站式信息服务,成为未来的发展趋势之一。为此,构建多卫星数据中心协同处理与一站 式信息服务模式,依托于国内外已有的气象、陆地、海洋等卫星数据中心,研究在多卫星数 据中心架构下处理多源遥感数据产品所需的若干关键技术,建立一个可以统一、协同调度 多卫星数据中心资源的多源遥感数据协同处理平台成为当下遥感领域的一个迫切问题。


【发明内容】

[0004] 本发明的目的是提供一种基于近数据计算原则的多卫星数据中心工作流调度算 法,通过建立近数据计算的目标约束模型,确定最小化的工作流执行综合时间确定近数据 计算的具体实现方式。通过超图理论的按组划分任务方式将多卫星数据中心计算平台的工 作流调度方法进行优化,能够使相同分组内的计算任务其输入数据的传输时间最短。同时, 在输入数据量较大的情况下,利用多卫星数据中心计算平台之间的算法自动迁移方法替代 大规模的数据迁移。如此可避免长时间的海量数据传输过程中会遇到的网络中断、存储空 间消耗过大等问题,从而提高多卫星数据中心的工作流调度效率和协同处理能力,有效的 克服了现有技术中的上述不足。
[0005] 本发明的目的是通过以下技术方案来实现: 一种基于近数据计算原则的多卫星数据中心工作流调度算法,包括以下步骤: 步骤1 :将预先配置的工作流执行综合时间简化为工作流所需数据的传输时间和输入 数据拷贝到计算资源后的实际处理时间,以时间成本为约束条件,计算所述工作流执行综 合时间的最小值; 步骤2 :根据得到待调度的数据资源与计算资源信息,在预先配置的既定调度原则的 指导下,选择相匹配的资源进行组合,得到虚拟工作流; 步骤3 :基于超图理论的按组划分任务方式PGH对步骤2中的虚拟工作流调度进行优 化; 步骤4 :对预先设置的多卫星数据中心计算近数据计算模型之间的算法进行自动迁 移,包括算法运行环境的解析与封装方法分析以及算法的跨计算模型自动编译。
[0006] 进一步的,在步骤3中,优化的方法包括将具有相同输入数据的工作流划分为相 同的任务组,在同一任务组内重复利用已经拷贝过的输入数据。
[0007] 进一步的,在步骤4中,所述算法运行环境的解析与封装方法分析包括: 步骤4-1-1 :查询预先配置的算法库中关于该算法资源的信息,确定算法资源是否具 备源代码和源代码的路径,同时对该路径下的源代码与动态链接库文件进行检查; 步骤4-1-2 :对算法可执行文件运行用户的环境变量进行解析,提取出算法运行时动 态链接库所需的环境变量名称,并保存为xml文件格式; 步骤4-1-3 :对算法运行所依赖的动态链接库进行封装,并使动态链接库的封装与预 先配置的算法源代码的压缩方法一致。
[0008] 进一步的,在步骤4中,所述算法的跨计算模型自动编译包括: 步骤4-2-1 :利用预先配置在系统平台中与源代码与动态链接库的压缩文件格式相匹 配的解压缩命令对源代码与动态链接库进行解压缩,并且将动态链接库解压缩后的路径保 存在预先配置的临时文件中; 步骤4-2-2 :算法资源迁移到目标数据中心后,同时还要将迁移过来的动态链接库文 件所对应的路径添加到环境变量中,将步骤4-2-1中所记录的动态链接库文件路径添更新 到当前用户的环境变量中,并判断配置文件中是否已存在同名环境变量,在不存在同名环 境变量的情况下,新建环境变量并对其赋值; 步骤4-2-3 :对预先配置的自动编译脚本进行调用,通过预先设置的ssh协议调用目标 数据中心的预先配置的算法编译MakeFile文件,驱动算法资源编译过程自动执行; 步骤4-2-4 :编译成功后的算法资源生成相匹配的可执行文件,通过预先配置的数据 库操作接口增加目标数据中心算法库中的新算法记录。
[0009] 进一步的,在步骤4-2-2中,在存在同名环境变量的情况下,对该环境变量进行追 加。
[0010] 本发明的有益效果为:在多卫星数据中心工作流进行调度中,近数据计算原则实 现计算向数据靠近的目的,最大程度地降低工作流总执行时间,从而大大提高多卫星数据 中心的工作流调度效率,另外,针对海量遥感数据的多中心协同处理过程中涉及的大规模 数据迁移问题,多卫星数据中心环境下近数据工作流调度算法能够以算法迁移代替大规模 数据迁移,可避免长时间的海量数据传输过程中会遇到的网络中断、存储空间消耗过大等 问题,能够快速构建基于多卫星数据中心架构的一站式遥感数据产品服务模式,并为应对 多用户的复杂需求提供技术支撑,有利于市场的推广与应用。

【专利附图】

【附图说明】
[0011] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。
[0012] 图1是根据本发明实施例所述的一种基于近数据计算原则的多卫星数据中心工 作流调度算法的示意图; 图2是根据本发明实施例所述的基于计算资源处理能力与关键数据资源传输代价的 虚拟工作流动态构建示意图; 图3是本发明实施例所述的基于超图理论的按组划分任务方式的示意图; 图4是本发明实施例所述的多卫星数据中心计算平台之间的算法自动迁移的流程图。

【具体实施方式】
[0013] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的 范围。
[0014] 如图1-4所示,根据本发明实施例所述的一种基于近数据计算原则的多卫星数据 中心工作流调度算法,包括以下步骤: 步骤1 :构建工作流执行综合时间最小化的近数据计算模型,将所述工作流执行综合 时间简化为工作流所需数据的传输时间与输入数据拷贝到计算资源后的实际处理时间两 部分,以时间成本为约束条件计算所述工作流执行综合时间的最小值,即为最小化的近数 据计算模型; 步骤2 :基于计算资源处理能力与关键数据资源传输代价的虚拟工作流动态构建方 法,在构建虚拟工作流之前,根据得到待调度的数据资源与计算资源信息,在预先配置的既 定调度原则的指导下,选择相匹配的资源进行组合,得到虚拟工作流; 步骤3 :基于超图理论的按组划分任务方式PGH对步骤2中的虚拟工作流调度进行优 化; 优化的方法包括将具有相同输入数据的工作流划分为相同的任务组,在同一任务组内 重复利用已经拷贝过的输入数据。
[0015] 步骤4:对预先设置的多卫星数据中心计算近数据计算模型之间的算法进行自动 迁移,包括算法运行环境的解析与封装方法分析以及算法的跨计算模型自动编译。
[0016] 其中,在步骤4中,所述算法运行环境的解析与封装方法分析包括: 步骤4-1-1 :算法资源完备性检查,查询预先配置的算法库中关于该算法资源的信息, 确定算法资源是否具备源代码和源代码的路径,同时对该路径下的源代码与动态链接库文 件进行检查; 步骤4-1-2 :算法资源环境变量解析,对算法可执行文件运行用户的环境变量进行解 析,提取出算法运行时动态链接库所需的环境变量名称,并保存为xml文件格式; 步骤4-1-3 :对算法运行所依赖的动态链接库进行封装,对动态链接库的封装与预先 配置的算法源代码的压缩方法一致。
[0017] 其中,在步骤4中,所述算法的跨计算模型自动编译包括: 步骤4-2-1 :源代码与动态链接库文件的解压缩,利用预先配置在系统平台中与源代 码与动态链接库的压缩文件格式相匹配的解压缩命令对源代码与动态链接库进行解压缩, 并且将动态链接库解压缩后的路径保存在预先配置的临时文件中; 步骤4-2-2 :环境变量更新,算法资源迁移到目标数据中心后,同时还要将迁移过来的 动态链接库文件所对应的路径添加到环境变量中,将步骤4-2-1中所记录的动态链接库文 件路径添更新到当前用户的环境变量中,并判断配置文件中是否已存在同名环境变量, 在不存在同名环境变量的情况下,新建环境变量并对其赋值; 在存在同名环境变量的情况下,对该环境变量进行追加。
[0018] 步骤4-2-3 :对预先配置的自动编译脚本进行调用,通过预先设置的SSh协议调用 目标数据中心的预先配置的算法编译MakeFile文件,驱动算法资源编译过程自动执行; 步骤4-2-4 :算法资源注册,编译成功后的算法资源生成相匹配的可执行文件,通过预 先配置的数据库操作接口增加目标数据中心算法库中的新算法记录。
[0019] 对于工作流执行综合时间最小化的近数据计算模型,近数据计算模型重点考虑工 作流输入数据源的选择、卫星数据中心计算资源节点的选择两个主要因素,工作流总执行 时间规定为工作流所需数据的传输时间、输入数据拷贝到计算资源后的实际处理时间两部 分,为了使工作流总执行时间最小化,近数据模型规定实现过程的约束条件为数据资源传 输时间最短和计算资源处理时间最短。
[0020] 其中,对于基于计算资源处理能力与关键数据资源传输代价的虚拟工作流动态构 建方法,多卫星数据中心平台下进行资源分配、调度的模拟过程需构建虚拟工作流,虚拟工 作流的构建是以计算资源的计算能力与数据资源传输代价为主要考虑要素的。近数据计算 原则将数据传输代价作为调度的首要因子,再对比计算资源之间差别,从而动态构建虚拟 工作流。
[0021] 其中,在多卫星数据中心架构下,多源遥感数据产品的生产过程中会涉及到多个 卫星数据中心的协同处理时,共享输入数据的重复拷贝的时间将会大幅增加工作流调度过 程中的时间成本。由此,本发明方法可以利用PGH,将包任务模型引入到多卫星数据中心架 构下的多源遥感数据产品生产过程中,对共享输入数据的多个工作流的调度方法进行了优 化。
[0022] 对于基于PGH(超图理论的按组划分任务方式)的多卫星数据中心计算平台的工 作流调度优化方法,多源遥感数据产品的生产过程中涉及到的多个卫星数据中心的协同处 理时,每个数据中心在提供多个数据供其他计算资源重复使用,数据拷贝的时间将会大幅 增加工作流调度的时间成本。对多共享输入文件利用PGH的划分方式,将具有相同输入数 据的工作流划分为相同的任务组,在同一任务组内重复利用已经拷贝过的输入数据。
[0023] 另外,在多卫星数据中心计算平台之间输入数据量较大的情况下,基于近数据计 算的算法自动迁移方法代替大规模数据迁移。由此,本发明方法可以在多卫星数据中心协 同处理过程中能够避免长时间的海量数据传输过程中会遇到的网络中断、存储空间消耗过 大等问题。
[0024] 对于多卫星数据中心计算平台之间的算法自动迁移方法,近数据计算另一种方法 可由算法资源自动迁移实现,即算法资源的分布式迁移代替多卫星数据中心之间的大规模 数据迁移。首先,在算法所在原数据中心上进行的算法运行环境解析与封装方法分析。然 后在算法需要迁移到的数据中心上进行自动编译,将算法信息注册到目标数据中心的计算 平台上。
[0025] 具体应用时,1)工作流执行综合时间最小化的近数据计算模型:工作流的总执行 时间简化为工作流所需数据的传输时间、输入数据拷贝到计算资源后的实际处理时间两部 分;其中,近数据计算模型也称为计算平台。

【权利要求】
1. 一种基于近数据计算原则的多卫星数据中心工作流调度算法,其特征在于,包括以 下步骤: 步骤1:将预先配置的工作流执行综合时间简化为工作流所需数据的传输时间和输入 数据拷贝到计算资源后的实际处理时间,以时间成本为约束条件,计算所述工作流执行综 合时间的最小值; 步骤2 :根据得到待调度的数据资源与计算资源信息,在预先配置的既定调度原则的 指导下,选择相匹配的资源进行组合,得到虚拟工作流; 步骤3 :基于超图理论的按组划分任务方式PGH对步骤2中的虚拟工作流调度进行优 化; 步骤4 :对预先设置的多卫星数据中心计算近数据计算模型之间的算法进行自动迁 移,包括算法运行环境的解析与封装方法分析以及算法的跨计算模型自动编译。
2. 根据权利要求1所述的基于近数据计算原则的多卫星数据中心工作流调度算法,其 特征在于,在步骤3中,优化的方法包括将具有相同输入数据的工作流划分为相同的任务 组,在同一任务组内重复利用已经拷贝过的输入数据。
3. 根据权利要求1所述的基于近数据计算原则的多卫星数据中心工作流调度算法,其 特征在于,在步骤4中,所述算法运行环境的解析与封装方法分析包括: 步骤4-1-1 :查询预先配置的算法库中关于该算法资源的信息,确定算法资源是否具 备源代码和源代码的路径,同时对该路径下的源代码与动态链接库文件进行检查; 步骤4-1-2 :对算法可执行文件运行用户的环境变量进行解析,提取出算法运行时动 态链接库所需的环境变量名称,并保存为xml文件格式; 步骤4-1-3 :对算法运行所依赖的动态链接库进行封装,并使动态链接库的封装与预 先配置的算法源代码的压缩方法一致。
4. 根据权利要求1所述的基于近数据计算原则的多卫星数据中心工作流调度算法,其 特征在于,在步骤4中,所述算法的跨计算模型自动编译包括: 步骤4-2-1 :利用预先配置在系统平台中与源代码与动态链接库的压缩文件格式相匹 配的解压缩命令对源代码与动态链接库进行解压缩,并且将动态链接库解压缩后的路径保 存在预先配置的临时文件中; 步骤4-2-2 :算法资源迁移到目标数据中心后,同时还要将迁移过来的动态链接库文 件所对应的路径添加到环境变量中,将步骤4-2-1中所记录的动态链接库文件路径添更新 到当前用户的环境变量中,并判断配置文件中是否已存在同名环境变量,在不存在同名环 境变量的情况下,新建环境变量并对其赋值; 步骤4-2-3 :对预先配置的自动编译脚本进行调用,通过预先设置的ssh协议调用目标 数据中心的预先配置的算法编译Make File文件,驱动算法资源编译过程自动执行; 步骤4-2-4:编译成功后的算法资源生成相匹配的可执行文件,通过预先配置的数据 库操作接口增加目标数据中心算法库中的新算法记录。
5. 根据权利要求4所述的基于近数据计算原则的多卫星数据中心工作流调度算法,其 特征在于,在步骤4-2-2中,在存在同名环境变量的情况下,对该环境变量进行追加。
【文档编号】G06F9/48GK104484230SQ201410851865
【公开日】2015年4月1日 申请日期:2014年12月31日 优先权日:2014年12月31日
【发明者】王力哲, 张万峰, 马艳, 张 杰 申请人:中国科学院遥感与数字地球研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1