分布式并行计算平台系统及其计算任务分配方法

文档序号:6471586阅读:261来源:国知局
专利名称:分布式并行计算平台系统及其计算任务分配方法
技术领域
本发明涉及电力系统的信息处理领域,尤其涉及一种分布式并行计算平 台系统及其计算任务分配方法。
背景技术
随着电力系统自动化水平的不断提高,网络规模越来越大,网络结构变 得更加复杂,传统的单机计算模式和集中数据处理方式必然会遇到硬件计算 能力的瓶颈。
在电力计算问题解决中,电力计算通常包括暂态稳定计算、快速故障筛 选、断面极限计算、短路故障扫描计算等。在不同的计算模式中,计算本身 也具有的不同的优先级和时间要求,可以将之归为在线计算和离线计算模式。
在线运行模式通常要求实现连续的基本安全稳定分析计算,具有较高的稳定 性和运行效率,同时也具备周期性、连续性、可靠性等特点。离线计算模式 提供全面的安全稳定分析计算功能,大多数处在人工研究修改界面,提交计 算后离线分析、研究和维护等,在时间性上对计算的实时性要求不高。
由此,针对电力企业不同的计算模式和要求,不仅要通过分布式并行计 算来解决单机性能瓶颈问题,还要提出合适的任务动态调度和资源分配的策 略和方法,来提高分布式并行平台系统的计算问题解决速度和充分有效利用 现有的计算机器资源。

发明内容
本发明实施例的目的在于提供一种分布式并行计算平台系统及其计算任 务分配方法,使得分布式并行计算平台系统可以区分在线计算和离线计算两种不同的计算模式,对多个计算任务请求进行有效调度,同时对现有资源进 行合理分配,这样可以满足不同计算模式的特性和要求,也可以充分利用计 算资源,并力求在任务调度和资源分配之间达成一个合理的折衷,从而一方 面力求并行计算实时高效,另一方面也要保证计算资源的充分利用。 本发明实施例提供一种分布式并行计算平台系统,该系统包括 pcp,用于接收在线和离线计算输入文件,形成在线和离线任务分配方案; 在线调度服务器,用于接收pcp下发的在线计算输入文件和在线任务分 配方案,将在线任务计算结果汇总并返回给pcp;
离线调度服务器,用于接收pcp下发的在线和离线计算输入文件与在线 和离线分配方案并转发至离线计算节点,将离线任务计算结果汇总并返回给 pcp,将在线任务计算结果传送给在线调度服务器;
在线计算节点,用于接收在线调度服务器转发的在线计算任务输入文件 和在线任务分配方案,只进行在线计算并将在线计算结果返回给在线调度服 务器;以及
离线计算节点,用于接收离线调度服务器转发的在线和离线计算输入文 件与在线和离线分配方案,进行在线计算和离线计算,并将在线和离线计算 结果返回给离线调度服务器。
本发明实施例还提供一种分布式并行计算平台的计算任务分配方法,所 述分布式计算平台包括pcp、在线调度服务器、离线调度服务器、在线计算节 点和离线计算节点;该方法包括以下步骤
pcp接收在线计算任务和离线计算任务,并制定在线计算任务分配总表和 离线任务分配总表;
pcp将发送在线计算任务分配总表和在线计算数据给在线调度服务器,将 离线计算任务分配总表和离线计算数据,以及在线计算任务分配总表和在线 计算数据发送离线调度服务器;
在线调度服务器将在线计算任务分配总表和在线计算数据传送给在线计算节点;
离线调度服务器离线计算任务分配总表和离线计算数据,以及在线计算
任务分配总表和在线计算数据传送给离线计算节点;
在线计算节点和离线计算节点接收到任务总表后开始计算,计算完毕后
将各自的计算结果分别返回给在线调度服务器和离线调度服务器;
离线调度服务器将在线任务计算结果返回至在线调度服务器;以及 在线调度服务器和离线调度服务器分别汇总所述在线任务计算结果和离 线任务计算结果后返回给PCP。
本发明提供的分布式并行计算平台系统,通过基于网络技术的多机并行 计算环境,将各种异构的计算资源通过网络联接起来,共同完成计算问题。 分布式并行计算平台系统一方面能够允许多个计算问题任务同时请求,并依 据一定的准则从多个任务请求中的选择一个或多个分发到多机上完成计算; 另一方面从多机资源中动态选择一个或多个合适的计算机器资源参与计算或 服务,保证计算问题快速高效的解决,所以任务的动态调度和资源匹配是构 建分布式并行计算平台系统的关键部分。
本发明提供的分布式并行计算平台系统的任务分配方法,针对不同的计 算模式提出不同的任务动态调度和资源分配的策略和方法。这里动态分配内 容涵盖计算任务调度和计算资源分配。
计算任务调度是依据一定的准则选择请求任务队列中的一个或多个请求 任务分发到计算资源节点上开始计算,任务选择必须釆取灵活的任务调度策 略。分布式计算平台系统在任务调度策略上,可根据不同的并行计算需求选 择恰当的动态调度策略,优化不同情境下计算各阶段的任务请求、数据交换 和事件通信,最大可能地降低交换数据的总量和频度,提高系统的通信效率, 提高系统的整体并行计算的速度。
计算资源分配是如何从多个计算节点资源动态选择合适的一个或多个资 源参与计算或服务,从而保证节点资源高效利用。在线运行模式特点要求必须提供资源预留从而提供保证服务质量的分布式并行计算服务,并在预留资 源的基础上对在线任务进行有效的动态调度和资源合理匹配,从而避免资源
的竞争和周期内枯竭,保证满足在线系统7X24小时数据即来即算的连续计
算要求。离线研究模式在时间性上对计算的实时性要求不高,可以使用不同 的策略在对用户任务进行动态调度,从而满足多用户提交任务,结果回收查 看的计算效率相对良好性。另一方面,在资源匹配上,预留资源之外的资源 构成动态资源池,其首先满足离线计算的资源请求,也具备对在线计算实现 协同预留和协同分配功能,在在线计算任务负载繁重、离线计算任务负载较 轻的情况下,动态资源池中的计算节点资源可以灵活的参与或退出在线计算。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部
分,并不构成对本发明的限定。在附图中
图1为本发明一实施例分布式并行计算平台系统的结构示意图。
图2为说明本发明一实施例分布式并行计算平台系统和外部系统关系的
结构示意图。
图3为本发明一实施例的分布式并行计算平台系统的计算任务分配方法
的流程图。
图4为本发明一实施例的分布式并行计算平台系统的计算任务分配方法
中在线任务分配的流程图。
图5为本发明一实施例的分布式并行计算平台系统的计算任务分配方法 中另一在线任务分配的流程图。
图6为本发明一实施例的分布式并行计算平台系统的计算任务分配方法 中离线任务分配的流程图。
具体实施例方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合实 施例和附图,对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明实施例提供一种分布式并行计算平台系统及其计算任务分配方
法。以下参照附图对本发明实施例进行详细说明。 实施例一
下面参照图1和图2,详细描述根据本发明的分布式并行计算平台系统。
该系统包括
PCP(PSASP Dynamic Security Analysis Common Port, PSASP在线动态 安全评估分析通用接口)接收在线或离线计算任务提交并形成任务分配方 案,任务分配方案即哪个计算节点接收哪些任务计算,然后将任务分配方案 和任务输入文件转发给调度服务器。另外PCP也是分布式并行计算平台系统 对外围系统的网关或代理。
在线调度服务器接收PCP下发的在线计算任务输入文件和分配方案并 转发(组播)至在线计算节点,在计算节点计算完毕后将在线任务计算结果 汇总并返回给PCP。
离线调度服务器接收PCP下发的在线和离线计算输入文件和分配方案
并转发至离线计算节点,在离线计算节点计算完毕后将离线任务计算结果汇
总并返回给PCP,将在线任务计算结果返回给在线调度服务器。
在线计算节点只参与在线计算任务并将计算结果返回给在线调度服务
BE益。
离线计算节点参与在线计算任务和离线计算任务,并将计算结果返回 给离线调度服务器。
PCP是上层资源中介者,具备所有计算节点资源的统一视图,在每个自治 域(在线域和离线域)内实现资源自治和自理的前提下,可以对所有资源的进 行统一分配。当离线计算节点参与在线计算时,PCP是动态资源池中离线调度 服务器和离线计算节点参与在线业务逻辑流的中介和协调者,在线业务逻辑
流中的在线计算控制指令、计算数据、控制数据从PCP转发或源发,业务逻辑流中的计算结果数据经离线调度服务器回收并转发至在线调度服务器处 "落地"并进行汇总。PCP也是平台系统对外部系统的前端网关,外部系统包 括资源的请求者,任务的提交者、第三方的应用系统等,例如DCP和离线任务 提交端,如图2所示。DCP (Dynamic Case Preparation,动态任务准备系统) 作为外部系统和PCP进行交互,准备在线计算设置和输入文件,通过FTP向 PCP提交在线计算任务。离线任务提交端向PCP提交离线计算任务。PCP将所 有的请求汇总,并将资源请求的命令和数据通过组播分发给在线和离线调度 服务器,在线计算的结果通过在线调度服务器完成收集和汇总并形成在线结 果集,离线计算的结果通过离线调度服务器完成收集和汇总从而形成离线结 果集,这些结果集以文件的形式通过PCP向外部系统转发。
在线调度服务器和离线调度服务器为下层资源中介者,对本域内资源进 行管理、控制并对下层计算资源节点返回的结果进行回收和汇总。
在线计算节点和离线计算节点包括机群或刀片服务器等节点,节点的硬 件资源包括计算机硬件资源,例如处理器、存储器、硬盘以及其他计算机设 施,节点的软件资源包括系统软件、应用程序、数据、计算程序等,其中计 算程序包括暂态稳定计算、快速故障筛选、断面极限计算、短路故障扫描计 算程序等。在线计算节点为在线计算专用,保证能提供服务质量有保障的计 算服务,离线计算节点则可为在线和离线计算共用。利用人工预先手工配置、 或计算节点自动向资源池中的调度服务器进行注册、或调度服务器节点主动 发现计算资源等机制将可用的计算节点资源归为在线计算节点和离线计算节 点。
调度服务器都可以将调度分配的权利上交给上层管理节点PCP进行控制, 这样所有的计算资源请求可以在PCP处汇集,PCP对所有的请求就可以完成集 中控制、统一分配, 一方面可以保证在线计算的服务质量,另一方面动态分 配池中节点可以动态加入或退出在线计算,从而充分利用动态分配池中的计 算资源。在由在线调度服务器和在线计算节点组成的预留资源池中,通常每一周期只允许提交一批在线计算任务,平台处理完上一批在线计算任务后方 可接收下一批在线计算请求,或者下一批在线计算请求到来可以立即中止上 一批正在计算的在线任务,从而满足在线实时计算的特点。在由离线调度服 务器和离线计算节点组成的动态资源池中,离线调度服务器可以选择多种动 态调度策略对计算请求进行任务调度,包括先来先服务法、轮转法、加权轮 转法、按优先级调度等。其中,先来先服务策略是指调度服务器按照任务提 交的先后次序进行调度。加权先来先服务策略是指调度服务器通过比较请求 任务权值大小,对从高到低权值请求中的任务按照任务提交的先后次序进行 调度。轮转法是指在一个请求队列里,队列的每个请求都具有相同的地位, 轮转法简单的在这组请求中(N个)顺序轮转选择。轮转法的活动是可预知的, 每个请求中的任务被选择执行的机会是1/N。加权轮转法是指在一个请求队列 里,队列的每个请求都具有不同的权值,轮转法按照权值的大小简单的在这 组请求中(N个)顺序轮转选择。高权值的请求中的任务被选择执行的机会大于 低权值的请求。按优先级调度是指请求优先级可根据具体的应用情况进行定 义。在将不同优先级的请求分流到不同的优先级队列中后,需釆用合理的队 列调度算法来保证优先的任务先发送,也就是需要对队列进行优先级调度。
外部系统(DCP和离线任务提交端)、PCP、调度服务器和计算节点资源构 成分层次、直线型的控制和数据信息流动路径。外部系统向资源中介者(PCP 和调度服务器)提出计算请求,资源中介者为用户寻找合适的计算节点资源并 驱动计算节点开始工作,计算节点计算的结果仍然是通过资源中介者从下到 上返回给计算请求者或结果需求者。
实施例二
下面参照图3-6,详细描述根据本发明的动态计算分配方法。如图3所示,
该方法包括
PCP接收在线计算任务和离线计算任务,将接收到的计算任务在资源中进 行匹配,制定在线计算任务分配总表和离线任务分配总表;PCP向在线调度服务器发送在线计算任务分配总表和在线计算数据,向离 线调度服务器发送离线计算任务分配总表和离线计算数据,以及在线计算任 务分配总表和在线计算数据;
在线调度服务器向在线计算节点传送在线计算任务分配总表和在线计算
数据;
离线调度服务器向离线计算节点传送离线计算任务分配总表和离线计算 数据,以及在线计算任务分配总表和在线计算数据;
在线计算节点和离线计算节点接收到任务总表后分割并过滤出与自身节 点相关的分配任务后立即开始计算,计算完毕后将计算结果分别返回给在线 调度服务器和离线调度服务器;
离线调度服务器将在线任务计算结果返回至在线调度服务器;以及
在线调度服务器和离线调度服务器分别汇总在线任务计算结果和离线任 务计算结果后返回给PCP。
PCP进行资源匹配时采用的资源匹配原则是按顺序最佳满足法,也就是按 照资源的排列顺序,依次向节点分配与其CPU核个数相等的任务数。若任务 数大于所有的可用资源节点的CPU核总数,在顺序最佳满足法的基础上进行 轮转分配,按顺序每个节点额外增加一个任务,本轮分配不完,进入下一轮 额外轮转分配,直到所有任务在可用资源中分配完毕为止。
下面参照图4,详细描述根据本发明的动态计算分配方法中,通过在线调 度服务器进行在线计算分配的情况,包括-
DCP通知PCP在线计算输入文件准备完毕;
PCP从FTP上下载在线计算输入文件,并形成在线计算任务分配方案; PCP向在线调度服务器发送在线计算输入文件和在线任务分配方案; 在线调度服务器将在线计算输入文件和在线任务分配方案转发给在线计 算节点;
在线计算节点根据在线任务分配方案使用在线计算输入文件触发计算进程开始计算,计算完毕后将计算结果返回给在线调度服务器;
在线调度服务器将在线任务计算结果汇总后返回给PCP; PCP将汇总在线结果上传给FTP并通知DCP全部在线计算完毕。 下面参照图5详细描述根据本发明的动态计算分配方法中,通过离线调 度服务器进行在线计算分配的情况,包括 DCP通知PCP在线计算输入文件准备完毕;
PCP从FTP上下载在线计算输入文件,并形成在线计算任务分配方案; PCP向离线调度服务器发送在线计算输入文件和在线任务分配方案; 离线调度服务器将在线计算输入文件和在线任务分配方案转发给离线计 算节点;
离线计算节点根据在线任务分配方案使用在线计算输入文件触发计算进 程开始计算,计算完毕后将计算结果返回给离线调度服务器;
离线调度服务器将在线任务计算结果传送给在线调度服务器;, 在线调度服务器将在线任务计算结果汇总后返回给PCP; PCP将汇总在线结果上传给FTP并通知DCP全部在线计算完毕。 下面参照图6,详细描述根据本发明的动态计算分配方法中,通过离线调
度服务器进行离线计算分配的情况,包括
离线任务提交端通知PCP离线计算输入文件准备完毕;
PCP从FTP上下载离线输入文件,并形成离线计算任务分配方案;
PCP向离线调度服务器发送离线输入文件和离线任务分配方案;
离线调度服务器将离线输入文件和离线任务分配方案转发给离线计算节
点;
离线计算节点根据离线任务分配方案使用离线计算输入文件触发计算进 程开始计算,计算完毕后对离线输入文件进行计算,然后将离线任务计算结 果返回给离线调度服务器;
离线调度服务器将离线任务计算结果汇总后返回给PCP;PCP将汇总离线结果上传给FTP并通知DCP全部离线计算完毕。
通过上面对专利中提出的分布式计算平台中任务调度和资源匹配方法进 行详细解释和说明,从中可以概括出方法具备的特点。
第一个特点是动态性,计算节点资源可自由地随时加入和离开平台系统, 节点资源的可用状态、服务能力、负载等都随时间而动态变化,节点上的计 算任务个数、计算时间和性质也随时间变化而变化。
第二个特点是自治性,可每个资源池要实现资源自治和管理,每个资源 池都有对应的资源调度管理服务器对其进行管理、控制、资源的有效调度和 分配等。
第三个特点是二分性,动态资源池除满足本域的离线计算需要外,还可 以动态加入到在线计算域,但其节点本身需要离线调度管理服务器进行管理, 包括在线任务的分配和在线任务计算结果的回收等,节点资源的分配通过
PCP(动态计算节点分配与外接系统)在在线和离线调度管理服务器之间进行 协调。
分布式并行计算平台作为计算问题的解决方案,由于采用了多种任务动 态分配策略和高效的资源匹配方法,可以为任务提出者或第三方系统提供高 效快速的并行计算和结果回收、汇总、管理、存储等功能。动态分配方法能 够实现灵活调度,集中管理、统一调度、协调分配、按需分配,所以为基于 该分布式并行计算平台之上的应用系统的整体稳定和高效运行提供了优秀的 并行计算基础平台。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了 进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已, 并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任 何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1. 一种分布式并行计算平台系统,该系统包括PCP,用于接收在线和离线计算输入文件,形成在线和离线任务分配方案;在线调度服务器,用于接收所述PCP下发的所述在线计算输入文件和在线任务分配方案,将在线任务计算结果汇总并返回给所述PCP;离线调度服务器,用于接收所述PCP下发的所述在线和离线计算输入文件与在线和离线分配方案并转发至离线计算节点,将离线任务计算结果汇总并返回给所述PCP,将在线任务计算结果传送给所述在线调度服务器;在线计算节点,用于接收所述在线调度服务器转发的所述在线计算任务输入文件和在线任务分配方案,只进行在线计算并将在线计算结果返回给所述在线调度服务器;以及离线计算节点,用于接收所述离线调度服务器转发的所述在线和离线计算输入文件与在线和离线分配方案,进行在线计算和离线计算,并将在线和离线计算结果返回给所述离线调度服务器。
2、 根据权利要求1所述的系统,其特征在于所述在线调度服务器当前 仅接收一个在线计算请求,处理完上一批在线计算任务后方可接收下一批在 线计算请求,或者下一批在线计算请求到来可以立即中止上一批正在计算的在线任务。
3、 根据权利要求l所述的系统,其特征在于所述离线调度服务器釆用 以下方式调度,先服务法、轮转法、加权轮转法或按优先级调度。
4、 一种分布式并行计算平台的计算任务分配方法,所述分布式并行计算 平台包括pcp、在线调度服务器、离线调度服务器、在线计算节点和离线计算 节点。该方法包括以下步骤-所述pcp接收在线计算任务和离线计算任务,并制定在线计算任务分配 总表和离线任务分配总表;所述pcp将发送所述在线计算任务分配总表和在线计算数据给在线调度 服务器,将所述离线计算任务分配总表和离线计算数据,以及所述在线计算 任务分配总表和在线计算数据发送离线调度服务器;所述在线调度服务器将所述在线计算任务分配总表和在线计算数据传送给在线计算节点;所述离线调度服务器所述离线计算任务分配总表和离线计算数据,以及 所述在线计算任务分配总表和在线计算数据传送给离线计算节点;所述在线计算节点和离线计算节点接收到所述任务总表后开始计算,计 算完毕后将各自的计算结果分别返回给所述在线调度服务器和所述离线调度 服务器;所述离线调度服务器将所述在线任务计算结果返回至所述在线调度服务 器;以及所述在线调度服务器和所述离线调度服务器分别汇总所述在线任务计算 结果和所述离线任务计算结果后返回给所述pcp。
5、 根据权利要求4所述的方法,其特征在于所述在线计算节点和离线 计算节点接收到所述任务总表后分割并过滤出与自身节点相关的分配任务后 立艮.卩开始计算。
6、 根据权利要求4所述的方法,其特征在于所述pcp制定在线计算任 务分配总表和离线任务分配总表时,对计算节点釆用按顺序最佳满足法的分 配原则。
7、 根据权利要求6所述的方法,其特征在于所述pcp制定在线计算任务分配总表和离线任务分配总表时,对计算节点进一步采取轮转分配的分配 方式。
全文摘要
本发明提供一种分布式并行计算平台系统及其计算任务分配方法。该系统包括PCP,接收计算输入文件,形成在线和离线任务分配方案;在线调度服务器,接收在线计算输入文件及其任务分配方案并转发至在线计算节点,将在线任务计算结果汇总并返回给PCP;离线调度服务器,在线和离线计算输入文件及其分配方案并转发至离线计算节点,将离线任务计算结果汇总并返回给PCP,将在线任务计算结果传送给在线调度服务器;在线计算节点,只进行在线计算;以及离线计算节点,进行在线计算和离线计算。本发明一方面可以实现在线计算实时高效,另一方面也要保证计算资源的充分利用。
文档编号G06F9/46GK101441580SQ20081023910
公开日2009年5月27日 申请日期2008年12月9日 优先权日2008年12月9日
发明者严剑锋, 于之虹, 宁文元, 哲 张, 张雪轩, 许晓菲, 旭 谢, 勇 陈 申请人:华北电网有限公司;中国电力科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1