分布式数据处理系统中使用最佳网络拓扑识别的作业调度的方法和系统的制作方法

文档序号:6349944阅读:176来源:国知局
专利名称:分布式数据处理系统中使用最佳网络拓扑识别的作业调度的方法和系统的制作方法
技术领域
本发明涉及计算机网络领域,更具体地说,本发明涉及分布式计算环境中的作业调度系统。
背景技术
在多个与网络相连的资源之间进行作业调度和工作负载平衡是IT环境中日益重要的工作。许多网格计算环境是由跨分布式资源集(例如,计算、存储、通信能力、软件许可、特殊设备等)调度工作来驱动的。本质上,调度是一个最优化问题,当只涉及一种资源类型时,此问题非常简单。但是,尽管可以通过在调度过程中包含更多资源变量来实现进一步的性能改进,所导致的多变量最优化便成为困难的数学问题。现有的作业调度系统一般采用主控/代理(master/agent)体系结构,其中通过中央服务器(称为“主”服务器)设置、调度和管理作业。实际工作由安装在其他服务器上的代理完成。在使用中,主控维护和解释与作业、可用服务器等相关的信息,以便确定分配作业到何处。接着,代理等待来自主控的命令,执行所述命令,然后将退出码返回到主控。尽管主控/代理体系结构允许严密控制作业,该体系结构的一个严重限制是需要主控和代理保持同步(以及相应的对网络和主控的可用性的依赖)。与此相关地,主控和代理之间网络流量高度集中的特性可能降低该体系结构的整体性能。另一问题是主控/代理体系结构的伸缩性有限。具体来说,主控只能支持有限数量的代理并且创建新的主控或实例会产生新的单独管理,从而会创建的实例越多,管理活动变得越复杂。由同一申请人在2008年4月15日提交的编号为08154507. 1的欧洲专利申请披露了可高度伸缩以适应异构分布式计算环境内不断增加的工作负载的工作负载调度系统。 更具体地说,优选实施例采用修改的平均一致性(consensus)算法以在多个计算机之间平均分配网络流量和作业。每个计算机的状态信息会通过修改的平均一致性算法传播到其余的计算机,从而通过允许各个计算机自己选择使自身资源的希望使用量与作业所需的资源最佳地匹配的作业来使优选实施例摒弃对主计算机的需要。上述方法的缺点是用户应该建立包括计算机逻辑拓扑的虚拟网络。换言之,由用户负责选择正确的拓扑,并且这可能带来危害网络效率的错误选择。希望能够引导用户执行此选择过程,如果能够依赖于根据预定参数确定最佳解决方案的可靠方法,则更好。本发明的目标是提供消除现有技术的上述缺点的技术。

发明内容
在优选实施例中,本发明提供了一种在N个连接在一起的计算机的网络中用于根据改进的网络拓扑的计算执行作业的方法,所述改进的网络拓扑包括相对于当前拓扑额外的C个连接,所述方法包括以下步骤通过NXN拉普拉斯矩阵M表示N个计算机的网络的当前拓扑,其中值Iy由以下公式定义
deg{vi)如果/ = hj := -1 如果 = 7并且v/与^ 相邻。 0 否则其中Cleg(Vi)是与节点i相连的节点数,并且其中l<=i<=N且l<=j< = N ;然后计算NXN拉普拉斯矩阵M1,其具有Tr (M1) = Tr (M) +02并且具有最大可能的次小特征值;因此通过根据计算的NXN拉普拉斯矩阵M1添加C个额外连接,将所述拓扑修改为改进的拓扑;然后从所述修改的网络拓扑开始以便在所述修改的网络拓扑中的计算机上分配作业调度。本发明的方法可以通过提供自动和优化的网络拓扑选择来帮助解决现有技术中的问题,所述自动和优化的网络拓扑选择从当前拓扑和希望的额外连接数开始。通过这种方式,本发明的方法为修改的一致性算法提供了一种例如与简单环形网络相比更高的收敛速度。所述方法利用所谓的小世界网络(small world network)。所述小世界网络比其他网络体系结构的抗扰动能力更强,实际上,在随机网络(其中所有节点具有大体相同的连接数)中,删除一个随机节点很可能会稍微增加平均最短路径长度,但是对于几乎任何被删除节点,会显著增加所述长度。从这方面而言,随机网络很容易受到随机扰动影响,而小世界网络便相对健壮。在本发明进一步的实施例中,提供了包括适合于实现上述方法的组件的系统。在另一实施例中,提供了当在计算机上运行时,实现上述方法的计算机程序。


通过参考附图,仅作为示例,将描述本发明的实施例,在这些附图中图1是具有环形拓表示的优选实施例的工作负载调度系统的软件体系结构的方块图;图2示出根据本发明的方法修改后的图1中的拓扑;图3a和北示出应用本发明方法的计算机网络的示例;图4是适合于支持优选实施例中工作负载调度方法的一般计算机系统的图表;以及图5示出表示执行根据本发明优选实施例的方法的步骤的流程图。
具体实施例方式如图1所示,优选实施例100包括要在分布式异构网络103中执行的作业的储存库 101。为简单起见,假设分布式网络103包括η个节点,其中每个节点(节点)拥有若干资源。优选实施例采用将更深入讨论的拓扑形成算法105 ;使用修改的平均一致性算法 107来使得分布式网络103中的节点告知网络中的其他节点其当前状态以及执行新作业的可用性。优选实施例进一步包括作业选择模块109,该模块使得分布式网络103中的节点根据用户定义的每个节点(节点i)的资源的希望使用量和作业(Jobk)的资源需求从作业储存库101中选择最佳作业(Jobk)。所述拓扑形成算法105建立包括分布式异构网络103中节点的逻辑拓扑的虚拟网络。在所述虚拟网络内,所述逻辑拓扑确定哪些节点可以相互通信。具体来说,通过定义所述逻辑拓扑,使得每个节点直接与j个邻近节点(其中j < n-1)相连(且可以与之通信)。 因此,为节点i提供邻居节点Ni,其中包括j个节点(节点P,p = l至j)。与某个节点相连的节点数可以由用户定义,其中通过增加此类节点的数目,提高优优选实施例的容错能力 (及收敛速度)。在本发明的优选实施例中,从诸如图1中的网络103的基本拓扑开始,用户可以根据监视的网络性能和流量指示若干额外连接。替代地,最佳额外连接数可以通过能够监视网络性能以评估网络效率和速度的监视工具进行确定;另外一种可能性是依赖先前度量的性能的统计。对基本拓扑施加的唯一条件是由虚拟网络构成的图必须是连通的, 换言之,从每个节点开始,必须能够通过任意数量的步骤到达其他任何节点。在图1所示的环形拓扑中,每个节点只有两个连接和两个邻近节点。因此,例如, 参考图1,节点工直接与节点2和节点6相连。类似地,节点2直接与节点工和节点3相连;以及节点6直接与节点工和节点5相连。η个节点的任何拓扑都可以通过一 ηΧη矩阵表示。 图1中的示例可以通过下面的6 X 6矩阵M表示
2 -1 0 0 0 -1
-1 2-100 0
权利要求
1.一种在N个连接在一起的计算机的网络中用于根据改进的网络拓扑的计算执行作业的方法,所述改进的网络拓扑包括相对于当前拓扑额外的C个连接,所述方法包括以下步骤-通过NXN拉普拉斯矩阵M表示N个计算机的网络的当前拓扑,其中值Ii, j通过以下公式定义deg{vi)如果/ = hj := -1 如果 = 7并且ν,^v7 相邻, 0 否则其中Cleg(Vi)是与节点i相连的节点数,并且其中l<=i<=N且l<=j<=N;-计算具有Tr(M1) = Tr(M)+C>2并且具有最大可能的次小特征值的NXN拉普拉斯矩阵虬;-通过根据计算的NXN拉普拉斯矩阵M1添加C个额外连接,将网络拓扑修改为改进的拓扑;-从所述修改的网络拓扑开始在所述修改的网络拓扑中的计算机上分配作业调度。
2.如权利要求1中所述的方法,其中所述改进的网络拓扑为小世界网络。
3.如上述任一权利要求中所述的方法,其中所述计算具有Tr(M1) =Tr(M)+02并且具有最大可能的次小特征值的NXN拉普拉斯矩阵M1包括应用Kim-Mesbahi算法。
4.如上述任一权利要求中所述的方法,进一步包括以下步骤-提示用户输入希望的C个额外连接数的值。
5.如上述任一权利要求中所述的方法,进一步包括以下步骤-监视网络性能以度量指示网络效率的值;-根据所述度量的效率确定所述C个额外连接数。
6.如权利要求1至5中任一权利要求中所述的方法,其中所述在修改的网络拓扑中的计算机上分配作业调度的步骤包括-针对网络拓扑内的网络确定希望的至少一个操作资源值;-通过网络中至少某些计算机上执行的一个或多个作业,确定所述至少某些计算机的资源的当前使用量;-通过计算机资源的当前使用量和希望的操作点计算网络中每个计算机的预计状态值;以及-当所述计算机的预计状态值显著超过所述计算机资源的当前使用量时,选择网络中的一个计算机将接下来执行的另一作业。
7.如权利要求6中所述的方法,其中所述确定网络中至少一些计算机的资源的当前使用量的步骤包括从监视软件收集的资源消耗度量中获取有关当前资源使用量的信息的步骤。
8.如权利要求6或7中所述的方法,其中当所述计算机的预计状态值显著超过所述计算机资源的当前使用量时,选择由其执行的作业,该作业的资源需求最接近所述计算机的预计状态值与所述计算机资源的当前使用量之差。
9.用于调度用于多个计算机的工作负载的系统,其中所述系统包括一个或多个适合于执行权利要求1至8中任一权利要求中所述的方法的部件。
10.计算机程序,其包括当所述计算机程序在计算机系统上执行时,用于执行权利要求 1至8中任一权利要求中所述的方法的指令。
11.一种在数据处理系统中部署的用于实现权利要求1至8中任一权利要求中所述的方法的服务。
全文摘要
本发明的方法提供了自动和优化的网络拓扑选择,其用于在修改的网络拓扑中的计算机上分配作业调度。所述自动和优化的网络拓扑选择从当前拓扑和希望的额外连接数开始。通过这种方式,本发明的方法为修改的一致性算法提供了例如与简单环形网络相比更快的收敛速度。所述方法利用所谓的小世界网络。所述小世界网络比其他网络体系结构的抗扰动能力更强。优选实施例提供了工作负载调度系统,该系统可高度伸缩以适应异构分布式计算环境中日益增加的工作负载。修改的平均一致性算法用于在多个计算机之间分配网络流量和作业。
文档编号G06F9/50GK102473116SQ201080032187
公开日2012年5月23日 申请日期2010年5月17日 优先权日2009年7月21日
发明者A·斯格罗, G·德拉科特, L·吉安法纳, S·博尔盖蒂 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1