分布式计算系统中的集群资源管理的制作方法

文档序号:36703750发布日期:2024-01-16 11:38阅读:14来源:国知局
分布式计算系统中的集群资源管理的制作方法


背景技术:

1、分布式计算系统通常包括多个路由器、交换机、网桥和其他网络设备,这些网络设备经由有线或无线网络链路互连服务器、网络存储设备和其他类型的节点。个体节点可以从用户接收和存储数据,并且可以彼此协作以支持对所存储的用户数据的检索或修改等等。这种数据存储技术通常称为“云存储”。


技术实现思路

1、提供本“
技术实现要素:
”是为了以简化的形式介绍一些概念,这些概念将在下面的“具体实施方式”中进一步描述。本“发明内容”不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。

2、实现云存储通常涉及利用由计算机网络互连的大量节点来提供数据存储、检索、修改、删除或其他合适的数据操作。为了有效地管理如此大量的节点,可以将节点的子集分组为独立管理的计算组或“集群”。例如,可以在逻辑上和/或物理上将云存储系统分组为多个集群,这些集群单独具有由集群控制器共同管理的多个前端服务器、分区服务器和后端存储服务器。前端服务器可以被配置为接收和响应于读取、写入、擦除或对与用户帐户相关联的某些用户数据执行其他合适的数据操作的用户请求。分区服务器可以被配置为确定哪些后端存储服务器包含所请求的用户数据或其部分。后端存储服务器可以被配置为对用户数据的至少一部分执行存储、检索、保持或其他合适的操作。

3、集群控制器可以被配置为监测前端服务器、分区服务器和/或后端存储服务器的各种数据操作并且支持由这些服务器执行的功能。例如,集群控制器可以监测集群中的个体分区服务器上的计算负载(例如,cpu利用率百分比)。集群控制器还可以通过基于监测到的分区服务器的计算负载将计算负载从一个分区服务器转移到另一分区服务器来在集群中的多个分区服务器之间执行负载平衡。在其他示例中,集群控制器可以监测网络带宽消耗、每秒接收的用户请求或集群中的各个组件的其他合适的操作参数,并且相应地重新分配资源。

4、然而,前述负载平衡技术在某些情况下可能不足以解决对单个集群中的组件提出的用户需求。例如,由于集群拓扑或其他设计限制,单个集群可以被约束为仅包含最大数目的服务器(例如,一千个服务器)。因此,无法在物理上向集群添加更多服务器以适应放置在集群中的服务器上的大量计算负载。结果,集群中的用户请求(例如,读或写请求)的处理可能具有高等待时间和长延迟,这会对用户体验产生负面影响。解决上述缺点的一种技术是将用户帐户和相关联的用户数据从一个集群手动重新定位到另一集群。但是,这种手动重新定位可能是劳动密集型的、效率低下的并且容易出错。

5、所公开的技术的几个实施例可以通过实现集群资源管理器以管理分布式计算系统中的集群之间的逻辑资源重新分配来解决前述困难的至少某些方面。例如,集群资源管理器可以被配置为监测和在逻辑上向集群分配分区服务器或其他合适类型的计算、网络或存储资源以适应集群经历的各种类型的负载。在某些实施例中,集群资源管理器可以是分布式计算系统中的一个或多个独立服务器。在其他实施例中,集群资源管理器可以是由分布式计算系统中的一个或多个服务器提供的计算服务。

6、集群资源管理器可以被配置为与分布式计算系统中的集群控制器进行通信以接收对应集群的网络带宽、cpu利用率、每秒接收的用户请求数或其他操作参数的状态数据。在某些实现中,集群资源管理器可以周期性地向集群控制器查询状态数据。在其他实现中,集群控制器可以被配置为定期或在其他合适的基础上向集群资源管理器报告状态数据。

7、集群资源管理器还可以被配置为基于所接收的状态数据来确定是否要将资源从一个集群转移到另一集群。这样的资源可以包括例如分布式计算系统中的前端服务器、分区服务器、后端存储服务器或其他合适类型的资产。在一个示例中,当集群资源管理器确定第一集群中的分区服务器以超过90%的平均cpu利用率操作,而第二集群中的其他分区服务器以20%操作时,集群资源管理器可以将一个或多个分区服务器在逻辑上从第二集群转移到第一集群以处理第一集群经历的计算负载的一部分。在其他示例中,集群资源管理器还可以基于其他合适的阈值和/或准则在逻辑上转移一个或多个分区服务器。

8、为了实现逻辑资源重新分配,集群资源管理器可以被配置为向第二集群的集群控制器传输资源去除消息。资源去除消息向第二集群的集群控制器指示第二集群中的现有分区服务器被重新分配给第一集群。作为响应,第二集群的集群控制器可以(i)将当前由重新分配的分区服务器执行的任何任务转移到第二集群中的一个或多个其他分区服务器;(ii)在配置文件(例如,释放锁定(leaselock)文件)中记录重新分配的分区服务器不再与第二集群在逻辑上关联;以及(iii)终止重新分配的分区服务器与第二集群中的集群控制器之间的通信。

9、集群资源管理器还可以向第一集群的集群控制器传输资源重新分配消息。关于向第二集群传输资源去除消息,可以同时、顺序、交错或以其他合适的方式来传输资源重新分配消息。资源重新分配消息可以向第一集群的集群控制器指示来自第二集群的重新分配的分区服务器已经在逻辑上重新分配给第一集群。作为响应,第一集群的集群控制器可以(i)与重新分配的分区服务器建立通信;以及(ii)在配置文件(例如,另一释放锁定文件)中记录重新分配的分区服务器在逻辑上是第一集群的组件。然后,第一集群处的集群控制器可以将计算负载分配给重新分配的分区服务器,就好像重新分配的分区服务器在物理上位于第一集群中一样。在其他示例中,集群资源管理器还可以被配置为将前端服务器、后端存储服务器和/或其他合适类型的资源从一个集群重新分配给另一集群。

10、所公开技术的若干实施例可以有效地解决对分布式计算系统中的个体集群提出的用户需求。通过监测集群的操作参数,集群资源管理器可以在逻辑上将各种类型的资源从一个集群转移到另一集群,而无需在集群中在物理上移动或添加服务器。因此,与其他技术相比,可以避免或至少减少处理读取、写入或执行其他数据操作的用户请求时的延迟。结果,用户可以感知到在分布式计算系统处可用于处理用户请求的资源量是无限的。



技术特征:

1.一种在分布式计算系统中的集群之间管理资源的方法,所述集群包括第一集群和第二集群,所述第一集群和第二集群单独包含通过计算机网络彼此互连的多个服务器,并且分别由第一集群控制器和第二集群控制器管理,所述方法包括:

2.根据权利要求1所述的方法,其中接收所述资源去除消息包括当(i)所述状态数据中的所述第一集群的所述计算负载低于阈值以及(ii)所述第二集群的计算负载高于另一阈值时,在所述第一集群控制器处从所述外部控制器接收所述资源去除消息。

3.根据权利要求1所述的方法,还包括:

4.根据权利要求1所述的方法,还包括:

5.根据权利要求1所述的方法,还包括:当先前从所述第一集群分配的所述服务器从所述第二集群被重新分配回到所述第一集群时,当所述第二集群的计算负载不会超过阈值时,在所述第一集群控制器处从所述外部控制器接收资源分配消息,所述资源分配消息指示来自所述第二集群的所述服务器被重新分配给所述第一集群。

6.根据权利要求1所述的方法,其中从所述第一集群到所述第二集群的所述服务器是以下之一:

7.根据权利要求1所述的方法,还包括在所述第一集群控制器处从所述外部控制器接收另一资源去除消息,所述另一资源去除消息指示来自所述第一集群的另一服务器被分配给第三集群,所述另一资源去除消息指令所述第一集群控制器创建或更新指示所述另一服务器从所述第三集群被重新分配的配置文件,从而使得所述第一集群控制器在所述第一集群控制器的重新启动期间或者在所述第一集群的重新初始化期间忽略重新分配的所述另一服务器。

8.一种具有多个集群的分布式计算系统的集群中的计算设备,所述多个集群单独包含通过计算机网络互连的多个服务器,所述计算设备包括:

9.根据权利要求8所述的计算设备,其中接收所述资源去除消息包括当(i)所述状态数据中的所述第一集群的所述计算负载低于阈值以及(ii)所述第二集群的计算负载高于另一阈值时,在所述第一集群控制器处从所述外部控制器接收所述资源去除消息。

10.根据权利要求8所述的计算设备,所述存储器包括能够由所述处理器执行的附加指令以使所述计算设备:

11.根据权利要求8所述的计算设备,所述存储器包括能够由所述处理器执行的附加指令以使所述计算设备:

12.根据权利要求8所述的计算设备,所述存储器包括能够由所述处理器执行的附加指令以使所述计算设备:当先前从所述第一集群分配的所述服务器从所述第二集群被重新分配回到所述第一集群时,当所述第二集群的计算负载不会超过阈值时,在所述第一集群控制器处从所述外部控制器接收资源分配消息,所述资源分配消息指示来自所述第二集群的所述服务器被重新分配给所述第一集群。

13.根据权利要求8所述的计算设备,其中从所述第一集群到所述第二集群的所述服务器是以下之一:

14.根据权利要求8所述的计算设备,所述存储器包括能够由所述处理器执行的附加指令以使所述计算设备在所述第一集群控制器处从所述外部控制器接收另一资源去除消息,所述另一资源去除消息指示来自所述第一集群的另一服务器被分配给第三集群,所述另一资源去除消息指令所述第一集群控制器创建或更新指示所述另一服务器从所述第三集群被重新分配的配置文件,从而使得所述第一集群控制器在所述第一集群控制器的重新启动期间或者在所述第一集群的重新初始化期间忽略重新分配的所述另一服务器。

15.一种在分布式计算系统中的第一集群和第二集群之间管理资源的方法,所述第一集群和第二集群单独包含通过计算机网络彼此互连的多个服务器,并且分别由第一集群控制器和第二集群控制器管理,所述方法包括:

16.根据权利要求15所述的方法,其中接收所述资源去除消息包括当(i)所述状态数据中的所述第一集群的所述计算负载低于阈值以及(ii)所述第二集群的计算负载高于另一阈值时,在所述第一集群控制器处从所述外部控制器接收所述资源去除消息。

17.根据权利要求15所述的方法,还包括:

18.根据权利要求15所述的方法,还包括:

19.根据权利要求15所述的方法,还包括:当先前从所述第一集群分配的所述服务器从所述第二集群被重新分配回到所述第一集群时,当所述第二集群的计算负载不会超过阈值时,在所述第一集群控制器处从所述外部控制器接收资源分配消息,所述资源分配消息指示来自所述第二集群的所述服务器被重新分配给所述第一集群。

20.根据权利要求15所述的方法,其中从所述第一集群到所述第二集群的所述服务器是以下之一:


技术总结
本文中描述了用于在计算系统中的计算设备的集群之间管理资源的技术。在一个实施例中,一种方法包括:经由计算机网络接收指示服务器从第一集群被重新分配给第二集群的资源重新分配消息,并且响应于所接收的资源重新分配消息,经由计算机网络与从第一集群重新分配给第二集群的服务器建立通信。该方法还包括在经由计算机网络与服务器建立通信之后,将计算负载分配给从第一集群重新分配给第二集群的服务器,而无需将服务器在物理上从第一集群重新分配给第二集群。

技术研发人员:M·萨赫,R·苏尔拉,A·斯科乔尔斯沃尔德,季新华,J·德万拉住
受保护的技术使用者:微软技术许可有限责任公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1