现代硬件上的故障域的制作方法

文档序号:9925289阅读:991来源:国知局
现代硬件上的故障域的制作方法
【专利说明】现代硬件上的故障域
[0001 ]
[0002]?和相关技术
[0003]计算机和计算系统已经影响了现代生活的近乎每一个方面。计算机通常涉及工作、休闲、医疗保健、运输、娱乐、家政管理等。
[0004]此外,计算系统功能还可以通过计算系统经由网络连接互连到其他计算系统的能力来增强。网络连接可包括,但不仅限于,经由有线或无线以太网的连接,蜂窝式连接,或者甚至通过串行、并行、USB或其它连接的计算机到计算机的连接。这些连接允许计算系统访问其他计算系统上的服务,并快速且有效地从其他计算系统接收应用数据。
[0005]计算系统的互连已便于分布式计算系统,即所谓的“云”计算系统。在本说明书中,“云计算”可以是用于允许对可配置的计算资源(如网络、服务器、存储、应用、以及服务)的共享池进行无处不在的、方便的、按需的网络访问的系统或资源,这些计算资源可用减少的管理努力或服务提供者交互来快速地被供应和发行。云模型可由各种特性(如按需自服务、广泛网络访问、资源池、快速灵活性、测量服务等)、服务模型(如软件即服务(SaaS)、平台即服务(PaaS)、基础结构即服务(IaaS))以及部署模型(如私有云、社区云、公共云、混合云等)组成。
[0006]基于云和远程的服务应用是流行的。这种应用主存于诸如云的公有和私有远程系统上,并且通常提供一组基于web的服务用于与客户端来回传送。
[0007]商用分布式、高性能计算和大数据群集包括服务器节点集合,这些服务器节点容纳计算硬件资源(CPU、RAM、网络)以及本地存储(硬盘驱动器和固态盘)两者,并且一起进行计算和存储,构成故障域。具体地,故障域是单个故障点的范围。例如,插入电插座中的计算机具有单个故障点,因为如果切断到电插座的电源,则计算机将发生故障(假设不存在备用电源)。非商用分布式群集可按计算服务器和存储分开的方式来配置。事实上,这些群集可能不再处在一对一关系中(即,一个服务器和一个存储单元),而处在多对一关系(即,两个或更多个服务器访问一个存储单元)或多对多关系(即,两个或更多服务器访问两个或更多个存储单元)中。此外,将现代群集拓扑结构上的虚拟化与同计算分开的存储联用增加了故障域的定义的复杂性,故障域可能需要被定义以设计并构建高度可用的解决方案,尤其是在故障域涉及数据复制和复原性时。
[0008]现有的商用群集设计已作出了某些假设:S卩服务器(及其本地存储)的物理边界定义故障域。例如,工作负载服务(即,软件)、CPU、存储器和存储全部都在同一物理边界内,该物理边界定义故障域。然而,由于可存在工作负载服务的多个实例,而且在现代硬件拓扑结构上,计算(CPU/存储器)和存储并不在同一物理边界内,因此该假设对虚拟化并不成立。例如,存储可在分开的物理边界中,该分开的物理边界为诸如存储区域网络(SAN)、网络附连存储(NAS)、磁盘簇(JBOD)等等。
[0009]将这样的设计应用于现代硬件拓扑结构上的虚拟化环境中是有限制的,并且不会提供细粒度故障域来提供高度可用并容错的系统。
[0010]此处要求保护的主题不限于解决任何缺点或仅在诸如上述环境这样的环境中操作的各实施例。相反,提供该背景仅用于例示其中可实现所述一些实施例的一个示例性技术领域。
[0011]挺述
[0012]本文例示的一个实施例包括可在包括虚拟化硬件的虚拟化分布式计算环境中实施的方法。计算环境中的不同节点可共享一个或多个公共物理硬件资源。该方法包括用于改善对分布式节点的利用率的动作。该方法包括标识第一节点。该方法进一步包括标识第一节点的一个或多个物理硬件资源。该方法进一步包括标识在第一节点上采取的行动。该方法进一步包括标识第二节点。该方法进一步包括确定第二节点不与第一节点共享一个或多个物理硬件资源。作为确定第二节点不与第一节点共享一个或多个物理硬件资源的结果,该方法进一步包括在第二节点上复制在第一节点上采取的行动。
[0013]提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并非旨在标识出要求保护的主题的关键特征或必要特征,亦非旨在用作辅助确定要求保护的主题的范围。
[0014]附加特征和优点将在以下描述中提出,且部分会从描述中显而易见,或者可以通过实践此处的原理来获悉。本发明的特征和优点可以通过在所附权利要求书中特别指出的工具和组合来实现和获得。本发明的特征从以下描述和所附权利要求书中将更完全显而易见,或者可以通过如下文所述实践本发明而获悉。
[0015]附图简述
[0016]为了描述可获得以上记载的及其他优点和特征的方式,将参照各具体实施例呈现以上简述的主题的更具体描述,各具体实施例在附图中例示。理解这些附图仅描述典型的实施例,因此不应被视为限制本发明的范围,各实施例将通过使用附图以附加的具体性和细节来描述和解释,附图中:
[0017]图1示出故障域的示例;
[0018]图2示出现代硬件实现;
[0019]图3示出使用现代硬件的节点分组;
[0020]图4示出使用现代硬件的节点分组;
[0021]图5示出使用具有单个节点群组的现代硬件的节点分组;
[0022]图6示出使用具有被应用来将副本放置在不同故障域中的放置约束的现代硬件的节点分组;
[0023]图7示出使用具有被应用来将副本放置在不同故障域中的放置约束的现代硬件的节点分组;
[0024]图8示出服务请求复制;
[0025]图9示出在虚拟应用服务器可在相同硬件上被实现时使用硬件约束的请求复制;
[0026]图10示出改善对分布式节点的利用率的方法;以及
[0027]图11例示了示出使用硬件约束的复制放置过程的序列图。
[0028]详细描述
[0029]本文中描述的实施例可包括用于促成对硬件拓扑结构内的细粒度依赖性以及约束的定义以允许对故障域的定义的功能。各实施例可提供用于管理硬件拓扑结构内分布任务的依赖性以增加高可用性和容错性的功能。所关心的给定任务可以是需要被分布的任何作业。例如,一个这样的任务可包括跨web服务器场对HTTP请求进行负载平衡。替换地或另选地,这样的任务可包括跨多个存储服务器保存/复制数据。各实施例扩展并提供由虚拟化和现代硬件技术引入的附加依赖性以改善分布算法来提供高可用性和容错性。
[0030]各实施例可补充虚拟层和物理层之间的附加约束以提供高度可用和容错的系统。另选地或替换地,当这些硬件组件不再共享相同的物理边界时,各实施例重新定义并扩充现代硬件拓扑结构上的故障域。另选地或替换地,各实施例提供由虚拟化和现代硬件拓扑结构引入的附加依赖性,使得分布算法可被优化以实现改善的可用性和容错性。
[0031 ]通过提供更智能的请求分布算法,具有最快响应时间的结果(在对HTTP请求进行负载平衡的情况下)被返回,从而导致更好的响应时间。
[0032]通过提供更智能的数据分布算法,过度复制(在保存经复制的数据的情况下)可被避免,从而导致更好的对硬件资源的利用率,并且高数据可用性可通过降低故障依赖性来实现。
[0033]通过这种方式,故障域边界可被建立在现代硬件上。这可在面对一个或多个故障(诸如硬件故障、消息被丢失等)时帮助行动成功。这还可被用于增加被服务的顾客的数目。
[0034]现在在以下示出分布式应用框架可如何跨各数据节点分布经复制的数据。具体地,可从Apache软件基金会获得的Apache Hadoop可如在以下对现代硬件拓扑结构上的群集部署的例示中描述的那样起作用。
[0035]分布式应用框架(诸如ApacheHadoop)通过形成相同数据的若干副本来提供数据复原性。通过该方法,分布式应用框架如何分布经复制的数据对于数据复原性而言是重
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1