数据中心中返修商品的自动标识的制作方法

文档序号:9925330阅读:794来源:国知局
数据中心中返修商品的自动标识的制作方法
【专利说明】数据中心中返修商品的自动标识
[0001 ]
[0002]非常大型的数据中心已经并将继续被构建为支持各种应用,诸如互联网搜索、社交网络、以及云计算。这些非常大型的数据中心可包括数万个设备,诸如计算机设备、存储设备、交换机、路由器、管理设备等等。由于各设备可能是昂贵的,数据中心运营商通常将数据中心的大小设为仅具有足够满足预期需求的设备。如果数据中心运营商过高估计了需求,那么这些昂贵的设备将保持空闲。相反,如果数据中心运营商过低估计了需求,那么商机和进而的收入将丢失,因为设备将不能够满足需求。
[0003]为了最大化收益并最小化开支,数据中心运营商除了试图精确设定数据中心大小以外还将希望在任何给定时间有尽可能多的设备在运行中,即可用于服务于数据中心的各应用。不幸的是,对于非常大型的数据中心,大量设备可能因各种原因在任何给定时间停止运行。例如,某些设备可能由于针对那些设备的软件升级(例如,新操作系统)而停止运行。其它设备可能由于硬件故障(例如,有缺陷的图形处理单元或有缺陷的存储器)而停止运行。
[0004]数据中心运营商在期望特定百分比的设备将在任何给定时间停止运行的情况下可设定数据中心的大小。例如,如果数据中心有100000个设备其中故障率为每年10%,那么每年平均10000个设备将需要被维修(包括通过更换来维修)。数据中心运营商在设定数据中心大小时将需要将维修设备的平均时间考虑在内。不幸的是,从故障被标识出且设备停止运行直到设备恢复在运行中的时间可能是很多天。维修这样的设备的过程可涉及请求和接收返修商品授权、将有故障的设备从设备中心的配置数据中移除、准备维修次序、分派技术人员、卸载设备、诊断问题、维修工作、安装经维修的设备以及将经维修的设备添加到数据中心的配置数据。将经维修的设备添加到数据中心的配置可能特别耗时且易出错的。它可能是耗时的是因为维修技术人员需要手动将信息传达给自数据中心的负责手动更新配置信息的管理员。由于技术人员和管理员的工作积压,从维修完成直到经维修的设备恢复在运行中可能花费数日。它可能是易出错的,因为设备标识符(例如,长度为16个十六进制数字)需要被手工转录和输入。
[0005]挺述
[0006]提供了用于确定向通过网络连接的设备安装内的设备分配的设备标识符的方法和系统。在某些实施例中,该系统确定已经被维修且重新安装的设备的设备标识符使得设备可被投入运行。在接收到经维修的设备已经被重新安装的指示之际,该系统请求经维修的设备的可能的设备标识符,并从将经维修的设备连接到网络的互连设备处接收该可能的设备标识符。该系统接着执行验证以确保可能的设备标识符是目标设备的实际设备标识符。为执行该验证,该系统指导经维修设备重新引导。当经维修的设备重新引导时,它广播它的设备标识符。在接收广播设备标识符之际,该系统确定可能的设备标识符是否和广播设备标识符相同。如果它们相同,那么实际设备标识符已经被确定并且经维修的设备现在可被投入运行。
[0007]提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。
[0008]附图简述
[0009]图1是示出某些实施例中的非常大型的数据中心的组织的框图。
[0010]图2是示出某些实施例中的服务器机架的框图。
[0011]图3是示出某些实施例中的返修商品授权系统的组件的框图。
[0012]图4是示出某些实施例中的RDI系统的检索可能设备标识符组件的处理的流程图。
[0013]图5是示出某些实施例中的RDI系统的验证设备标识符组件的处理的流程图。
[0014]详细描述
[0015]提供了用于确定向设备安装内的设备分配的设备标识符的方法和系统。在某些实施例中,经维修设备标识(“RDI”)系统确定已经被维修且重新安装的设备的设备标识符。在为已经重新安装的经维修的设备确定设备标识符之后,经维修的设备可接着被投入运行且其资源可用于被分配。设备的安装(例如,数据中心或服务器场)可被组织到设备(例如,月艮务器刀片)的外壳(例如,刀片槽)的集合(例如,服务器机架)中。每个集合可具有集合标识符,并且每个外壳可具有外壳标识符。在接收到目标设备(例如,经维修的设备)已被安装在目标集合中由目标外壳标识符标识的目标外壳中的指示之际,RDI系统就请求该目标设备的可能的设备标识符并从目标集合接收该可能的设备标识符。当目标设备被安装在目标集合的目标外壳中时,目标设备向目标集合注册其设备标识符。RDI系统接着执行验证以确保可能的设备标识符是目标设备的实际设备标识符。为执行该验证,RDI系统指导目标设备重新引导。当目标设备重新引导时,它广播它的设备标识符。在接收广播设备标识符之际,RDI系统确定可能的设备标识符是否和广播设备标识符相同。如果它们相同,那么目标设备标识符已经被标识出,并且目标设备现在可被投入运行。
[0016]在某些实施例中,RDI系统可部署在安装中,该安装是提供用于部署和管理应用的云计算平台的非常大型的数据中心。数据中心中的各设备可以是服务器机架(即,集合)的刀片槽(即外壳)中容纳的服务器刀片。每个服务器机架可包括用于将安装在服务器机架的刀片槽中的服务器刀片连接到网络的互连设备(例如,交换机)。图1是示出某些实施例中的非常大型的数据中心的组织的框图。数据中心100包括数据中心管理器110、服务器机架120、网络互连130、功率分配系统140、以及虚拟机(“VM”)分配器150。数据中心管理器提供数据中心的整体管理功能。这些管理功能可包括维持配置储存库111、标识处故障的设备、控制软件的升级、确定经维修的设备的设备标识符、控制功率的分配等等。数据中心管理器包括RDI系统的验证设备标识符组件112,其在经维修的设备已经被重新安装时验证设备标识符。功率分配系统向每个服务器机架提供功率并可选择性地控制到各个体刀片槽的功率。VM分配器将在各服务器刀片上执行的各虚拟机分配到部署给数据中心的各种应用。VM分配器与数据中心管理器和配置储存库进行交互以标识在运行中的服务器刀片。
[0017]图2是示出某些实施例中的服务器机架的框图。服务器机架120包括刀片槽121、机架顶(“TOR”)交换机122、以及功率分配单元124。服务器机架可具有任何数量的刀片槽(例如32、64、和128),每个可容纳一个服务器刀片。每个服务器机架具有服务器机架标识符,并且服务器机架内的每个刀片槽具有刀片槽标识符。作为互连设备的TOR交换机向服务器刀片提供对网络互连130的访问。TOR交换机可维护机架配置储存库123,机架配置储存库123将刀片槽标识符映射到安装在每个刀片槽中的服务器刀片的服务器刀片标识符。某些TOR交换机支持刀片槽标识符到服务器刀片标识符的映射的发布。然而,某些TOR交换机可能不按唯一地标识每个刀片槽到服务器刀片的映射的方式发布映射。例如,某些TOR交换机发布将刀片槽标识符映射到已经被安装在那个刀片槽中的服务器刀片的全部服务器刀片标识符的映射。功率分配单元连接到功率分配系统140,使得功率分配系统可选择性地控制到刀片槽的功率。当功率分配系统执行针对刀片槽的通电循环(例如,断电然后通电)时,安装在刀片槽中的服务器刀片执行其通电引导过程。作为该引导过程的一部分,服务器刀片可根据预引导执行环境协议来广播其媒体访问控制(“MAC”)地址。数据中心可使用MAC地址作为服务器刀片标识符。
[0018]图3是示出某些实施例中的返修商品授权系统的组件的框图。返修商品授权(“RMA” )系统300允许在维修过程期间跟踪服务器刀片。RMA系统可被连接到网络互连130。RMA系统包括包含针对用于维修服务器刀片的返修商品授权的条目的RMA储存库301AMA系统允许更新该条目以反映返修商品授权的当前状态。当维修完成且服务器刀片已经被重新安装在停止运行的服务器刀片的刀片槽中时,条目被更新以记录服务器刀片的MAC地址,如果相同的服务器刀片被重新安装则其可以是相同的MAC地址,或如果不同的服务器刀片被安装或具有新网络接口控制器(“NIC")的相同服务器刀片被安装则其可以是不同MAC地址。RMA系统还包括检索可能设备标识符组件302,其为RDI系统的一部分。检索可能设备标识符组件在维修完成时被调用,以从TOR交换机检索MAC地址并将那个MAC地址提供给数据中心管理器以用于验证以及用于将设备投入运行。
[0019]在某些实施例中,为了确定安装在刀片槽中的服务器刀片的服务器刀片标识符,RDI系统获取刀片槽标识符到服务器刀片标识符的映射,并验证映射到的服务器刀片标识符中的一个服务器刀片标识符与服务器刀片在引导时广播的服务器刀片标识符相同。在接收到安装在目标服务器机架的目标刀片槽中的目标服务器刀片已经被维修的通知之际,RDI系统向目标服务器机架的TOR交换机发送对目标刀片槽的目标服务器刀片的MAC地址的请求。RDI系统还请求功率管理系统引起目标服务器刀片重新引导。在从TOR交换机接收一个或多个可能的MAC地址并接收在引导时广播的MAC地址之后,RDI系统确定广播MAC地址是否与可能的MAC地址中的任一者相同。如果是,则RDI系统例如通过更新数据中心管理器的配置储存库来将广播MAC地址指定为当前安装在目标刀片槽中的目标服务器刀片的MAC地址,使得目标服务器刀片被投入运行。
[0020]在某些实施例中,RDI系统还可确定经维修服务器刀片的配置并相应地更新配置储存库。经维修服务器刀片的配置可不同于在被维修前的服务器刀片的配置。例如,经维修刀片服务器可能实际上是包括不同数量的存储器、不同图形处理单元、不同数量的盘存储、不同数量的核、不同版本的操作系统或其它软件等等的不同的刀片服务器。即使经维修的刀片服务器是先前安装在那个刀片槽中的相同的刀片服务器,其硬件和/或软件配置仍可能已改变,该改变作为维修过程的一部分。在确定经维修的服务器刀片的MAC地址之际,RDI系统使用该MAC地址来确定经维修的服务器刀片的配置并更新配置储存库。以此方式,配置储
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1