数据中心管理方法和设备与流程

文档序号:13421574阅读:314来源:国知局
数据中心管理方法和设备与流程

本公开的实施例总体涉及数据中心管理,并且更具体地,涉及数据中心管理方法和设备。



背景技术:

随着数据中心规模增大,基础设施的改变前所未有的加快。许多因素会导致基础设施的改变。例如,由硬件故障导致的基础设施的改变变得更加频繁。可以通过故障间平均时间(mtbf)公式来测量硬件可靠性。在给定mtbf的情况下,可以认为硬件故障与计算环境中的硬件数目基本上成比例。此外,随着基础设施的更新周期变短,由硬件替换导致的基础设施的改变变得更加频繁。

另一方面,数据中心规模的扩大对于基础设施的管理也提出了更高的要求。例如,期望对基础设施进行统一的管理和协调,并且需要根据负载的改变来改变基础设施。例如,物联网、蜂窝电话等使得无法预测应用负载,而预测应用负载需要更高智能的数据中心管理和协调能力。这增大数据中心的管理的复杂性。



技术实现要素:

本公开的实施例提供了数据中心管理方法、设备和相应的计算机程序产品。

根据本公开的第一方面,提供了一种数据中心管理方法。该方法包括:获取用于该数据中心中的硬件的信息,该硬件的信息包括描述该硬件的可识别属性的标识信息;通过该标识信息与资源简档进行匹配来识别该硬件,该资源简档记录多种硬件的可识别属性;利用获取的该信息,更新该数据中心的数据库中与该硬件有关的记录。

在某些实施例中,获取该硬件的信息包括:周期性地扫描该硬件的该信息。

在某些实施例中,获取该硬件的信息包括:响应于检测到该硬件的改变而获取该硬件的该信息。

在某些实施例中,更新该数据中心的数据库中与该硬件有关的记录包括:响应于确定获取的该信息的至少一部分未包括在该记录中,向该记录中添加获取的该信息的该至少一部分。

在某些实施例中,更新该数据中心的数据库中与该硬件有关的记录包括:响应于确定该记录中的内容项未被包括在获取的该信息中,从该记录中移除该内容项。

在某些实施例中,更新该数据中心的数据库中与该硬件有关的记录包括:响应于确定该信息的至少一部分与该记录中的对应内容项不匹配,基于该信息的该至少一部分来更新该内容项。

在某些实施例中,该资源简档是基于文本的。

在某些实施例中,该资源简档包括:描述通用硬件属性的第一类关键字;以及描述专用硬件属性的第二类关键字,该第二类关键字是可扩展的。

根据本公开的第二方面,提供了一种数据中心管理设备。该设备包括:至少一个处理单元;以及至少一个存储器,其耦合至该至少一个处理单元并且存储有机器可执行指令,当该指令由该至少一个处理单元执行时,使得该至少一个处理单元被配置为:获取用于该数据中心中的硬件的信息,该硬件的信息包括描述该硬件的可识别属性的标识信息;通过该标识信息与资源简档进行匹配来识别该硬件,该资源简档记录多种硬件的可识别属性;利用获取的该信息,更新该数据中心的数据库中与该硬件有关的记录。

提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。

附图说明

通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施例中,相同的参考标号通常代表相同部件。

图1示出了根据本公开的实施例的数据中心管理系统的示意图;

图2示出了根据本公开的实施例的数据中心管理过程或方法的流程图;

图3示出了根据本公开的实施例的利用获取的信息来更新数据库中与硬件有关的记录的过程或方法的流程图;

图4示出了根据本公开的实施例的用于数据中心管理的装置的示意性框图;以及

图5示出了适合于用来实现本公开实施例的设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其它明确的和隐含的定义。

传统上,通常使用手动或半手动方式来跟踪基础设施并更新配置管理数据库(cmdb)或存储基础设施信息的其他存储器中的基础设施信息。手动检查基础设施,比较基础设施的区别,并且将改变的基础设施信息手动输入到数据库的过程当前仍然在许多数据中心中存在。这样的过程是低效的,并且将导致手动错误。例如,可以将错误率设置为固定值,随着手动操作的增加,错误发生数也增加。显然,需要手动操作的基础设施越多,一个基础设施需要手动参与的步骤越多,这将导致更多的错误。

一些数据中心通过引入半自动方式来更新上述过程,例如通过rfid和qr码来描述硬件。然而,这样的解决方案是在基础设施外部工作的,其仅自动化接收基础设施信息和更新cmdb的过程,但是rfid和qr码仍然需要一个硬件接一个硬件地手动输入,因此难以解决根本问题。此外,手动输入阶段还可以导致错误并花费许多时间。更糟糕的是,同步未匹配的信息所花费的时间越长,风险发生的可能性越高。

当前,随着云计算、物联网、人工智能、大数据和其他新技术的出现,数据中心的规模日益增加,手动操作在生产中变得更不可能。因此,如何自动跟踪和更新基础设施的改变成为数据中心管理的关键需求。

为了至少部分地解决上述以及其他潜在的问题和缺陷,本公开的实施例提供了一种用于数据中心管理的方案。图1示出了根据本公开的实施例的数据中心管理系统100的示意图。数据中心管理系统100可以包括基础设施跟踪处理器110、资源简档(profile)或称资源模型120、硬件管理和协调软件130、一个或多个硬件设备140以及数据库150。

基础设施跟踪处理器110可以获取用于数据中心中的一个或多个硬件设备140的信息,通过获取的信息与资源简档120进行匹配来识别一个或多个硬件设备140,并且利用获取的信息来更新数据中心的数据库150中与该一个或多个硬件设备140有关的记录。

资源简档120可以被包括在基础设施跟踪处理器110中。资源简档120可以记录多种硬件设备140的可识别属性以及其他任何可选的信息。在某些实施例中,资源简档120可以用于识别硬件设备140并且描述硬件设备140的属性,例如在数据中心中的多种类型的计算节点、存储器、交换机或配电单元(pdu)中的一个或多个硬件设备140的属性。可以根据资源简档120构建计算节点、存储器、交换机或pdu等的资源简档实例。

以下示出资源简档120的片段的示例:

如上所示,资源简档120可以是基于文本的。基于文本的硬件设备140的信息容易处理并且含义清晰,以便在不同的环境和变化的硬件设备140中实现更好的转换。当然,在其他实施例中,基于其他格式或编码的资源简档120也是可行的。

资源简档120可以包括描述通用硬件属性的标准关键字和描述专用硬件属性的描述关键字。如上所示,标准关键字可以是例如“cpu”、“dimm”等描述硬件设备140通常具备的组件的关键字。描述关键字可以是例如“s/n”、“p/s”等并非描述硬件设备140通常具备的组件的关键字。此外,描述关键字是可扩展的,使得资源简档120可以适用于变化的标准并且有助于形成新的资源简档,以提高兼容性。此外,资源简档120的这种结构还可以使得其容易维护,容易添加和更新硬件设备140。

硬件管理和协调软件130可以被实现为以统一的方式管理一个或多个硬件设备140,以获取mac地址、cpu/dimm数量和系列、s/n、p/n、监控信息以及其他硬件属性信息等。在某些实施例中,硬件管理和协调软件130可以被设置在数据中心中,例如被设置在机架中。在某些实施例中,硬件管理和协调软件130可以提供例如restfulapi作为其接口。

一个或多个硬件设备140可以被设置在数据中心中。硬件设备140可以包括例如计算节点、存储器、交换机或pdu等。在某些实施例中,硬件设备140可以包括通过硬件管理和协调软件130构建的例如计算节点、存储器、交换机或pdu等的逻辑单元。

数据库150可以被设置在数据中心中,并且可以包括例如配置管理数据库(cmdb)或存储硬件设备140的信息的其他存储器。任何目前已知或者将来开发的数据库技术均可用来实现数据库150的至少部分,本公开的范围在此方面不受限制。

图2示出了根据本公开的实施例的数据中心管理过程或方法200的流程图。在某些实施例中,过程200例如可以在数据中心管理系统100处被实施。

在步骤210中,基础设施跟踪处理器110可以获取用于数据中心中的一个或多个硬件设备140的信息。一个或多个硬件设备140的信息可以包括描述该一个或多个硬件140的可识别属性的标识信息。标识信息所指示或者包含的可识别属性能够唯一地确定一类或者个体硬件140。这样的可识别属性的示例包括但不限于mac地址、cpu/dimm数量和系列、s/n、p/n、监控信息以及其他硬件属性信息等。

在某些实施例中,基础设施跟踪处理器110可以周期性地扫描一个或多个硬件设备140的信息。例如,基础设施跟踪处理器110可以包括周期性地运行的守护进程。扫描周期可以被设置为例如每分钟、每小时、每天,等等。守护进程调用硬件管理和协调软件130的接口来获取一个或多个硬件设备140的信息,然后根据资源简档120,运行匹配算法来识别将增加和更新到cmdb的准确的硬件设备140。

可替换地,在某些实施例中,考虑到上述扫描方式的延迟,可以在硬件管理和协调软件130中设置监听器。一旦硬件管理和协调软件130检测到一个或多个硬件140的改变,其就将改变的一个或多个硬件140的信息推送到基础设施跟踪处理器110。这样的推送方式可以依赖于硬件管理和协调软件130的实现方式。

在步骤220中,基础设施跟踪处理器110可以通过标识信息与资源简档120进行匹配来识别一个或多个硬件140。如上所述,资源简档120记录多种硬件140的可识别属性。例如,假设在步骤210中获取的标识信息中包括mac地址。此时,在步骤220,可以通过在资源简档120中查找对应的mac地址来确定硬件140所述的类型。

在步骤230中,基础设施跟踪处理器110可以利用获取的信息,更新数据中心的数据库150中与一个或多个硬件140有关的记录。一般而言,根据本公开的实施例,可以基于获取的硬件信息而增加、修改或者删除数据库150中与该硬件有关的记录或其部分。具体的示例还将在下文结合图3加以描述。

通过上述过程200可以实现自动跟踪和更新硬件设备140,以减少错误发生和提高效率,使得在当前大规模数据中心中实现跟踪和更新硬件设备140成为可能。

图3示出了根据本公开的实施例的利用获取的信息来更新数据库中与硬件有关的记录的过程或方法300的流程图。在某些实施例中,过程300例如可以在基础设施跟踪处理器110处被实施。可以理解,过程300可以视为是过程200中的动作230的一种具体实现。

在步骤310中,基础设施跟踪处理器110判断在步骤210中所获取的信息的至少一部分是否被包括在数据中心的数据库150中与一个或多个硬件140有关的记录中。如果是,则过程200进行到步骤320。另一方面,如果获取的信息未被包含在数据库150中,则过程300进行到步骤330,在此基础设施跟踪处理器110向与数据库150中与一个或多个硬件140有关的记录中添加所获取的信息的至少一部分。

在步骤320中,基础设施跟踪处理器110判断所获取的信息的至少一部分是否与数据库150中与一个或多个硬件140有关的记录中的对应内容项匹配。如果匹配,基础设施跟踪处理器110维持数据库150中与一个或多个硬件140有关的记录中的对应内容项不变。另一方面,如果在步骤320中确定没有发现匹配,则过程300进行到步骤350。

在步骤350中,基础设施跟踪处理器110判断与数据库150中与一个或多个硬件140有关的记录中的对应内容项是否被包括在所获取的信息中。如果是,则过程300进行到步骤360,在此基于所获取的信息的至少一部分来更新与数据库150中与一个或多个硬件140有关的记录中的对应内容项。例如,如果所获取的信息中包括硬件140的风扇转速,并且该风扇转速与数据库150中存储的硬件140的风扇转速不匹配,则可以使用新的风扇转速更新存储的风扇转速,以使得数据库150保持对当前数据中心中的硬件140的记录。

另一方面,如果在步骤350中确定数据库150中的对应内容项未被包括在所获取的信息中,则过程300进行到步骤370。在步骤370中,基础设施跟踪处理器110从与数据库150中与一个或多个硬件140有关的记录中移除对应内容项。也就是说,此时可以认为由于先前存在于数据中心中的一个或多个硬件140被移除,因此可以将与该一个或多个硬件140有关的记录从数据库150中移除。以此方式,可以确保数据库150保持对当前数据中心中的硬件140的记录。

图4示出了根据本公开的实施例的用于数据中心管理的装置的示意性框图。装置400例如可以在数据中心管理系统100处被实施,或者直接充当数据中心管理系统100。如图所示,装置400包括获取单元410、识别单元420和更新单元430。

获取单元410被配置为获取用于数据中心中的一个或多个硬件140的信息。一个或多个硬件设备140的信息可以包括描述该一个或多个硬件140的可识别属性的标识信息。识别单元420被配置为通过标识信息与资源简档进行匹配来识别所述硬件。资源简档120记录多种硬件140的可识别属性。更新单元430被配置为利用获取的信息,更新数据中心的数据库150中与一个或多个硬件140有关的记录。

在某些实施例中,获取单元410被配置为周期性地扫描硬件140的信息。在另一些实施例中,获取单元410被配置为响应于检测到所述硬件的改变而获取所述硬件的所述信息。

在某些实施例中,更新单元430被配置为响应于确定在获取单元410中获取的信息的至少一部分未包括在与数据库150中与一个或多个硬件140有关的记录中,向记录中添加获取的信息的至少一部分。在另一些实施例中,更新单元430被配置为响应于确定记录中的对应内容项未被包括在获取的信息中,从记录中移除该内容项。在另一些实施例中,更新单元430被配置为响应于确定获取的信息的至少一部分与记录中的对应内容项不匹配,基于获取的信息的至少一部分来更新对应内容项。

装置400中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一个实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置400中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准品(assp)、片上系统(soc)、复杂可编程逻辑器件(cpld),等等。

图5示出了适合于用来实现本公开实施例的电子设备500的示意性框图。如图所示,设备500包括中央处理单元(cpu)510,其可以根据存储在只读存储器(rom)520中的计算机程序指令或者从存储单元580加载到随机访问存储器(ram)530中的计算机程序指令,来执行各种适当的动作和处理。在ram530中,还可存储设备500操作所需的各种程序和数据。cpu510、rom520以及ram530通过总线540彼此相连。输入/输出(i/o)接口550也连接至总线540。

设备500中的多个部件连接至i/o接口550,包括:输入单元560,例如键盘、鼠标等;输出单元570,例如各种类型的显示器、扬声器等;存储单元580,例如磁盘、光盘等;以及通信单元590,例如网卡、调制解调器、无线通信收发机等。通信单元590允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理,例如过程200和300,可由处理单元510执行。例如,在一些实施例中,方法/方法200和300可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元580。在一些实施例中,计算机程序的部分或者全部可以经由rom520和/或通信单元590而被载入和/或安装到设备500上。当计算机程序被加载到ram530并由cpu510执行时,可以执行上文描述的方法200和300的一个或多个步骤。备选地,在其他实施例中,cpu501也可以以其他任何适当的方式被配置以实现上述过程。

通过以上描述和相关附图中所给出的教导,这里所给出的本公开的许多修改形式和其它实施方式将被本公开相关领域的技术人员所意识到。因此,所要理解的是,本公开的实施方式并不局限于所公开的具体实施方式,并且修改形式和其它实施方式意在包括在本公开的范围之内。此外,虽然以上描述和相关附图在部件和/或功能的某些示例组合形式的背景下对示例实施方式进行了描述,但是应当意识到的是,可以由备选实施方式提供部件和/或功能的不同组合形式而并不背离本公开的范围。就这点而言,例如,与以上明确描述的有所不同的部件和/或功能的其它组合形式也被预期处于本公开的范围之内。虽然这里采用了具体术语,但是它们仅以一般且描述性的含义所使用而并非意在进行限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1