一种数据中心设备维护方法、装置、设备和存储介质与流程

文档序号：31720985发布日期：2022-10-04 23:16阅读：95来源：国知局

1.本发明涉及大数据领域，尤其涉及一种数据中心设备维护方法、装置、设备和存储介质。

背景技术：

2.随着大数据以及人工智能技术的发展，数据中心设备的规模呈爆发式增长，传统的数据中心设备故障维护所采用的方法包括：一是哪里的设备出现故障运维人员则去哪里；二是为降低数据中心设备发生失效或功能退化的概率，按约定的时间间隔或既定的准则实施维护，例如定期给设备进行检查等。
3.针对上述第一种方式在设备数量少的时刻尚可应付，一旦故障设备激增，运维人员就难以应对，而针对第二种定期体检的方式，会存在设备未到检查时发生故障的情况，因此运维人员需要进行紧急维护，也是比较被动的，因此现有的数据中心被动式运维模式已经不能保障设备的正常运行。

技术实现要素：

4.本发明提供了一种数据中心设备维护方法、装置、设备和存储介质，以对数据中心设备的主动维护。
5.根据本发明的一方面，提供了一种数据中心设备维护方法，包括：采集数据中心设备的关联数据；
6.对所述关联数据进行数据提取获取数据中心设备的指标数据，其中，所述指标数据包括基础管理指标、资源管理指标、关键性能管理指标和容量管理指标；
7.根据所述指标数据对所述数据中心设备的运行状况进行预测，并根据预测结果对所述数据中心设备进行维护。
8.根据本发明的另一方面，提供了一种数据中心设备维护装置，包括：关联数据采集模块，用于采集数据中心设备的关联数据；
9.指标数据获取模块，用于对所述关联数据进行数据提取获取数据中心设备的指标数据，其中，所述指标数据包括基础管理指标、资源管理指标、关键性能管理指标和容量管理指标；
10.数据中心设备维修模块，用于根据所述指标数据对所述数据中心设备的运行状况进行预测，并根据预测结果确定对所述数据中心设备进行维护。
11.根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：
12.至少一个处理器；以及
13.与所述至少一个处理器通信连接的存储器；其中，
14.所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的方法。
15.根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的方法。
16.本发明实施例的技术方案，根据所采集的中心设备的关联数据获取指标数据，并根据指标数据对设备的运行状况进行预测，在设备未发生故障前预先获取设备的运行风险信息，从而实现对设备的主动维护过程，避免了运维人员的被动维护，节省了人力成本提高了设备维护的精准度。
17.应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
18.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1是根据本发明实施例一提供的一种数据中心设备维护方法的流程图；
20.图2是根据本发明实施例一提供的另一种数据中心设备维护方法的流程图；
21.图3是根据本发明实施例二提供的一种数据中心设备维护方法的流程图；
22.图4是根据本发明实施例三提供的一种数据中心设备维护装置的结构示意图；
23.图5是实现本发明实施例的四提供的电子设备的结构示意图。
具体实施方式
24.为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。
25.需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.实施例一
27.图1为本发明实施例一提供了一种数据中心设备维护方法的流程图，本实施例可适用于对数据中心设备进行主动维护的情况，该方法可以由数据中心设备维护装置来执行，该装置可以采用硬件和/或软件的形式实现。如图1所示，该方法包括：
28.步骤s101，采集数据中心设备的关联数据。
29.具体的说，本实施方式中，会对数据中心设备的关联数据进行采集，其中，关联数据包括：实验室分析结论、设备周期性日志数据、设备维修记录和设备配置信息。实验室分析结论可以是通过对数据中心设备进行压力测试所获取的，设备周期性日志数据可以是数据中心设备通过定期日志上报所获取的，设备维修记录可以是维护人员通过对设备中心设备进行维修后人工上报的，设备配置信息可以是设备管理人员所上报的，本实施方式中并不限定各关联数据的具体获取方式。
30.步骤s102，对关联数据进行数据提取获取数据中心设备的指标数据。
31.可选的，对关联数据进行数据提取获取数据中心设备的指标数据，包括：对设备配置信息和设备维修记录进行数据提取，获取基础管理指标，其中，基础管理指标包括报警信息、维修信息、变更信息、设备运行年限、设备用途、维保方式、故障次数或故障严重程度；对设备配置信息和实验室分析结论进行数据提取，获取资源管理指标，其中，资源管理指标包括设备的备机数量、数据库版本或流量分析；对设备周期性日志数据和设备配置信息进行数据提取，获取关键性能管理指标，其中，关键性能管理指标包括资源利用率、io吞吐量或网络分区数；对设备周期性日志数据、设备维修记录和设备配置信息进行数据提取，获取容量管理指标，其中，容量管理指标包括虚拟机数量、存储容量或可用端口数量。
32.其中，指标数据包括基础管理指标、资源管理指标、关键性能管理指标和容量管理指标。如下表1所示为数据中心设备的指标数据示例：
33.表1
[0034][0035]
由于篇幅限制，表1中仅是举例说明，本实施方式中并不对基础管理指标、资源管理指标、关键性能管理指标和容量管理指标所包含的具体内容进行限定。
[0036]
步骤s103，根据指标数据对数据中心设备的运行状况进行预测，并根据预测结果对数据中心设备进行维护。
[0037]
其中，如图2所示为本实施方式中的数据中心设备维护方法的流程图，主要对步骤s103进行具体说明，包括：
[0038]
步骤s1031,根据基础管理指标获取针对数据中心设备的运行风险评估结果，并根据运行风险评估结果以及指标数据对数据中心设备进行运行风险维护。
[0039]
其中，本实施方式中，会根据基础管理指标对数据中心设备的运行风险进行评估，根据运行风险评估的不同结果对设备采取不同的维护策略，从而保证数据中心业务的正常
运行。
[0040]
步骤s1032,根据指标数据确定维修时机和待维修关键部件。
[0041]
可选的，根据指标数据确定维修时机和待维修关键部件，包括：根据基础管理指标确定数据中心设备的预估寿命，根据预估寿命确定维修时机；根据关键性能管理指标确定数据中心设备的待维修关键部件。
[0042]
可选的，根据关键性能管理指标确定数据中心设备的待维修关键部件，包括：将关键性能指标中所包含的各关键部件的数值分别与预设阈值进行对比；将对比结果中超过预设阈值的关键部件作为待维修关键部件。
[0043]
具体的说，在根据指标数据确定维修时机和待维修关键部件时，具体是根据基础管理指标中的维修信息和设备运行年限等信息，并结合设备运行年限做拟合寿命曲线，从而获取设备的预估寿命，并根据预估寿命确定设备最终可用日期，并根据最终可用日期确定维修时机，例如，设备的预估寿命为6个月，则可以确定最终可用日期前的5个月作为维修时机。当然，还可以将预估寿命供用户查看，由用户根据设备的实际情况自主选择维修时机，维修时机可以是设备根据预估寿命自动确定的，也可以是将预估寿命向用户进行展示，根据用户的指令所确定的，本实施方式中并不限定维修时机的具体确定方式。
[0044]
另外，本实施方式中还会根据关键性管理指标确定数据中心设备的待维修关键部件，例如，磁盘转速是否低于磁盘转速阈值，光端口光功率是否第一功率阈值，io部件的数据掉包率是否高于数据掉包阈值等来提示关键部件存在故障隐患，并将给出报警提示的关键部件作为待维修关键部件。
[0045]
步骤s1033,根据指标数据进行失效模拟确定关键部件的失效影响范围。
[0046]
其中，本实施方式中会根据指标数据进行失效模拟，即通过失效模拟确定关键部件发生故障后，由于故障对上下游业务所造成的失效影响范围，如对上下游业务都不造成影响，则关键部件的故障可以忽略不计，如果对上下游业务造成了影响，则需要获取有关键部件所造成的失效影响范围，以便于后续根据所确定的范围进行数据中心设备的维护。
[0047]
步骤s1034,在维修时机下根据失效影响范围，对数据中心设备进行关键部件维护。
[0048]
具体的说，本实施方式中具体是在维修时机下根据所确定的失效影响范围，对数据中心设备进行关键部件维护。从而提前在业务低峰期完成设备关键部件的维修，以规避风险。
[0049]
本实施方式中，根据所采集的中心设备的关联数据获取指标数据，并根据指标数据对设备的运行状况进行预测，在设备未发生故障前预先获取设备的运行风险信息，从而实现对设备的主动维护过程，避免了运维人员的被动维护，节省了人力成本提高了设备维护的精准度。
[0050]
实施例二
[0051]
图3为本发明实施例二提供的一种数据中心设备维护方法的流程图，本实施例以上述实施例为基础，对上述实施例步骤s1031进行具体说明，如图3所示，该方法包括：
[0052]
步骤s201,根据基础管理指标确定数据中心设备的风险数值。
[0053]
具体的说，本实施方式中具体可以根据基础管理指标中的设备运行年限、设备用途、维保方式、故障次数或故障严重程度5个维度对数据中心设备进行打分，对上述5个维度
的具体打分设置表如下表2所示：
[0054]
表2
[0055][0056][0057]
其中，维度1：设备运行年限。根据设备运行年限不同，将设备分为4个档位，运行时间(t+4)年及以上的记12分，运行年限为(t+2)～(t+3)年的记8分，运行年限为t～(t+1)年的记4分，运行年限不足t年的记0分。维度2：运行系统。根据设备运行系统不同，分为3个档位，用于重要生产用途的设备记2分，用于生产用途的设备记1分，用于开发测试用途的设备记0分。维度3：维保方式。根据维保方式不同，分为2个档位，原厂提供维保的设备记0分，采用第三方维保的设备记1分。维度4：故障次数。根据设备在统计周期的故障次数是否超过该类设备按安全使用年限统计的平均故障率，超过平均故障率且故障次数大于1次，记2分，超过平均故障率但故障次数为1次或未超过平均故障次数，记0分。维度5：故障严重程度。根据设备在统计周期内是否发生严重故障，发生过故障宕机的设备，记(2*故障次数)分，未发生过故障宕机的设备，记0分。当然，本实施方式中仅是以上述表2的打分设置方式进行举例说明，本实施方式中并不对具体的打分方式进行限定。综合以上5个基础维度分数综合，得出单台数据中心设备的风险数值。
[0058]
步骤s202，根据风险数值确定风险类型，并根据风险类型确定针对数据中心设备的风险评估结果。
[0059]
其中，在获得数据中心设备的风险数值之后，可以根据如下表3所示的风险分类积分对照表确定风险类型，并根据风险类型确定针对中心设备的风险评估结果：
[0060]
表3
[0061][0062]
步骤s203，根据风险评估结果以及指标数据对数据中心设备进行运行风险维护。
[0063]
具体的说，本实施方式中在获取到风险评估结果后，会根据风险评估结果以及指标数据对数据中心设备进行运行风险维护。例如，当确定设备分类为重点关注，风险评估结果为尽早从生产环境下线并进行设备处置时，会查看资源管理指标中是否包含设备的备机数量，如果存在，则将数据中心设备中的应用迁移到备机中，并将数据中心设备进行下线处理；当确定设备分类为主要关注时，则首先查看资源管理指标中是否包含设备的备机数量，如果存在，则将数据中心设备中的应用迁移到备机中，然后查看关键性能管理指标中的资源利用率以及io吞吐量特性是否符合测试需求，如果符合则将数据中心设备应用于测试开发；当确定设备分类为一般关注时，则查看容量管理指标，确定数据中心设备容量是否足够，在确定容量不足的情况下进行扩容调整；当确定设备分类为无需特别关注时，则保持数据中心设备的运行。
[0064]
本实施方式中，根据所采集的中心设备的关联数据获取指标数据，并根据指标数据对设备的运行状况进行预测，在设备未发生故障前预先获取设备的运行风险信息，从而实现对设备的主动维护过程，避免了运维人员的被动维护，节省了人力成本提高了设备维护的精准度。在进行运行风险维护时，通过基础管理指标确定设备的风险数值，并根据风险数值确定风险评估结果，根据风险评估结果实现识别的运行风险维护，从而实现对设备风险的有效维护。
[0065]
实施例三
[0066]
图4为本发明实施例三提供的一种数据中心设备维护装置的结构示意图。如图4所示，该装置包括：
[0067]
关联数据采集模块310，用于采集数据中心设备的关联数据；
[0068]
指标数据获取模块320，用于对关联数据进行数据提取获取数据中心设备的指标数据，其中，指标数据包括基础管理指标、资源管理指标、关键性能管理指标和容量管理指标；
[0069]
数据中心设备维修模块330，用于根据指标数据对数据中心设备的运行状况进行预测，并根据预测结果确定对数据中心设备进行维护。
[0070]
可选的，关联数据包括：实验室分析结论、设备周期性日志数据、设备维修记录和
设备配置信息。
[0071]
可选的，指标数据获取模块，用于对设备配置信息和设备维修记录进行数据提取，获取基础管理指标，其中，基础管理指标包括报警信息、维修信息、变更信息、设备运行年限、设备用途、维保方式、故障次数或故障严重程度；
[0072]
对设备配置信息和实验室分析结论进行数据提取，获取资源管理指标，其中，资源管理指标包括设备的备机数量、数据库版本或流量分析；
[0073]
对设备周期性日志数据和设备配置信息进行数据提取，获取关键性能管理指标，其中，关键性能管理指标包括资源利用率、io吞吐量或网络分区数；
[0074]
对设备周期性日志数据、设备维修记录和设备配置信息进行数据提取，获取容量管理指标，其中，容量管理指标包括虚拟机数量、存储容量或可用端口数量。
[0075]
可选的，数据中心设备维修模块，包括：
[0076]
运行风险维护子模块，用于根据基础管理指标获取针对数据中心设备的运行风险评估结果，并根据运行风险评估结果以及指标数据对数据中心设备进行运行风险维护；
[0077]
维修时机和待维修关键部件确定子模块，用于根据指标数据确定维修时机和待维修关键部件；
[0078]
失效影响范围确定子模块，用于根据指标数据进行失效模拟确定关键部件的失效影响范围；
[0079]
关键部件维护子模块，用于在维修时机下根据失效影响范围，对数据中心设备进行关键部件维护。
[0080]
可选的，运行风险维护子模块，用于根据基础管理指标确定数据中心设备的风险数值；
[0081]
根据风险数值确定风险类型，并根据风险类型确定针对数据中心设备的风险评估结果；
[0082]
根据风险评估结果以及指标数据对数据中心设备进行运行风险维护。
[0083]
可选的，维修时机和待维修关键部件确定子模块，用于根据基础管理指标确定数据中心设备的预估寿命，根据预估寿命确定维修时机；
[0084]
根据关键性能管理指标确定数据中心设备的待维修关键部件。
[0085]
可选的，维修时机和待维修关键部件确定子模块，用于将关键性能指标中所包含的各关键部件的数值分别与预设阈值进行对比；
[0086]
将对比结果中超过预设阈值的关键部件作为待维修关键部件。
[0087]
本发明实施例所提供的数据中心设备维护装置可执行本发明任意实施例所提供的数据中心设备维护方法，具备执行方法相应的功能模块和有益效果。
[0088]
实施例四
[0089]
图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0090]
如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(rom)12、随机访问存储器(ram)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序，来执行各种适当的动作和处理。在ram 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0091]
电子设备10中的多个部件连接至i/o接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0092]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如数据中心设备维护方法。
[0093]
在一些实施例中，数据中心设备维护方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时，可以执行上文描述的数据中心设备维护方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行数据中心设备维护方法。
[0094]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0095]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0096]
在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电
气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0097]
为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0098]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、区块链网络和互联网。
[0099]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。
[0100]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。
[0101]
上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李晚晴沙鹏周丹郑嵘芦伟王宇昕董明训闫涛陶孝涛刘东宝
技术所有人：中国农业银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。