一种智能服务器管理系统及其管理方法与流程

文档序号:19737576发布日期:2020-01-18 04:43阅读:247来源:国知局
一种智能服务器管理系统及其管理方法与流程

本发明涉及服务器管理领域,特别涉及一种智能服务器管理系统及其管理方法。



背景技术:

随着计算机技术的发展以及大数据时代的兴起,越来越多的数据需要通过服务器进行存储、管理,以方便人们使用。服务器集群管理一直以来都是企业数据中心维护人员面临的挑战之一,尤其是随着云计算以及大数据的兴起,数据中心的规模从几台到上百万台不等。现有的服务器机房一般需要大量的运维人员参与管理维护。当数据中心服务器出现异常时,运维人员排查问题需要耗费大量时间,浪费了大量的人力物力。



技术实现要素:

本发明实施例提供了一种智能服务器管理系统及其管理方法,以解决数据中心服务器出现异常时运维人员排查问题所耗费的大量时间。

第一方面,本发明提供了一种智能服务器管理系统,包括:一个或一个以上的服务器、数据存储云平台、数据分析平台和数据运维平台;所述服务器包括:数据采集模块和控制模块;其中,

所述数据采集模块,用于根据预先存储的硬件资源配置表,利用智能平台管理接口ipmi协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台;

所述数据存储云平台,用于存储所述数据采集模块发送的信息;

所述数据分析平台,用于根据所述数据存储云平台存储的信息,构建逆向传播算法bp神经网络模型,并利用所述bp神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态;

所述数据运维平台,用于展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;

所述控制模块,用于接收所述数据运维平台发送的所述控制指令,并利用ipmi协议对所述服务器执行所述控制指令。

优选地,所述数据分析平台,进一步用于根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。

优选地,

所述数据分析平台,进一步用于在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述bp神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。

优选地,

所述数据存储云平台,进一步用于在接收到所述服务器的软硬件信息和日志信息后,对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;

所述数据分析平台,具体用于利用所述数据存储云平台中标记的数据,执行所述构建逆向传播算法bp神经网络模型。

优选地,

所述智能服务器管理系统还包括:远程控制端;

所述数据分析平台,还用于将所述分析结果发送给所述远程控制端;

所述远程控制端,用于远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。

第二方面,本发明提供了一种智能服务器管理方法,包括:

服务器的数据采集模块根据预先存储的硬件资源配置表,利用智能平台管理接口ipmi协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台,所述数据存储云平台存储所述数据采集模块发送的信息;

数据分析平台根据所述数据存储云平台存储的信息,构建逆向传播算法bp神经网络模型,并利用所述bp神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态;

所述数据运维平台展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;

所述服务器的控制模块利用ipmi协议对所述服务器执行所述控制指令。

优选地,还包括:所述数据分析平台在根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。

优选地,还包括:所述数据分析平台在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述bp神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。

优选地,

在所述数据存储云平台存储所述数据采集模块发送的信息之后,还包括:所述数据存储云平台对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;

所述数据分析平台利用所述数据存储云平台中标记的数据,执行所述构建逆向传播算法bp神经网络模型。

优选地,

还包括:所述数据分析平台将所述分析结果发送给远程控制端,所述远程控制端远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。

本发明实施例提供了一种智能服务器管理系统及其管理方法,通过服务器的数据采集模块,根据预先存储的硬件资源配置表,利用ipmi协议采集所述服务器的软硬件信息和日志信息,上传到数据存储云平台中存储,由数据分析平台根据数据存储平台中存储的信息,构建bp神经网络模型,利用bp神经网络模型对数据采集模块最新一次采集的服务器的软硬件信息和日志信息进行分析,将包括有所述服务器的运行状态的分析结果发送给数据运维平台,运维人员可以通过数据运维平台展示的分析结果,确定针对运行异常的服务器输入相应的控制指令,服务器的控制模块执行该控制指令,从而实现对服务器的维护。本方案,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种智能服务器管理系统的结构示意图;

图2是本发明一个实施例提供的另一种智能服务器管理系统的结构示意图;

图3是本发明一个实施例提供的一种智能服务器管理方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

如图1所示,本发明实施例提供了一种智能服务器管理系统,包括:一个或一个以上的服务器10(图1中以1个服务器为例)、数据存储云平台20、数据分析平台30和数据运维平台40;所述服务器10包括:数据采集模块101和控制模块102;其中,

所述数据采集模块101,用于根据预先存储的硬件资源配置表,利用智能平台管理接口(intelligentplatformmanagementinterface,ipmi)协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台20;

所述数据存储云平台20,用于存储所述数据采集模块101发送的信息;

所述数据分析平台30,用于根据所述数据存储云平台20存储的信息,构建逆向传播算法(errorbackpropagation,bp)神经网络模型,并利用所述bp神经网络模型,对所述数据采集模块101最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台40;所述分析结果中包括所述服务器的运行状态;

所述数据运维平台40,用于展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器;

所述控制模块102,用于接收所述数据运维平台40发送的所述控制指令,并利用ipmi协议对所述服务器执行所述控制指令。

本发明实施例中,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。

在本实施例中,每个服务器中均预先存储有硬件资源配置表,其中记录有该服务器的硬件配置信息,根据该硬件资源配置表,可以在服务器中构建基于ipmi协议的服务器管理软件,用于配合服务器外部的各个平台实现对服务器的控制维护,在服务器管理软件构建完成后,服务器中形成有数据采集模块和控制模块,用了实现该服务器管理软件的功能。

其中,数据采集模块采集的服务器的软硬件信息至少可以包括电压、温度、电源等信息,日志信息至少可以包括故障日志、系统日志等信息。

需要说明的是,数据采集模块可以按照一定采集规则进行信息采集,例如,每隔一个时间段采集一次,再如,收到采集指令时采集一次。

在本发明一个实施例中,为了在服务器运行异常时,能够及时对运行异常的服务器进行控制维护,数据分析平台,可以进一步用于根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。

其中,告警通知的发送方式可以通过短信方式、蓝牙方式等。

若服务器运行异常一段时间未能够采取有效措施,可能会对服务器的正常工作造成影响,在本发明一个实施例中,所述数据分析平台,可以进一步用于在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述bp神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。

其中,针对服务器的运行异常,可能存在多个控制措施,或者,在过往运行过程中,针对该运行异常的状态,采取过不同的控制措施,bp神经网络模型可以分析出该至少一个控制措施所对应的优先级,例如过往运行过程中使用控制措施的次数从多到少,那么使用次数最多的控制措施优先级较高,数据分析平台可以从优先级从高到低的顺序,逐个针对确定的控制措施生产控制指令。

由于每个服务器上用于存储数据的flash一般只有几十兆大小,难以存储服务器长期运行中产生的大量的数据,在本实施例中,通过架设云端存储方式,将每个服务器产生的日志信息以及服务器的软硬件信息上传到云端的数据存储云平台中,从而可以实现大量数据的长期、安全存储。

本发明一个实施例中,所述数据存储云平台不仅可以存储数据,还可以用于对数据的整理、清洗和标记,在接收到所述服务器的软硬件信息和日志信息后,整理出其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据,并对这些数据进行标记;其中,标记过的数据具有较高的研究价值,便于数据分析平台的数据分析。

进一步地,所述数据分析平台,具体用于利用所述数据存储云平台中标记的数据,执行所述构建bp神经网络模型。

在构建bp神经网络模型时,采用上传到数据存储云平台中标记的数据,训练bp神经网络模型,作为服务器管理数据的问题分析模型,其中训练的原理是通过先验知识将长假的服务器管理中遇到的问题及其相应的控制措施作为训练的原始数据,然后长期反复训练,得到稳定的分析模型。

本实施例中采用神经网络的方法进行构建,由于服务器上传到数据存储云平台的数据一般为非结构化数据,传统数据建模方式很难处理非结构化数据,而神经网络具有强大的特征提取能力,能够有效地整合多源数据、处理非结构化数据,最大限度的提取数据中有价值的部分。

需要说明的是,bp神经网络模型在构建之初,需要使用数据存储云平台中存储的大量长期的数据作为训练基础,在bp神经网络模型构建完成后,每得到一次分析结果,且运维人员根据该次分析结果采取了相应控制措施时,可以将该次分析结果和控制措施进一步作为模型的输入,以进行训练,得到更稳定的bp神经网络模型。

在本发明一个实施例中,为了便于运维人员对服务器的远程控制,请参考图2,所述智能服务器管理系统还包括:远程控制端50;

所述数据分析平台30,还用于将所述分析结果发送给所述远程控制端;

所述远程控制端50,用于远程登录所述数据运维平台40,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。

其中,该服务器具有kvmoverip功能,能够便于运维人员对服务器的控制。

控制模块可以根据控制指令,实现对服务器的风扇控制、开关机、复位等操作,从而实现对服务器的控制维护,保障数据中心的正常运行。

实施例二

请参考图3,本发明实施例基于实施例一的智能服务器管理系统,提供了一种智能服务器管理方法,包括:

步骤301:服务器的数据采集模块根据预先存储的硬件资源配置表,利用智能平台管理接口ipmi协议采集所述服务器的软硬件信息和日志信息,并将采集的信息发送给所述数据存储云平台。

其中,数据采集模块采集的服务器的软硬件信息至少可以包括电压、温度、电源等信息,日志信息至少可以包括故障日志、系统日志等信息。

需要说明的是,数据采集模块可以按照一定采集规则进行信息采集,例如,每隔一个时间段采集一次,再如,收到采集指令时采集一次。

步骤302:所述数据存储云平台存储所述数据采集模块发送的信息。

在本发明一个实施例中,所述数据存储云平台不仅可以存储数据,还可以用于对数据的整理、清洗和标记,在接收到所述服务器的软硬件信息和日志信息后,所述数据存储云平台还可以对其中用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行标记;其中,标记过的数据具有较高的研究价值,便于数据分析平台的数据分析。

步骤303:数据分析平台根据所述数据存储云平台存储的信息,构建逆向传播算法bp神经网络模型,并利用所述bp神经网络模型,对所述数据采集模块最新一次采集的所述服务器的软硬件信息和日志信息进行分析,将分析结果发送给所述数据运维平台;所述分析结果中包括所述服务器的运行状态。

在本发明一个实施例中,由于所述数据分析平台中对用于表明运行正常的数据、表明运行异常的数据、对运行异常进行的控制措施的数据进行了标记,因此,可以利用所述数据存储云平台中标记的数据,构建逆向传播算法bp神经网络模型。

在本发明一个实施例中,为了在服务器运行异常时,能够及时对运行异常的服务器进行控制维护,所述数据分析平台还可以根据所述分析结果确定所述服务器运行异常时,向运维人员发送告警通知。其中,告警通知的发送方式可以通过短信方式、蓝牙方式等。

若服务器运行异常一段时间未能够采取有效措施,可能会对服务器的正常工作造成影响,在本发明一个实施例中,所述数据分析平台,可以进一步在发送所述告警通知达到设定时间阈值时,确定所述运维人员未对运行异常的所述服务器采取控制措施,则利用所述bp神经网络模型确定针对运行异常的所述服务器所需进行的至少一个控制措施,并逐个针对确定的控制措施生成所述控制指令,并发送给运行异常的所述服务器,直到所述服务器运行正常为止。

其中,针对服务器的运行异常,可能存在多个控制措施,或者,在过往运行过程中,针对该运行异常的状态,采取过不同的控制措施,bp神经网络模型可以分析出该至少一个控制措施所对应的优先级,例如过往运行过程中使用控制措施的次数从多到少,那么使用次数最多的控制措施优先级较高,数据分析平台可以从优先级从高到低的顺序,逐个针对确定的控制措施生产控制指令。

步骤304:所述数据运维平台展示所述分析结果,并接收运维人员针对运行异常的所述服务器输入的控制指令,将所述控制指令发送给运行异常的所述服务器。

步骤305:所述服务器的控制模块利用ipmi协议对所述服务器执行所述控制指令。

在本发明一个实施例中,为了便于运维人员对服务器的远程控制,还可以通过远程控制端实现对服务器的控制维护,具体地,所述数据分析平台将所述分析结果发送给远程控制端,所述远程控制端远程登录所述数据运维平台,根据所述分析结果针对运行异常的所述服务器生成所述控制指令,将所述控制指令发送给运行异常的所述服务器。

本发明实施例中,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。

综上,本发明各个实施例至少可以实现如下有益效果:

1、在本发明实施例中,数据分析平台可以直接分析出服务器的运行状态,定位出运行异常的服务器,数据分析平台的分析结果在数据运维平台上进行展示,运维人员可直接根据展示的分析结果确定运行异常的服务器,根据服务器的运行状态确定控制措施,形成控制指令,从而可以降低运维人员排查问题的时间,进而可以节省大量人力物力。

2、在本发明实施例中,数据分析平台在根据分析结果确定服务器运行异常时,可以通过短信方式、蓝牙等方式向运维人员发送告警通知,以告知运维人员当前有运行异常的服务器,督促运维人员及时采用相应的控制措施,实现对服务器的控制维护。

3、在本发明实施例中,数据分析平台在确定服务器运行异常,且运维人员在设定时间阈值内,未采用控制措施时,可以通过bp神经网络模型,确定出相应的控制措施,并根据确定的控制措施及时对服务器进行控制维护,保证了数据中心的正常运行。

上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1