一种对处理设备进行运维的方法及设备与流程

文档序号:17860858发布日期:2019-06-11 22:51阅读:135来源:国知局
一种对处理设备进行运维的方法及设备与流程
本申请涉及计算机
技术领域
,尤其涉及一种对处理设备进行运维的方法及设备。
背景技术
:当前客户数据中心的企业存储系统在发生故障后,往往需要联系设备厂商,让设备厂商的技术服务人员到现场进行故障维护。设备厂商的技术服务人员在客户数据中心现场,通过运维工具对企业存储系统的故障信息进行采集后,将故障信息带回后进行问题定位。这种方式的故障维护活动效率非常低,响应时间较长,因此往往会造成客户运行在存储设备上的业务较长时间的中断,从而对业务的可用性造成比较大的影响。技术实现要素:第一方面,本申请实施例提供一种对处理设备进行运维的方法,该方法包括:获取故障事件的消息,该故障事件的消息指示该处理设备发生故障。根据该故障事件的消息,采集该故障事件的相关日志。根据该故障事件的相关日志,进行故障诊断。根据该故障诊断的结果,对该处理设备进行故障恢复。上述方法实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。结合第一方面,在第一方面的第一种可能的实现方式中,该获取该故障事件的消息,包括:接收运维网关上报的该故障事件的消息,该故障事件的消息由该运维网关确定该处理设备集群中的处理设备发送故障后生成。该采集该故障事件的相关日志,包括:创建日志采集任务,该日志采集任务用于指示该运维网关采集该故障事件的相关日志。对该处理设备进行故障恢复,包括:创建故障恢复任务,将该故障恢复任务发送至该运维网关,该故障恢复任务用于指示该运维网关对该处理设备进行故障恢复。在本方法中,运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,并主动向运维设备上报运维事件,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第一方面,在第一方面的第二种可能的实现方式,该方法还包括:监听该处理设备集群的故障事件。结合第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,该接收运维网关上报的该故障事件的消息,具体包括:通过超文本传输层https协议接收该运维网关上报的该故障事件的消息。结合第一方面、第一方面的第一、第二或第三种可能的实现方式,在第一方面的第四种可能的实现方式中,该处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。第二方面,本申请实施例提供一种对处理设备进行运维的方法,该方法包括:获取故障事件的消息,该故障事件的消息指示该处理设备发生故障。将该故障事件的消息上报至运维设备。获取该运维设备根据该故障事件的消息所创建的日志采集任务,根据该日志采集任务,采集该故障事件的相关日志,将采集到该故障事件的相关日志上报至该运维设备。获取该运维设备根据该故障事件的相关日志进行故障诊断后生成的故障恢复任务,根据该故障恢复任务,对该处理设备进行故障恢复。上述方法实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,并主动向运维设备上报运维事件,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第二方面,在第二方面的第一种可能的实现方式中,该方法还包括:监听该处理设备的故障事件。结合第二方面、第二方面的第一可能的实现方式,在第二方面的第二种可能的实现方式中,该处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。第三方面,本申请实施例提供一种运维设备,该运维设备包括消息获取单元、日志采集单元、故障分析单元和故障处理单元。该消息获取单元用于获取故障事件的消息,该故障事件的消息指示处理设备发生故障。该日志采集单元用于根据该故障事件的消息,采集该故障事件的相关日志。该故障分析单元用于根据该故障事件的相关日志,进行故障诊断。该故障处理单元用于根据该故障诊断的结果,对该处理设备进行故障恢复。上述运维设备实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。结合第三方面,在第三方面的第一种可能的实现方式中,该消息获取单元用于获取故障事件的消息,包括:接收运维网关上报的该故障事件的消息,该故障事件的消息由该运维网关确定该处理设备集群中的处理设备发送故障后生成。该日志采集单元用于根据该故障事件的消息,采集该故障事件的相关日志,包括:创建日志采集任务,该日志采集任务用于指示该运维网关采集该故障事件的相关日志。该故障处理单元用于根据该故障诊断的结果,对该处理设备进行故障恢复,包括:创建故障恢复任务,将该故障恢复任务发送至该运维网关,该故障恢复任务用于指示该运维网关对该处理设备进行故障恢复。运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,并主动向运维设备上报运维事件,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第三方面,在第三方面的第二种可能的实现方式,该消息获取单元还用于:监听该处理设备集群的故障事件。结合第三方面的第一种可能的实现方式,在第三方面的第三种可能的实现方式中,该消息获取单元用于接收运维网关上报的该故障事件的消息,包括:通过超文本传输层https协议接收该运维网关上报的该故障事件的消息。结合第三方面、第三方面的第一、第二或第三种可能的实现方式,在第三方面的第四种可能的实现方式中,该处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。第四方面,本申请实施例提供一种运维网关,该运维网关包括故障消息上报单元、故障消息上报单元、日志上报单元和恢复任务接收单元。该故障消息上报单元用于获取故障事件的消息,该故障事件的消息指示处理设备发生故障。该用于将该故障事件的消息上报至运维设备。该日志上报单元用于获取该运维设备根据该故障事件的消息所创建的日志采集任务,根据该日志采集任务,采集该故障事件的相关日志,将采集到该故障事件的相关日志上报至该运维设备。该恢复任务接收单元执行单元用于获取该运维设备根据该故障事件的相关日志进行故障诊断后生成的故障恢复任务,根据该故障恢复任务,对该处理设备进行故障恢复。上述运维网关实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。结合第四方面,在第四方面的第一种可能的实现方式中,该故障消息上报单元还用于:监听该处理设备集群的故障事件。结合第四方面、第四方面的第一可能的实现方式,在第四方面的第二种可能的实现方式中该处理设备包括以下三种设备的任一种:计算设备、存储设备,及网络设备。第五方面,本申请实施例提供一种计算设备,该计算设备包括处理器和存储器,该处理器执行该存储器中的程序指令,以实现第一方面中的方法。第六方面,本申请实施例提供一种计算设备,该计算设备包括处理器和存储器,该处理器执行该存储器中的程序指令,以实现第二方面中的方法。附图说明图1为本申请实施例提供的一种运维系统100的结构示意图;图2为本申请实施例提供的一种对处理设备进行运维的方法的流程示意图;图3为本申请实施例提供的另一种对处理设备进行运维的方法的流程示意图;图4为本申请实施例提供的计算设备的示意图。具体实施方式本申请实施例提供的一种运维系统,实现了对处理设备的自动化运维,包括自动化故障监控、日志采集、故障诊断和故障恢复。图1为运维系统100的结构示意图。如图1所示,运维系统100包括运维设备200。运维设备200包括故障消息获取单元、日志采集单元、故障处理单元和故障分析单元,可选地,运维设备200还可以包括运维网关注册单元。处理设备集群可以是同一数据中心的至少一个处理设备,也可以来自不同数据中心。本申请实施例中的处理设备集群包括以下三种设备集群的任一种或多种:计算设备集群、存储设备集群,及网络设备集群;即处理设备可以是计算设备、存储设备或网络设备。可选地,运维系统100还包括至少一个运维网关。运维设备200不直接与处理设备通信,而是通过各运维网关来与处理设备通信以获取故障事件的消息和相关日志。如图1所示,运维系统100包括运维设备200和至少一个运维网关210,运维网关也可以叫做运维代理等。运维网关包括故障消息上报单元、日志上报单元和恢复任务接收单元。示例性地,图1中绘制出运维系统100中的三个运维网关。一般每个处理设备上部署有一个运维网关。运维设备200部署在维护侧,各运维网关部署在数据中心测。维护侧与数据中心侧仅为表示运维设备200与各运维网关部署在不同的物理设备或不同的虚拟机上,运维设备200与各运维网关可以是异地部署的,所述异地部署关系可以是不同的地理位置,也可以是不同的厂房、机房,此外运维设备200与各数据中心通过网络相连接。运维设备200可以部署在公有云上,也可以部署在任意其他网络环境中。各运维网关分别部署在各数据中心上,运维系统100通过运维设备200和各运维网关为各数据中心中的处理设备提供运维服务。每个运维网关对应至少一个数据中心,如图1中所示,运维网关210a、210b、210c分别部署在数据中心a、数据中心b和数据中心c上。除此之外,可以通过至少两个运维网关对一个数据中心进行运维,也可以通过一个运维网关对至少两个数据中心进行运维。各数据中心的处理设备可以是计算设备、存储设备、网络设备等,例如企业存储。本申请实施例中,运维网关用于监听对应的数据中心中的处理设备,并把监听到的故障信息上报给运维设备。运维设备根据上报的故障信息,对数据中心的处理设备进行运维。具体地,基于运维设备200和至少一个运维网关210,一种对处理设备进行运维的方法如图2所示。s201,各运维网关将配置信息上报至运维设备。运维网关的配置信息包括运维网关与处理设备的对应关系。运维网关对应的处理设备即运维网关所管理和维护的运维设备。各运维网关上报的信息还包括其他配置信息,例如软件版本、客户名称等,各运维网关与数据中心的对应关系及其他配置可由各数据中心的管理员或运维系统的管理员手动配置。运维设备支持的访问协议包括但不限于超文本传输协议层(hypertexttransferprotocoloversecuresocketlayer,https)访问协议,各运维网关通过https访问协议访问运维设备。s202,运维设备对各运维网关进行注册。运维设备接收各运维网关上报的配置信息,对各运维网关进行注册。对各运维网关进行认证和注册的过程包括生成并维护已注册的各运维网关列表,所述列表还包括各运维网关对应的数据中心及其他配置信息。运维系统的管理员可以基于此列表对各运维网关进行管理。一个典型的运维网关列表如表1所示:表1运维网关列表网关id软件版本连接状态客户名称客户地址客户描述client_uuid1v3r1在线name-01北京xxxclient_uuid2v3r1在线name-02上海xxxclient_uuid3v3r1在线name-03成都xxxclient_uuid4v3r2失联name-04深圳xxxs203,各运维网关分别对各处理设备发生的故障进行监听。各运维网关分别对各处理设备发生的故障进行监听,具体地,各运维网关分别对来自各处理设备的故障事件的消息进行监听。运维设备完成对各运维网关的注册后,即启动各运维网关对各处理设备的监听。s204,运维网关将接收到的故障事件的消息上报至运维设备。故障事件的消息包括以下至少一个:处理设备序列号、故障事件类型、故障事件级别等。处理设备序列号用于标识当前故障事件的具体来源设备。故障事件类型,用于标识当前故障事件的类型,基于该事件类型运维设备可以选择不同的处理规则和方法进行故障诊断和分析,同时也可以支持运维系统采取不同的策略处理该故障事件。故障事件级别,用于标识当前故障事件的紧急程度,以支持运维系统采取不同的策略处理该事件。s205,运维设备根据接收到的故障事件的消息,创建日志采集任务。运维设备接收故障事件的消息后,根据消息中的时间类型和运维设备中预先存储的日志策略,创建日志采集任务。可选地,运维设备通过故障跟踪清单来对多条日志采集任务进行管理。故障跟踪清单中的每一行记录表示一个日志采集任务,每行记录包括包括事件id、事件类型、级别、上报的运维网关、上报的处理设备和上报时间等,一个典型的故障跟踪清单如表2所示:表2故障跟踪清单收到故障事件的消息后,运维设备在故障跟踪清单中新建一条关于接受到的故障事件的记录。s206,对应运维网关根据日志采集任务,将日志采集任务相关的日志上传至运维设备。各运维网关可以通过对运维设备的故障跟踪清单监听来获知日志采集任务,例如,各运维网关对故障跟踪清单进行监听,在监听到相关事件时,启动所述日志采集任务,在相关的处理设备中采集故障事件的相关日志,并上传至运维设备。运维设备也可以在生成日志采集任务后,将所述日志采集任务发送至对应的运维网关,运维网关根据接收到的所述日志采集任务,采集相关日志并上传至运维设备。采集的日志包括发生故障事件的设备的运行日志和调试日志等,采集的日志用于识别故障事件,以对发生故障事件的设备进行恢复或维护等。s207,运维设备根据接收到的日志,进行故障诊断。故障的诊断及恢复可以根据运维设备中存储的诊断策略实现,诊断策略可以是基于机器学习的策略等。s208,运维设备创建故障恢复任务。s209,对应的运维网关根据运维设备创建的故障恢复任务,对发生故障事件的设备进行故障恢复。同样地,对应的运维网关可以通过对运维设备的监听来获知故障恢复任务,在监听到与本运维网关相关的故障恢复任务事件时,根据该故障恢复任务对发生故障事件的设备进行故障恢复。运维设备也可以在创建故障恢复任务后,将所述故障恢复任务发送至对应的运维网关,运维网关根据接收到的所述故障恢复任务,采集相关日志并上传至运维设备。上述方法实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。运维设备不直接与处理设备通信,而是通过运维网关主动监控处理设备,并主动向运维设备上报运维事件,可以减轻运维设备的并发压力。同时,也减少运维功能单元在处理设备上的重复部署,减轻处理设备的计算、网络等资源的压力。为了进一步节省处理设备上资源,运维系统100也可以不包含运维网关。基于此,本申请实施例提供的另一种对处理设备进行运维的方法的示意图如图3所示。s301,将各处理设备上报至运维设备。不同于s201,此时处理设备直接与运维设备通信,因此运维设备直接接收各处理设备上报的信息,对各处理设备进行注册。上报的信息还包括其他配置信息,例如软件版本、客户名称等。运维设备支持的访问协议包括但不限于超文本传输协议层(hypertexttransferprotocoloversecuresocketlayer,https)访问协议,各处理设备通过https访问协议访问运维设备。s302,运维设备对各处理进行注册。类似于步骤s203,在此不再赘述。s303,运维设备对各处理设备发生的故障进行监听。各运维网关分别对各处理设备发生的故障进行监听,具体地,各运维网关分别对来自各处理设备的故障事件的消息进行监听。运维设备完成对各运维网关的注册后,即启动各运维网关对各处理设备的监听。除此之外,运维设备也可以不对各处理设备发生的故障进行监听。此时,需各处理设备在发生故障事件时将故障事件的消息直接上报至运维设备,即步骤s304。s304,处理设备将故障事件的消息上报至运维设备。故障事件的消息包括处理设备序列号、故障事件类型、故障事件级别等。处理设备序列号用于标识当前故障事件的具体来源设备。故障事件类型,用于标识当前故障事件的类型,基于该事件类型运维设备可以选择不同的处理规则和方法进行故障诊断和分析,同时也可以支持运维系统采取不同的策略处理该故障事件。故障事件级别,用于标识当前故障事件的紧急程度,以支持运维系统采取不同的策略处理该事件。s305,运维设备根据接收到的故障事件的消息,在对应的处理设备中采集故障事件的相关日志。采集的相关日志包括发生故障事件的设备的运行日志和调试日志等,采集的日志用于识别故障事件,以对发生故障事件的设备进行恢复或维护等。s306,处理设备将故障事件的相关日志上传至运维设备。s307,运维设备根据接收到的日志,进行故障诊断。类似与步骤s208中的方法,在此不再赘述。s209,运维设备对发生故障事件的设备进行故障恢复。上述方法实现了对发生故障处理设备的自动化故障监控、日志采集、故障诊断和故障恢复,从而,大大缩短因处理设备故障所导致的客户业务中断的时间,有效提升了处理设备集群中处理设备的可靠性和可用性。本申请实施例提供一种运维设备200,如图1所示。该运维设备包括消息获取单元、日志采集单元、故障分析单元和故障处理单元。该消息获取单元用于获取故障事件的消息,该故障事件的消息指示处理设备发生故障。该日志采集单元用于执行前述步骤s205,包括根据该故障事件的消息,采集该故障事件的相关日志。该故障分析单元用于执行前述步骤s207、s208,包括根据该故障事件的相关日志,进行故障诊断。该故障处理单元用于根据该故障诊断的结果,对该处理设备进行故障恢复。本申请实施例提供还一种运维网关210,如图1所示,该运维网关包括故障消息上报单元、日志上报单元和恢复任务接收单元。该故障消息上报单元用于执行前述步骤s203、s204,包括监听故障事件的消息,或者接受处理设备上报的故障事件的消息。该故障事件的消息指示处理设备发生故障。该故障消息上报单元还用于将该故障事件的消息上报至运维网关。该日志上报单元用于执行前述步骤s206,包括用于获取该运维网关根据该故障事件的消息所创建的日志采集任务,根据该日志采集任务,采集该故障事件的相关日志,将采集到该故障事件的相关日志上报至该运维网关。该恢复任务接收单元用于执行前述步骤s209,包括获取该运维网关根据该故障事件的相关日志进行故障诊断后生成的故障恢复任务,根据该故障恢复任务,对该处理设备进行故障恢复。本发明实施例还提供一种计算设备如图4所示。计算设备400可以包括处理单元410和通信接口420,处理单元410用于执行计算设备上运行的操作系统以及各种软件程序所定义的功能,包括前述运维设备200的功能,或者前述运维网关210的功能,或包括前述运维设备200的功能和前述运维网关210的功能。通信接口420用于与其他设备进行通信交互,其他设备可以是其它计算设备,具体地,通信接口420可以是网络适配卡。可选地,该计算设备还可以包括输入/输出接口430,输入/输出接口430连接有输入/输出设备,用于接收输入的信息,输出操作结果。输入/输出接口430可以为鼠标、键盘、显示器、或者光驱等。可选地,该计算设备400还可以包括辅助存储器440,一般也称为外存,辅助存储器440的存储介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如光盘)、或者半导体介质(例如固态硬盘)等。处理单元410可以有多种具体实现形式,例如处理单元410可以包括处理器412和内存411,处理器412根据内存411中存储的程序指令执行相关的操作,处理器412可以为中央处理器(cpu)或图像处理器(graphicsprocessingunit,gpu),处理器412可以是单核处理器或多核处理器。处理单元410也可以单独采用内置处理逻辑的逻辑器件来实现,例如现场可编程门阵列(英文全称:fieldprogrammablegatearray,缩写:fpga)或数字信号处理器(英文:digitalsignalprocessor,dsp)等。此外,图4仅仅是一个计算设备的一个例子,计算设备可能包含相比于图4展示的更多或者更少的组件,或者有不同的组件配置方式。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1