计算存储设备的监控系统及方法与流程

文档序号:13557425阅读:332来源:国知局
计算存储设备的监控系统及方法与流程

本发明涉及服务器、磁盘机和带库等非网络it设备的监控处理技术领域,特别涉及一种计算存储设备的监控系统及方法。



背景技术:

对于运维工作而言,现有的监控系统对于大量使用多品牌设备的大型数据中心考虑不足。加之银行数据中心对于安全的苛刻要求,目前市面上还没有针对不同品牌不同类别设备的自动化硬件监控和日志收集工具。同时,伴随着数据中心规模的日益庞大,传统的基于先看到告警信息后排查故障的被动的设备运维模式效率低下,不能及时快速定位故障,影响生产稳定;同时该模式对人力和物力的需求成几何级的增长,导致人员工作量很大。如:各家厂商均有独立的日志包及生成方式,每次收到服务器报警信息都需要跑进机房去现场收集服务器和磁盘机报警信息,既费时费力还影响安全性,且需要具备一定专项技术水平的人员才可完成。



技术实现要素:

本发明实施例提供了一种计算存储设备的监控方法,以解决现有技术中设备运维模式效率低下、不能及时快速定位故障且费时费力的技术问题。该方法包括:实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,根据所述报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息;根据所述设备标识信息和所述报错相关信息,在预设脚本文件中选择出与所述报警信息相对应的脚本文件,生成日志抓取文件,所述日志抓取文件包括选择出的脚本文件、日志收集方式以及触发选择出的脚本文件所需的参数;根据所述日志抓取文件触发发生报警的待监控的计算存储设备选取对应的日志收集方式,采用所述参数触发发生报警的待监控的计算存储设备执行所述选择出的脚本文件,来抓取发生报警的待监控的计算存储设备的log日志。

本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种所述的计算存储设备的监控方法。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任一种所述的计算存储设备的监控方法的计算机程序。

本发明实施例还提供了一种计算存储设备的监控系统,以解决现有技术中设备运维模式效率低下、不能及时快速定位故障且费时费力的技术问题。该系统包括:数据获取装置、数据比对装置以及日志生成装置,其中,所述数据获取装置与各个待监控的计算存储设备自身现有的监控系统连接,所述数据获取装置用于实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,根据所述报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息;所述数据比对装置,用于根据所述设备标识信息和所述报错相关信息,在预设脚本文件中选择出与所述报警信息相对应的脚本文件,生成日志抓取文件,所述日志抓取文件包括选择出的脚本文件、日志收集方式以及触发选择出的脚本文件所需的参数;所述日志生成装置,用于根据所述日志抓取文件触发发生报警的待监控的计算存储设备选取对应的日志收集方式,采用所述参数触发发生报警的待监控的计算存储设备执行所述选择出的脚本文件,来抓取发生报警的待监控的计算存储设备的log日志。

在本发明实施例中,通过实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,实现了可以采集集中监控中各类计算存储设备的报警信息,并通过报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息,进而根据设备标识信息和报错相关信息选择出与报警信息相对应的脚本文件,生成日志抓取文件,最后,根据日志抓取文件抓取发生报警的待监控的计算存储设备的log日志。使得在计算存储设备发生报警时,需要跑进机房去现场收集服务器和磁盘机等的报警信息,本申请可以自动根据采集的报警信息去抓取生报警的待监控的计算存储设备的log日志,一线运维人员可以根据输出的log日志快速反应,以此确定最终的报警处理方案。使用本申请的监控方法,可大大降低人工参与度,提高硬件运维标准化程度,有利于减少人力资源成本并降低专业人员的学习压力,有利于提高故障定位效率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:

图1是本发明实施例提供的一种计算存储设备的监控系统的示意图;

图2是本发明实施例提供的一种数据获取装置的结构示意图;

图3是本发明实施例提供的一种数据比对装置的结构示意图;

图4是本发明实施例提供的一种日志生成装置的结构示意图;

图5是本发明实施例提供的一种数据过滤装置的结构示意图;

图6是本发明实施例提供的一种计算存储设备的监控方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。

在本发明实施例中,提供了一种计算存储设备的监控系统,如图1所示,该系统包括:数据获取装置001、数据比对装置002、日志生成装置003和数据过滤装置004。其中,所述数据获取装置001与各个待监控的计算存储设备自身现有的监控系统连接,所述数据获取装置用于实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,根据所述报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息;

所述数据比对装置002,用于根据所述设备标识信息和所述报错相关信息,在预设脚本文件中选择出与所述报警信息相对应的脚本文件,生成日志抓取文件,所述日志抓取文件包括选择出的脚本文件、日志收集方式以及触发选择出的脚本文件所需的参数;

所述日志生成装置003,用于根据所述日志抓取文件触发发生报警的待监控的计算存储设备选取对应的日志收集方式,采用所述参数触发发生报警的待监控的计算存储设备执行所述选择出的脚本文件,来抓取发生报警的待监控的计算存储设备的log日志

由图1所示可知,在本发明实施例中,通过实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,实现了可以采集集中监控中各类计算存储设备的报警信息,并通过报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息,进而根据设备标识信息和报错相关信息选择出与报警信息相对应的脚本文件,生成日志抓取文件,最后,根据日志抓取文件抓取发生报警的待监控的计算存储设备的log日志。使得在计算存储设备发生报警时,需要跑进机房去现场收集服务器和磁盘机等的报警信息,本申请可以自动根据采集的报警信息去抓取生报警的待监控的计算存储设备的log日志,一线运维人员可以根据输出的log日志快速反应,以此确定最终的报警处理方案。使用本申请的监控方法,可大大降低人工参与度,提高硬件运维标准化程度,有利于减少人力资源成本并降低专业人员的学习压力,有利于提高故障定位效率。

具体实施时,上述log日志是指硬件运行状态的记录,比如,ibm高端服务器的iqyy。

具体实施时,上述待监控的计算存储设备可以是服务器、磁盘机和带库等非网络it设备,如图1所示,上述待监控的计算存储设备比如可以是ibm高端服务器,ibm中低端服务器,hpx86服务器,dellx86服务器,华为x86服务器,浪潮x86服务器,华为磁盘机,hds磁盘机等。这些目标服务器和磁盘机要根据既有监控方式预先部署带内agent监控功能,或在设备管理机和带外监控模块上配置启用相应的监控功能,这些监控功能即上述各个待监控的计算存储设备自身现有的监控系统。

具体实施时,为了实现数据获取,在本实施例中,如图2所示,上述数据获取装置001,包括:

实时监控模块102,用于与各个待监控的计算存储设备101自身现有的监控系统连接,实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息;

监控集采模块103,用于将所述报警信息解析成统一格式的展示数据,并根据报警信息的来源在每条报警信息上添加区别标记,所述区别标记用于区分与该报警信息对应的发生报警的待监控的计算存储设备的类型,根据所述报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息,其中,所述设备标识信息包括发生报警的待监控的计算存储设备的设备类型和ip地址,所述报错相关信息包括发生报警的报错代码和报错描述信息;

关键字收集模块104,用于存储分析出的设备标识信息和报错相关信息。

具体实施时,上述实时监控模块102可以通过多台服务器实现,多台服务器分别监控不同的服务器或磁盘机一个计算存储设备。例如,以华为浪潮服务器为例,现有的线控系统采用带外监控的形式,与业务ip隔离;以hp和dell的x86为例,现有的线控系统是在目标机器的操作系统上安装agent来获取监控信息;以ibm高端服务器和华为、日立的磁盘机为例,现有的线控系统则是有专门的设备管理console机对目标机器进行管理和监控。为了实现实时采集各个计算存储设备的报警信息,上述实时监控模块102分别与各个计算存储设备自身现有的监控系统连接,充分利用各个计算存储设备自身现有的监控系统来获取报警信息。

上述实时监控模块102通过多台服务器实现时,为了保证服务器以后的横向扩展能力,我们对多台服务器预先按照负载均衡模式去设计,多台服务器可以对一个计算存储设备进行报警信息采集,这样不但能应对计算存储设备数量快速增长带来的性能容量压力,减少采集等待时间,也能避免单一无冗余机器造成的服务中断。

具体实施时,上述监控集采模块103将实时监控模块102采集的杂乱无章的报警信息解析成统一化、标准化的展示数据。同时,根据监控信息来源的不同(比如通过实时监控模块102的不同监控服务器)在每个报警信息上加区别标记(该区别标记可以是实时监控模块102中对应的监控服务器的ip),以此来区分是什么类型的被监测设备的报警信息。监控集采模块103的具体举措可以描述为:根据相关字段进行筛选,根据报警信息分析出抓取发生报警的待监控的计算存储设备的log日志所需的设备标识信息和报错相关信息(设备标识信息可以包括ip、设备类型,报错相关信息可以包括报错代码、报错描述信息等);并对采集的报警信息做初步粗略过滤,主要针对最基本的信息和杂质,过滤出的信息是厂商提供的明确为没有大问题的报警信息。具体的,对于ip信息的分析,针对有的机器(即上述待监控的计算存储设备)是需要直接分析业务服务器的ip,有的则是根据业务ip结合配置管理系统确定相应的管理console机的ip(比如hmc)。对于设备类型,可以根据报警信息的区别标记来确定。对于报错代码的分析则可以结合报错机器类型进行解析定位;对无代码的报错描述信息则要筛选出关键的描述字段。

具体实施时,如图3所示,上述所述数据比对装置002,包括:

数据比对模块201,与所述关键字收集模块104连接,用于将分析出的设备标识信息和报错相关信息与预存的告警历史数据比对,判断每条报警信息是否属于需要处理的报警情况,其中,所述预存的告警历史数据为不属于需要处理的报警情况的报警信息;

结果反馈模块202,用于在报警信息不属于需要处理的报警情况时,直接输出并显示该报警信息,以提示用户该报警信息不需要处理;

方案策略制定模块203,用于在报警信息属于需要处理的报警情况时,根据该报警信息对应的设备标识信息和报错相关信息,在预设脚本文件中选择出与该报警信息相对应的脚本文件,生成日志抓取文件;

方案参数传输模块205,将所述日志抓取文件发送给发生报警的待监控的计算存储设备。

具体实施时,上述数据比对模块201将分析出的设备标识信息和报错相关信息与预存的告警历史数据比对,来判断每条报警信息是否属于需要处理的报警情况。具体的,该预存的告警历史数据可以通过告警历史数据库的形式实现,该告警历史数据库可以是定期更新的,其更新来源于新增的机器类型和新增的被判断为可忽略报警等信息。

具体实施时,结果反馈模块202在报警信息判断为不属于需要处理的报警情况时,直接输出并显示该报警信息,以提示用户(例如,监控值班人员)该报警信息不需要处理,可以忽略。

具体实施时,方案策略制定模块203在报警信息属于需要处理的报警情况时,根据设备标识信息定位这个报警信号是来自哪个品牌的哪类设备,然后根据报错相关信息中的错误代码、报错描述信息等信息决定采取哪种日志收集方方式(例如,报错代码的识别则可以是根据先验知识,也就是我们预先通过厂商的报错代码明确知道的需要收集何种日志,日志收集方方式一般为带外监控采集bmc日志或是带内监控通过操作系统收集相关日志或者根据设备管理console机触发日志收集工具来实现日志收集功能)。根据该报警信息对应的设备标识信息和报错相关信息,在预设脚本文件中选择出与该报警信息相对应的脚本文件,例如,设置预设参数根据现有的机器类型和日志收集方式的不同预先提供多种不同版本的脚本文件,将设备标识信息和报错相关信息与预设参数进行比对,在预设脚本文件中选择出与该报警信息相对应的脚本文件。例如,预设脚本文件可以包括面向ibm高端hmclinux系统的脚本文件、面向华为磁盘机控制器windows的脚本文件以及面向华为服务器带外监控的脚本文件等等。

具体实施时,在方案策略制定模块203生成上述日志抓取文件时,日志抓取文件中除了包括选择出的脚本文件、日志收集方式以及触发选择出的脚本文件所需的参数之外,还可以包括登录发发生报警的待监控的计算存储设备的登录方式(例如,用于登录的用户名和密码)。

具体实施时,方案参数传输模块205可能是将方案策略制定模块203生成的日志抓取文件反馈到正在运行业务的服务器上,为了保证不影响业务,在本实施例中,上述数据比对装置002,还包括:文件安全检测模块204,用于在所述方案参数传输模块205发送所述日志抓取文件之前,对所述日志抓取文件进行安全检测,即对日志抓取文件反馈包做一个安全侦测,防止恶意的代码或者病毒文件等对业务机器的侵袭。

具体实施时,如图4所示,上述日志生成装置003,包括:

触发方式选择模块301,与所述方案参数传输模块连接,用于根据所述日志抓取文件触发发生报警的待监控的计算存储设备选择对应的日志收集方式;

触发执行模块302,用于采用所述日志抓取文件中的所述参数触发发生报警的待监控的计算存储设备执行所述选择出的脚本文件,来抓取发生报警的待监控的计算存储设备的log日志;

日志收集判定模块303,通过探测预设路径下是否有相应日期生成的文件包以及文件包的大小,来判断是否成功收集了log日志;

日志结果反馈模块304,用于存储收集的log日志,并转发log日志。

具体实施时,上述触发方式选择模块301根据日志抓取文件触发发生报警的待监控的计算存储设备选择对应的日志收集方式,例如,判断是通过带外监控采集bmc日志或是通过带内监控通过操作系统收集相关日志还是根据设备管理console机触发日志收集工具来实现日志收集功能。

具体实施时,上述日志收集判定模块303,通过探测预设路径下是否有相应日期生成的文件包以及文件包的大小,来判断是否成功收集了log日志,例如,通过探测简单查找相关路径下是否有本日期生成的文件包,以及文件包的大小来初步判断是否成功收集了log日志。如果没有收集成功,则返回触发方式选择模块301和触发执行模块302重新识别并执行脚本收集动作。如果日志包成功收集,则把日志包反馈给日志结果反馈模块304进行存储。

具体实施时,日志结果反馈模块304将收集的log日志通过相关协议(比如ftp协议)一路传递到报警监控平台供现场值班使用;或者一路传递到生产内网中转机供外发二线工程师使用。

具体实施时,针对部署重要信息的数据中心,考虑到数据信息的安全性和不确定性,在本实施例中,如图1和图5所示,上述计算存储设备的监控系统,还包括数据过滤装置004,该数据过滤装置004,包括:

日志安全检测模块401,用于检测抓取的log日志中是否含有业务信息;

日志审核处理模块402,用于确认抓取的log日志的完整性,并根据报警信息对应的报警情况,为抓取的log日志选择转发对象;

日志外发模块403,用于提供下载不含有业务信息且完整的log日志的接口。

具体实施时,日志安全检测模块401主要是智能筛选是否有业务信息被混入到抓取的log日志包中,尤其是针对带内监控收集的日志更要加以甄别。日志审核处理模块402则可以是进一步通过人工参与的方式确认日志包的完整性以及根据实际情况选择不同的目标转发对象。日志外发模块403提供下载不含有业务信息且完整的log日志的接口,以将抓取的log日志通过ftp或者smtp协议转给日志分析工程师。

以下具体描述上述计算存储设备的监控系统的工作过程,例如,上述待监控的计算存储设备以ibm高端服务器为例:

(1)数据获取装置001通过语句“select*fromreporter_statuswherecustomerseverity<=6andcomponenttype='hardware'”从itdw数据库中获取硬件类告警信息。

(2)数据比对装置002,通过预设模块,例如:

{"日立存储故障":{配置信息1},"ibmp硬件故障":{"src!=e*":{配置信息2}}}

匹配含有“ibmp硬件发生故障”字段的告警信息且src不为exxxxxxx的事件,进行后续模块调用;

配置信息2:{ip:nodeip,"用户名":"hscroot","密码":"*******","登录方式":"ssh","端口":22,"cmd":"ibmpseriesh",”path”:”/var/log/hsc/iqyy.zip”}

(3)上文数据比对装置002中的“配置信息2”,即指向日志生成装置003相关脚本运行,并记录相关ip地址等信息。日志生成装置003由一系列脚本组成,同时调取数据比对装置002记录的信息,生成实际需要执行的脚本。

ibmpseriesh内容举例如下:

mysu-;

cd/var/log/hsc;

zip-riqyy.zip./*;

确认当前日期的iqyy.zip生成后,推送“配置信息2”给数据过滤装置004;

(4)数据过滤装置004,根据日志生成装置003继续推送的配置信息2的path信息,将远端的日志文件提取到本地,进行归档,并将目录信息入库;

mkdirnodeip+date;

ftp

openip

“用户名”

“密码”

bin

lcd本地目录\nodeip+date

get/var/log/hsc/iqyy.zip

bye

(5)操作人员可通过ftp或http协议的方式,访问日志服务器,提取日志数据。

基于同一发明构思,本发明实施例中还提供了一种计算存储设备的监控方法,如下面的实施例所述。由于计算存储设备的监控方法解决问题的原理与计算存储设备的监控系统相似,因此计算存储设备的监控方法的实施可以参见计算存储设备的监控系统的实施,重复之处不再赘述。

图6是本发明实施例的计算存储设备的监控方法的流程图,如图6所示,该方法包括:

步骤601:实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,根据所述报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息;

步骤602:根据所述设备标识信息和所述报错相关信息,在预设脚本文件中选择出与所述报警信息相对应的脚本文件,生成日志抓取文件,所述日志抓取文件包括选择出的脚本文件、日志收集方式以及触发选择出的脚本文件所需的参数;

步骤603:根据所述日志抓取文件触发发生报警的待监控的计算存储设备选取对应的日志收集方式,采用所述参数触发发生报警的待监控的计算存储设备执行所述选择出的脚本文件,来抓取发生报警的待监控的计算存储设备的log日志。

在一个实施例中,实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,根据所述报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息,包括:实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息;将所述报警信息解析成统一格式的展示数据,并根据报警信息的来源在每条报警信息上添加区别标记,所述区别标记用于区分与该报警信息对应的发生报警的待监控的计算存储设备的类型,根据所述报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息,其中,所述设备标识信息包括发生报警的待监控的计算存储设备的设备类型和ip地址,所述报错相关信息包括发生报警的报错代码和报错描述信息;存储分析出的设备标识信息和报错相关信息。

在一个实施例中,根据所述设备标识信息和所述报错相关信息,在预设脚本文件中选择出与所述报警信息相对应的脚本文件,生成日志抓取文件,包括:将分析出的设备标识信息和报错相关信息与预存的告警历史数据比对,判断每条报警信息是否属于需要处理的报警情况,其中,所述预存的告警历史数据为不属于需要处理的报警情况的报警信息;在报警信息不属于需要处理的报警情况时,直接输出并显示该报警信息,以提示用户该报警信息不需要处理;在报警信息属于需要处理的报警情况时,根据该报警信息对应的设备标识信息和报错相关信息,在预设脚本文件中选择出与该报警信息相对应的脚本文件,生成日志抓取文件;将所述日志抓取文件发送给发生报警的待监控的计算存储设备。

在一个实施例中,还包括:在发送所述日志抓取文件之前,对所述日志抓取文件进行安全检测。

在一个实施例中,根据所述日志抓取文件触发发生报警的待监控的计算存储设备选取对应的日志收集方式,采用所述参数触发发生报警的待监控的计算存储设备执行所述选择出的脚本文件,来抓取发生报警的待监控的计算存储设备的log日志,包括:根据所述日志抓取文件触发发生报警的待监控的计算存储设备选择对应的日志收集方式;采用所述日志抓取文件中的所述参数触发发生报警的待监控的计算存储设备执行所述选择出的脚本文件,来抓取发生报警的待监控的计算存储设备的log日志;通过探测预设路径下是否有相应日期生成的文件包以及文件包的大小,来判断是否成功收集了log日志;存储收集的log日志,并转发log日志。

在一个实施例中,还包括:检测抓取的log日志中是否含有业务信息;确认抓取的log日志的完整性,并根据报警信息对应的报警情况,为抓取的log日志选择转发对象;提供接口来下载不含有业务信息且完整的log日志。

在本实施例中还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种所述的计算存储设备的监控方法。

在本实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任一种所述的计算存储设备的监控方法的计算机程序。

在本发明实施例中,通过实时采集各个待监控的计算存储设备自身现有的监控系统生成的报警信息,实现了可以采集集中监控中各类计算存储设备的报警信息,并通过报警信息分析出发生报警的待监控的计算存储设备的设备标识信息和报错相关信息,进而根据设备标识信息和报错相关信息选择出与报警信息相对应的脚本文件,生成日志抓取文件,最后,根据日志抓取文件抓取发生报警的待监控的计算存储设备的log日志。使得在计算存储设备发生报警时,需要跑进机房去现场收集服务器和磁盘机等的报警信息,本申请可以自动根据采集的报警信息去抓取生报警的待监控的计算存储设备的log日志,一线运维人员可以根据输出的log日志快速反应,以此确定最终的报警处理方案。使用本申请的监控方法,可大大降低人工参与度,提高硬件运维标准化程度,有利于减少人力资源成本并降低专业人员的学习压力,有利于提高故障定位效率。

显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1