一种基于SCOM的windows应用平台故障自愈系统及方法与流程

文档序号:15455033发布日期:2018-09-15 00:52阅读:162来源:国知局
本发明属于故障自愈系统,尤其涉及一种基于scom的windows应用平台故障自愈系统及方法。
背景技术
:现有技术中,基于windows应用平台的系统服务器主要依托于iis站点、windows服务及数据库(主要是sqlserver),以iis站点、windows服务和数据库的形式对外提供服务。由于系统服务器处理能力的制约,一般系统服务器数量较多,加上导致出现异常的因素不同,比如数据源错误、网络错误、磁盘存储错误、并发压力过大等等,可能导致iis站点或者windows服务不可用,无法提供正常对外服务。目前scom(microsoftsystemcenteroperationsmanager,微软系统中心操作管理器)可以实现对iis站点、windows服务和数据库的状态和可用性的检测,并对发现的异常进行告警,但还需采用报警后人工手动修复的方式处理异常,人工处理异常的方式存在如下缺陷:1)维护成本高,为保证及时处理异常,需人工手动修复,同时带来了人工操作的风险,总结为“耗时,耗力,高风险”;2)实时性低,人工手动修复往往在上班后,若发现异常,加上处理时间,往往已经造成对外服务的中断。技术实现要素:本发明用于解决现有iis站点、windows服务及数据库异常修复浪费人力,存在耗时、耗力、高风险的问题。本发明一技术方案为提供一种基于scom的windows应用平台故障自愈系统,包括:scom信息采集模块、调度模块及修复插件;所述scom信息采集模块用于采集scom监控平台收集到的异常信息;所述调度模块用于针对每一异常信息,根据该异常信息及路由信息表确定异常地址,根据该异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复所述异常地址处的异常。进一步实施例中,基于scom的windows应用平台故障自愈系统还包括信息分析模块,用于对所述异常信息做标准化处理,以得到标准格式的异常信息。进一步实施例中,所述信息分析模块对所述异常信息做标准化处理之前还包括:对所述异常信息做筛选处理,以筛选出需要处理的异常信息。进一步实施例中,所述信息分析模块对所述异常信息做标准化处理之后还包括:对异常信息做分组处理,得到多组异常信息;所述调度模块用于针对每一组异常信息,根据该组异常信息及路由信息表确定异常地址,根据该组异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复所述异常地址处的异常。进一步实施例中,所述信息分析模块对所述异常信息做分组处理之后还包括:根据异常的重要程度确定每组异常信息修复的优先顺序;所述调度模块按照优先顺序对每组异常信息进行处理。进一步实施例中,所述异常信息包括:服务器名称,异常对象名称,异常详情。进一步实施例中,所述路由信息表包括:服务器名称,异常对象名称及地址信息,其中,地址信息包括ip地址及端口名称。进一步实施例中,所述处置规则包括:异常详情及修复插件信息,其中,所述修复插件信息为插件名称、插件路径及插件作用中的一个或多个。本发明另一技术方案为提供一种基于scom的windows应用平台故障自愈方法,包括:采集scom监控平台收集到的异常信息;针对每一异常信息,根据该异常信息及路由信息表确定异常地址,根据该异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复所述异常地址处的异常。进一步实施例中,采集到异常信息之后还包括:对所述异常信息做标准化处理,以得到标准格式的异常信息。进一步实施例中,对所述异常信息做标准化处理之前还包括:对所述异常信息做筛选处理,以筛选出需要处理的异常信息。进一步实施例中,对所述异常信息做标准化处理之后还包括:对异常信息做分组处理,得到多组异常信息。进一步实施例中,对所述异常信息做分组处理之后还包括:根据异常的重要程度确定每组异常信息修复的优先顺序。本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述任一实施例所述的基于scom的windows应用平台故障自愈方法。本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行前述任一实施例所述的基于scom的windows应用平台故障自愈方法的计算机程序。本发明通过采集scom日常监控收集到的iis站点、服务和数据库的异常信息;对于每一异常信息,根据该异常信息及路由信息表确定异常地址,根据该异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复所述异常地址处的异常,能够达到无人值守,故障自愈的目的。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明一实施例的基于scom的windows应用平台故障自愈系统的结构图;图2为本发明另一实施例的基于scom的windows应用平台故障自愈系统的结构图;图3为本发明实施例的基于scom的windows应用平台故障自愈方法的流程图。具体实施方式为了使本发明的技术特点及效果更加明显,下面结合附图对本发明的技术方案做进一步说明,本发明也可有其他不同的具体实例来加以说明或实施,任何本领域技术人员在权利要求范围内做的等同变换均属于本发明的保护范畴。在本说明书的描述中,参考术语“一实施例”、“一具体实施例”、“例如”、或“一些实施方式”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。基于windows应用平台的系统服务器一般分为应用服务器和数据库服务器,应用服务器中安装有iis站点和windows服务,数据库服务器中一般安装有sqlserver数据库。如图1所示,图1为本发明一实施例的基于scom的windows应用平台故障自愈系统的结构图。本发明能够达到无人值守,故障自愈的目的,满足对外提供服务的连续性和高可用性要求。具体的,基于scom的windows应用平台故障自愈系统包括:scom信息采集模块100、调度模块200及修复插件300。scom信息采集模块100用于采集scom监控平台收集到的异常信息。scom收集到的异常信息包括三类异常对象(iis站点、windows服务及数据库)的异常信息。调度模块200用于针对每一异常信息,根据该异常信息及路由信息表确定异常地址,根据该异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复异常地址处的异常。本系统的故障修复采用插件的方式实现了可扩展。因为故障的不可预知性,故障的排查和处理会随着时间的累积不断的丰富和完善,因此采用插件方式可以实现故障修复手段的扩展。详细的说,异常信息为一条一条的数据,每条数据包括:服务器名称,异常对象名称,异常详情。例如“mbtswfap01站点wfsite无响应”,“mbtswfap01服务time_service异常停止”。异常详情包括但不限于异常对象(iis站点、windows服务及数据库)无响应、异常停止、指纹识别错误,具体参见现有scom收集的三类异常对象的异常详情,本发明对此不作限定。路由信息表包括:服务器名称(应用服务器或数据库服务器),异常对象名称及地址信息,其中,地址信息包括ip地址及端口名称。处置规则包括:异常详情及修复插件信息。处置规则中异常详情包括但不限于无响应、异常停止、指纹识别错误。修复插件信息为调取插件的凭证,包括插件名称、插件路径及插件作用中的一个或多个,插件名称例如为iis_start.ps,插件路径例如为d:\script\iis_start.ps,插件作用例如为启动iis站点。修复插件例如为powshell脚本、dll等调度模块可以识别的插件,由工作人员预先制定并存储在故障自愈系统中,例如包括iis站点停止、iis站点回收、iis站点重启,windows服务停止、windows服务重启、iis站点和服务路由表的修改、数据库锁或者链接的修复等。修复插件可以扩展,根据处置规则的增加来不断丰富完善修复插件。具体实施时,通过将异常信息中的服务器名称、异常对象名称与路由信息表中服务器名称、异常对象名称相匹配来确定地址信息。通过将异常信息中的异常详情与处置规则中的异常详情相匹配来确定修复插件信息,通过修复插件信息能够查找到相应修复插件,根据该修复插件及异常地址生成处理指令,将处理指令发送至异常地址,由异常服务器对异常进行自动修复。如图2所示,图2为本发明另一实施例的基于scom的windows应用平台故障自愈系统的结构图。本实施例能够提高调度模块处理速度。具体的,基于scom的windows应用平台故障自愈系统还包括:信息分析模块400,用于对scom信息采集模块100采集到的异常信息做标准化处理,以得到标准格式的异常信息。进一步实施例中,为了减少调度模块处理负担,信息分析模块400对scom信息采集模块采集到的异常信息做标准化处理之前还包括:对scom信息采集模块采集到的异常信息做筛选处理,以筛选出需要处理的异常信息,滤除无需处理的异常信息。进一步实施例中,为了提高异常处理速度,信息分析模块400对scom信息采集模块采集到的异常信息做标准化处理之后还包括:对scom信息采集模块采集到的异常信息做分组处理,得到多组异常信息。一些具体实施方式中,可按服务器及异常对象对异常信息进行分组处理,先按服务器对异常信息进行分组得到第一分组结果;接着按异常对象(iis站点、windows服务及数据库)对第一分组结果进行进一步分组得到最终分组结果。其它实施方式中,还可先按异常对象对异常信息进行分组得到第一分组结果,接着按服务器对第一分组结果进一步分组得到最终分组结果,本发明对此不作具体限定。调度模块300进一步用于针对每一组异常信息,根据该组异常信息及路由信息表确定异常地址,根据该组异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复所述异常地址处的异常。进一步实施例中,考虑到不同异常的影响结果不同,信息分析模块400对所述异常信息做分组处理之后还包括:根据异常的重要程度确定每组异常信息修复的优先顺序。调度模块400按照优先顺序对每组异常信息进行处理。具体实施时,异常重要程度可根据异常对象所实现的功能由工作人员设定,体现在路由信息表中,如后续表一。基于同一发明构思,本发明还提供一种基于scom的windows应用平台故障自愈方法,如图3所示,包括:步骤s310,采集scom监控平台收集到的异常信息;步骤s330,针对每一异常信息执行如下操作:根据该异常信息及路由信息表确定异常地址,根据该异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复所述异常地址处的异常。本发明一实施例中,为了提高异常处理速度,步骤s310与步骤s330之间还包括:步骤s321,对所述异常信息做标准化处理,以得到标准格式的异常信息。本发明一实施例中,为了减少系统处理负担,步骤s321对所述异常信息做标准化处理之前还包括:步骤s320,对所述异常信息做筛选处理,以筛选出需要处理的异常信息。本发明一实施例中,为了提高异常处理速度,步骤s321对所述异常信息做标准化处理之后还包括:步骤s322,对异常信息做分组处理,得到多组异常信息。具体分组过程参见前述实施例,此处不再赘述。步骤s330进一步为:针对每一组异常信息,根据该组异常信息及路由信息表确定异常地址,根据该组异常信息及处置规则确定修复插件信息,根据修复插件信息调用相应修复插件修复所述异常地址处的异常。本发明一实施例中,考虑到不同异常的影响结果不同,步骤s322对所述异常信息做分组处理之后还包括:步骤s323,根据异常的重要程度确定每组异常信息修复的优先顺序。步骤s330进一步按照优先顺序对每组异常信息进行处理。本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述的基于scom的windows应用平台故障自愈方法。本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述任一实施例所述的基于scom的windows应用平台故障自愈方法的计算机程序。为了更清楚说明本发明技术方案,下面以一具体实施例进行说明,路由信息表如表一,处置规则如表二,插件修复信息如表三。表一:其中,wfsite为iis站点名称,timeservice为服务名称,logdb为数据库名称,级别数字越大优先级越高。表二:序号异常详情是否处置执行动作1“站点无响应”是回收iis站点2“服务异常停止”是启动service3“站点异常停止”是启动iis站点4“站点无响应”是回收iis站点5“站点指纹识别错误”否忽略…………具体实施时,表二还可包括插件名称及路径等信息,本发明对此不作限定,执行动作即插件作用。表三:插件名称类型路径执行动作iis_start.ps脚本d:\script\iis_start.ps启动iis站点iis_stop.ps脚本d:\script\iis_stop.ps停止iis站点iis_restart.ps脚本d:\script\iis_restart.ps重启iis站点iis_reset.ps脚本d:\script\iis_reset.ps回收iis站点service_start.ps脚本d:\script\service_start.ps启动serviceservice_stop.ps脚本d:\script\service_stop.ps停止serviceservice_restart.ps脚本d:\script\service_restart.ps重启servicedb_buildindex.ps脚本d:\script\db_buildindex.ps重建数据库表的索引…………1.scom信息采集模块采集到的异常信息为:“mbtswfap01站点wfsite无响应”、“mbtswfap01服务time_service异常停止”、“mbtswfap02站点wfsite异常停止”、“mpsmmwfap01站点wfsite1无响应”、“mpsmmwfap01站点wfsite指纹识别错误”、“mpsmmwfap01站点wfsite2无响应”。2.信息分析模块对采集到的异常信息做标准化、筛选、分组及分优先顺序处理之后得到如表四所示处理后的异常信息。表四:3.调度模块按优先级别处理异常信息。对于序号1的异常信息,将服务器名称“mbtswfap01”及异常对象名称“wfsite”与表一中服务器名称及异常对象名称相匹配,确定地址信息为“ip地址:192.*.106.90;端口:9000”;将异常详情“站点无响应”与表二中异常详情相匹配,确定执行动作为“回收iis站点”;利用表三根据执行动作“回收iis站点”从路径“d:\script\iis_reset.ps”处调取插件名称为“iis_reset.ps”的修复插件去修复“ip地址:192.*.106.90;端口:9000”处的异常。其它条异常与序号1异常处理类似,此处不再赘述。调度模块确定的异常地址及修复插件信息如表五所示。表五:本发明提供的于scom的windows应用平台故障自愈系统及方法能够达到如下技术效果:1.缩短异常处理响应时长,降低异常处理耗时:可以在不影响系统对外服务之前及时的实现故障自愈,保障系统对外服务的连续性。2.提高异常处理可靠性:对于告警的异常信息不会遗漏,避免人工处理的操作,保障对外服务的高可用。3.减少人工运维工作量:可以节省人力处理时间,达到降低维护成本的目的。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。以上所述仅用于说明本发明的技术方案,任何本领域普通技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围应视权利要求范围为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1