一种电力应用系统故障实时分析诊断系统及方法

文档序号:9727869阅读:966来源:国知局
一种电力应用系统故障实时分析诊断系统及方法
【技术领域】
[0001]本发明涉及一种故障分析诊断系统及方法,具体地说是一种电力应用系统故障实时分析诊断系统及方法,属于电力系统自动化技术领域。
【背景技术】
[0002]随着电力行业“十二五规划”任务的逐步完成,电力企业已建成覆盖各级单位、各业务领域的诸多业务应用系统,由此,保障各业务应用系统的安全运行就成了重要课题。特别是,当业务应用系统发生故障时,能够做到早发现、早诊断、快速定位,迅速采取故障应急处置措施,具有非常重要的意义。
[0003]目前,多数业务应用系统的运行监测以指标报送、服务器监控为主,以发现和告警导致系统停运的重大故障、服务器硬件故障为重点,而系统局部功能故障和导致重大故障前的故障线索则难以监控。从日常运行维护角度讲,也缺少以业务系统为单位,全面监测业务应用系统安全运行的措施和方法,传统的业务应用系统运行监测方法存在以下问题:
[0004](1)故障发现迟,留给处置故障的时间短。因为缺少全方位监测和分析的措施方法,局部功能故障和小故障多数在用户使用过程中被发现并报告,而当监测系统告警时,业务系统往往已经停运,或者部分节点停运,造成的影响很大,留给应急处置的时间极为有限,运检人员压力巨大。
[0005](2)依赖人工排查故障线索。常规的监控系统都能提供告警,但缺少故障线索发现和推导跟踪功能。故障告警后,仍然需要熟悉各个专业的专工赶到现场,通过人工搜集和查看各种日志、各种中间件状态、业务系统环境参数,从中发现故障线索,并进行汇总、整理和分析,整个过程耗时、耗力,还容易出现疏漏。
[0006](3)不能按业务系统进行故障诊断分析,定位故障原因。常规监控系统提供的故障分析和定位能力有限,很难做到按照业务系统进行故障诊断分析,最终仍然依靠人工分析和定位故障。复杂的故障,往往需要多个专业经验丰富的专家集体会诊,进行原因确认和定位。
[0007](4)难以重现故障场景,故障处置时间长。因为缺少以业务系统单位组织的全面监测和分析系统,故障发生后,大部分故障线索需要各专业经验丰富专家从大量日志、参数中查找蛛丝马迹,但一些对故障诊断分析有重要作用的业务系统环境的参数和日志,因为没有及时保存故障现场,已经不能获得,严重影响故障诊断和定位,造成故障处置时间不断推迟。

【发明内容】

[0008]为克服上述现有技术存在的不足,本发明提供了一种电力应用系统故障实时分析诊断系统及方法,其能够对电力应用系统进行故障定位与诊断,有效对电力应用系统的故障应急处置进行指导。
[0009]本发明解决其技术问题所采取的技术方案是:一种电力应用系统故障实时分析诊断系统,其特征是,包括数据采集模块、消息通道模块、实时计算分析模块、存储模块和显示丰旲块;
[0010]所述数据采集模块包括若干个数据采集器,所述数据采集器的输入端分别与业务系统相连,用以实时采集业务系统的文件数据和状态数据,所述数据采集器的输出端与消息通道模块相连,用以将采集到的数据推送到消息通道模块;
[0011 ]所述消息通道模块包括数据汇聚模块和数据分类模块,所述数据汇聚模块用以接收数据采集器推送的数据,并对所有数据采集器采集的数据采用流式消息方式进行汇聚后发送给数据分类模块,所述数据分类模块对汇聚后的数据按位置、地址、类型进行分类处理,并将分类后数据发送给实时计算分析模块;
[0012]所述实时计算分析模块包括规则库模块、筛选模块和定位模块,所述规则库模块用以存储预定义的故障特征识别规则、节点故障语义识别规则和推导规则;所述筛选模块根据故障特征识别规则对消息通道模块发送的数据进行筛选,并将确定的故障消息发送给定位模块;所述定位模块根据故障语义识别规则和推导规则表对故障信息进行通过推导分析,判定故障发生原因和故障发生位置,并将形成故障信息堆栈和故障告警信息;
[0013]所述存储模块用以储存分析结果;
[0014]所述显示模块用以展示故障告警信息。
[0015]优选地,所述业务系统的文件数据包括Webserver Log、AppServer Log、DB Log、OS Log和Appl icat1n Log文件,状态数据包括内存参数、磁盘参数、cpu参数、进程参数和网络参数。
[0016]优选地,所述数据采集器为具有增量采集和频度设定功能的数据采集器;所述消息通道模块采用集群部署方式、具备缓存功能的流式消息传输模块。
[0017]优选地,所述实时计算分析模块以storm实时计算平台为基础,以topology为基本处理单元,可以根据任务和地址的不同,采用分布式云计算实时计算分析模块。
[0018]本发明还提供了一种电力应用系统故障实时分析诊断方法,其特征是,包括以下步骤:
[0019]S1:实时从各个业务系统采集数据;所述步骤S1具体包括以下步骤:S101:以增量形式获取Webserver Log、AppServer Log、DB Log、0S Log和Applicat1n Log文件数据,并记录每次读取数据的位置,作为下一次读取的起点;S102:获取各个业务系统的内存参数、磁盘参数、cpu参数、进程参数和网络参数状态数据;S103:将采集到的业务系统文件数据和状态数据以消息形式推送给消息通道;
[0020]S2:消息通道将采集的数据进行汇聚并按照位置、类别、服务器地址进行分类,并传输给实时计算分析平台;所述步骤S2具体包括以下步骤:S201:以流式消息方式接收采集器推送的数据,并对不同来源、不同业务系统、不同类型的消息数据进行汇聚处理;S202:对汇聚后消息数据按照位置、类别、服务器地址进行分类处理;S203:对处理后数据进行缓存;
[0021]S3:实时计算分析模块从消息通道顺次获取消息,采用循环处理机制对消息进行实时计算分析,判定故障发生原因和故障发生位置,并形成故障信息堆栈;所述步骤S3具体包括以下步骤:S301:按照地址、位置和类别主动获取消息,实时计算分析模块的过滤类型topology将消息先按类别分组,以便不同类型消息交给固定的topology处理;S302:过滤类型topology从规则库中获取故障识别特征对消息进行过滤和故障识别:如果识别为非故障消息,按照位置、类别、服务器地址更新数据源的状态和时间长;如果识别为故障消息,将消息交个故障分析topology,置数据源状态为故障,开始累计故障时长,将识别结果保存到高速共享缓冲区,并保存故障场景;S303:节点类型topology对过滤类型topology处理后的数据和高速共享缓存区内的数据按照地址将所有属于该节点地址的所有故障信息和环境参数信息汇聚到一起,并根据节点故障语义识别规则和推导规则表的定义按照环境故障先于应用故障的规则进行故障推导,并将推导结果保存到高速共享缓冲区;S304:业务类型topology对节点类型topology处理后的数据和高速共享缓存区内的数据以业务系统为单位,将不同节点按照业务信息处理次序组织到一起,并根据业务关系规则表中定义以信息流动方向为规则的逻辑次序进行故障推导,并将推导结果保存到高速共享缓冲区;S305:以业务系统为单位,组织步骤S304的推导结果,按照业务系统数据的逻辑处理次序,将故障形成从结果到原因的链条,构建故障发展进程的故障信息堆栈,并与保存在文件中的故障场景进行关联,供告警和展示使用;
[0022]S4:储存诊断结果和展现告警信息;所述步骤S4具体包括以下步骤:S401:将所有的计算分析结果都以业务系统为单位保存到数据库和文件中,分析结果分为两类:正常和异常;S402:在监控界面以业务系统为单位展示每个业务系统的状态信息,如果某个业务系统被发现故障,则以故障发展进程倒序发送给客户端向用户展示,用户可以看到业务系统故障发生在哪个节点、哪类组件或者设备、故障原因,并能够查看当时故障现场记录。
[0023]优选地,所述获取各个业务系统的状态数据包括但不限于:
[0024]用户进程:进程名称及数量参数;
[0025]服务器内存参数:total、used、free、shared、buffers、cached、-/+buffers/cache参数;
[0026]服务器swap参数:Swaptotal、swap usecUswap freenswap file数量和size参数;
[0027]服务器CPU参数:%us、%sy、%n1、% id、load average、users、total、running、sleeping、stopped、%h1、%s1、%st参数;
[0028]服务器磁盘参数:Mountedon、Use%、Used Avail、Size参数;
[0029]磁盘10参数:TPS、kB_read/s、kB_wrtn/s、kB_read、kB_wrtn、avgqu_sz、await、svctm、%util参数;
[0030]网络传输参数:工作模式、连通状态、是否丢包、响应时间参数。
[0031]优选地,对汇聚后消息数据进行分类处理过程中采用的分类格式为:地址+位置+类别;地址即数据来源地址,为数据源的IP地址;位置即数据来源位置,为文件路径,如果为服务器参数则可空;类别即数据类别,包括但不限于以下类型:Apache访问日志、Apache错误日志、Tomcat访问日志、Tomcat运行日志、Weblogic访问日志、Weblogic服务器日志、ffeblogic Domain 日志、Weblogic控制台输出、Oracle监听日志、Oracle alert 日志、Syslog等文件类型;用户进程、内存、swap、磁盘、磁盘1、Cpu、和网络参数。
[0032]优选地,所述故障识别特征包括但不限于以下内容:
[0033]1 )apache访问日志:状态代码为4XX、5XX的消息,以及响应时间超过限定阀值的消息;
[0034]2)apache错误日志:级别为EMERG、ERR0R、ALERT、CRIT的消息,在系统非计划检修期间,状态为启动失败、服务关闭的消息,以及级别为INFO、NOTICE、DEBUG,原因描述中包含ERROR、EXCEPT1N、FAI LURE 和 WARNING 关键字的消息;
[0035]3)Tomcat访问日志:状态代码为4XX、5XX的消息,以及响应时间超过限定阀值的消息;
[0036]4)Tomcat运行日志:级别为SEVERE的消息,在系统非计划检修期间,状态为启动失败、服务关闭的消息,以及级别为WARNING、INFO、CONFIG、FINE、FINER、FINEST,原因描述中包含 ERROR、EXCEPT1N、FAI LURE 和 WARNING 关键字的消息;
[0037]5)webl0giC访问日志:状态代码为4XX、5XX的消息,以及响应时间超过限定阀值的消息;
[0038]6)weblogic服务器日志:级别为ENERGENCY、ALERT、CRITICAL、ERROR的消息,在系统非计划检修期间,状态为启动失败、服务关闭的消息,以及级别为WARNING、N0TICE、INF0、TRACE,原因描述中包含ERROR、EXCEPT1N、FAI LURE和WARNING关键字的消息;
[0039 ] 7)weblogic domain 日志:级别为 ENERGENCY、ALERT、CRITI CAL、ERROR 的消息,在系统非计划检修期间,状态为启动失败、服务关闭的消息,以
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1