一种智能变电站系统自诊断与自恢复方法

文档序号:6630229阅读:395来源:国知局
一种智能变电站系统自诊断与自恢复方法
【专利摘要】本发明公开了一种智能变电站系统自诊断与自恢复方法,包括如下步骤:(1)监控服务器主机定期获取系统核心进程站用内存大小,当其数值超过预定的阈值启动自恢复;(2)通过监控服务器主机与监控客户端之间的闭环自检进行异常检测,当监测异常次数累积超过预定阈值启动自恢复;(3)自恢复启动后,进行双服务器的主备切换操作,且主机重启产生异常的服务进程。本发明的智能变电站系统自诊断与自恢复方法利用系统运行期基本的画面刷新、数据刷新、告警上送等特性,在监控服务器主机和监控客户端之间形成闭环的定时自检功能,当自检结果符合异常条件时,利用系统的热备特性,启动系统的自恢复策略,以保证系统的长期运行可靠。
【专利说明】一种智能变电站系统自诊断与自恢复方法

【技术领域】
[0001] 本发明属于电力系统智能变电站综合自动化领域,具体涉及一种智能变电站系统 自诊断与自恢复方法。

【背景技术】
[0002] 监控服务器在变电站长时间的运行过程中,可能会由于多种原因(比如一些隐藏 漏洞)而出现异常,严重的异常会给用户带来恶劣影响。系统常见的异常如下:内存泄露 不断累积导致的应用程序奔溃;系统资源泄露如socket、文件句柄不断累积导致的系统异 常;进程或现场死锁导致的应用异常;对非法数据处理的保护性不够导致的程序异常(指 针异常、堆栈被破坏)等。上述原因发生在监控系统的核心服务进程时,会导致监控系统表 现出以下的特征:在线监控画面实时数据不刷新;产生的实时告警信息无法上传到操作员 站;无法下发遥控命令;报表中没有历史数据;无法查询出历史告警信息。
[0003] 因此,系统软件在发布前的测试很难保证没有任何问题,智能化的自诊断与自恢 复功能是非常有必要的。


【发明内容】

[0004] 本发明的目的是提供一种智能变电站系统自诊断与自恢复方法,保证系统的稳定 可靠运行,并为查找出系统异常原因提供可靠依据。
[0005] 为了实现以上目的,本发明所采用的技术方案是:一种智能变电站系统自诊断与 自恢复方法,包括如下步骤:
[0006] (1)监控系统是按照主机、备机双服务器热备用的方式运行的,监控服务器主机首 先进行本机核心进程的内存状况定时监测,定期获取系统核心进程站用内存大小,当其数 值超过预定的阈值且无下降趋势时启动自恢复;
[0007] (2)通过监控服务器主机与监控客户端之间的闭环自检检查实时数据处理流程和 消息数据处理流程是否正常,当监测异常次数累积超过预定阈值启动自恢复;
[0008] (3)自恢复启动后,进行双服务器的主备切换操作,且主机重启产生异常的服务进 程。
[0009] 在自恢复启动的同时系统启动异常断面信息录波功能,收集监控服务器主机、备 机和操作员站在异常时刻一段时间内的断面环境数据进行存储。
[0010] 通过监控服务器与监控客户端之间的闭环自检检测核心进程异常的过程如下:
[0011] (1)由监控服务器的主机产生不同类型的自检模拟数据,且各种类型的数据分别 按照预定规则变化,按照一定规约产生变化数据;
[0012] (2)监控客户端周期读取数据,并比较其是否按照预定规则产生变化,以此来验证 整个实时数据处理流程是否存在异常;
[0013] (3)监控客户端定时将自检结果报告给监控服务器主机。
[0014] 自恢复由监控服务器上的角色控制进程执行,在自恢复启动时,首先在主服务器 上触发,在接收到自恢复通知后,角色控制进程主动产生主备切换操作,将主机的本机角色 切换为备,并重启产生异常的核心进程。
[0015] 本发明的智能变电站系统自诊断与自恢复方法利用系统运行期基本的画面刷新、 数据刷新、告警上送等特性,在监控服务器主机和监控客户端之间形成闭环的定时自检功 能,当自检结果符合异常条件时,利用系统的热备特性,启动系统的自恢复策略,以保证系 统的长期运行可靠。
[0016] 在启动自恢复的同时开启系统录波功能,收集系统断面环境数据,保证系统的稳 定可靠运行,并为查找出系统异常原因、对系统异常状况的归纳分析提供了实时、准确的数 据依据。

【专利附图】

【附图说明】
[0017] 图1为本发明自诊断与自恢复方法架构图;
[0018] 图2为客户与服务自检逻辑流程图;
[0019] 图3为以系统网络节点为单位的录波数据结构。

【具体实施方式】
[0020] 下面结合附图及具体的实施例对本发明进行进一步介绍。
[0021] 针对监控服务器核心进程异常场景分析,归纳为内存泄露、异常退出(coredump)、 线程死锁、线程死循环和其他等五种类型。异常时导致的结果分别是:在线监控画面实时数 据不刷新、产生的告警无法上送至操作员站、无法下发控制命令、报表中查不到历史数据、 无法查询到历史告警信息等。对于应用进程的产生的死循环、进程死锁或线程死锁会导致 系统出现数据不刷新、命令无法下发现象。通过抓取线程的执行堆栈,并结合该线程的CPU 率,集合堆栈对应的设计源代码,可以通过人工分析的方式得出当前运行状况,但若是先自 动检测,则需对已有应用架构作出较大调整。针对核心进程运行中的各类异常以及业务应 用结果是否正常,本发明的设计的自检与恢复机制,监控系统是按照主机、备机双服务器热 备用的方式运行的,在监控服务器上部署自检应用服务模块,主机上的服务模块处于活动 状态,备机上的服务模块处于热备用状态;在监控客户端部署业务应用自检程序,如图1所 /Jn 〇
[0022] 本发明智能变电站系统自诊断与自恢复方法包括如下步骤:
[0023] (1)当应用进程产生的内存泄露较大时,会导致操作系统运行性能下降,因此监控 服务器主机的自检应用服务模块首先进行本机核心进程的内存状况定时监测,定期获取系 统核心进程站用内存大小,当其数值超过预定的阈值且无下降趋势时启动自恢复。
[0024] (2)通过监控服务器主机与监控客户端之间形成闭环的自检策略,用于检查实时 数据处理流程和消息数据处理流程是否正常,当监测异常次数累积超过预定阈值启动自恢 复,具体检测过程如下:
[0025] i、由监控服务器主机上的自检应用服务模块产生自检模拟数据,分别有模拟量 (yc)、状态量(yx)和控制量(yk)三种,如表1所示,在自检数据模拟模块中,上述模拟量、 状态量和控制量分别按照3秒、2秒和5秒的方式变化,按照一定规约产生变化数据,分别经 由业务服务的处理流程和消息传递流程进行流转。
[0026] 表1.自检数据一览表

【权利要求】
1. 一种智能变电站系统自诊断与自恢复方法,其特征在于,包括如下步骤: (1) 监控系统是按照主机、备机双服务器热备用的方式运行的,监控服务器主机首先进 行本机核心进程的内存状况定时监测,定期获取系统核心进程站用内存大小,当其数值超 过预定的阈值且无下降趋势时启动自恢复; (2) 通过监控服务器主机与监控客户端之间的闭环自检检查实时数据处理流程和消息 数据处理流程是否正常,当监测异常次数累积超过预定阈值启动自恢复; (3) 自恢复启动后,进行双服务器的主备切换操作,且主机重启产生异常的服务进程。
2. 根据权利要求1所述的智能变电站系统自诊断与自恢复方法,其特征在于:在自恢 复启动的同时系统启动异常断面信息录波功能,收集监控服务器主机、备机和操作员站在 异常时刻一段时间内的断面环境数据进行存储。
3. 根据权利要求1所述的智能变电站系统自诊断与自恢复方法,其特征在于,通过监 控服务器与监控客户端之间的闭环自检检测核心进程异常的过程如下: (1) 由监控服务器的主机产生不同类型的自检模拟数据,且各种类型的数据分别按照 预定规则变化,按照一定规约产生变化数据; (2) 监控客户端周期读取数据,并比较其是否按照预定规则产生变化,以此来验证整个 实时数据处理流程是否存在异常; (3) 监控客户端定时将自检结果报告给监控服务器主机。
4. 根据权利要求1所述的智能变电站系统自诊断与自恢复方法,其特征在于:自恢复 由监控服务器上的角色控制进程执行,在自恢复启动时,首先在主服务器上触发,在接收到 自恢复通知后,角色控制进程主动产生主备切换操作,将主机的本机角色切换为备,并重启 产生异常的核心进程。
【文档编号】G06F11/16GK104360918SQ201410544515
【公开日】2015年2月18日 申请日期:2014年10月15日 优先权日:2014年10月15日
【发明者】邱俊宏, 张海庭, 卫星, 吴正青, 李红, 李永照, 王广民, 陈可柯, 胡斌 申请人:许继电气股份有限公司, 许昌许继软件技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1