一种采用自检机制的业务监控与故障快速定位方法

文档序号:7892138阅读:222来源:国知局
专利名称:一种采用自检机制的业务监控与故障快速定位方法
技术领域
本发明涉及业务支撑系统的监控、分析、故障排除,特别是一种采用自检机 制的业务监控与故障快速定位方法。
背景技术
随着计算机技术的发展,各个公司的业务开始逐渐和计算机软硬件结合,根 据公司的业务建立模型,以计算机系统为核心,结合其他软硬件设施,定制形成 了公司的业务支撑系统。如通信行业的计费系统,银行的交易管理系统,网站的 交易、支付系统等,都是典型的业务支撑系统。
在业务支撑系统中,有些关键业务需要长时间稳定运行,在公司的运营中, 越早发现这些业务系统的故障,越早定位系统的故障点,就可以减少因系统故障 导致的运营损失。目前运用较多的为系统监控技术和故障字典方法来发现和定位 系统故障。
系统监控方法采用在系统设置检测点,通过专用的检测仪器、程序,将检测 数据与设定的阀值进行比较,如果超过阀值则可知该检测点设备出现故障。监控 方法多用于对系统中某一环节设备进行故障检测与告警。
故障字典方法采用预先根据系统测试,模拟各种系统故障,编制相应的故障 现象与故障定位情况字典,在出现故障时,根据检测到的故障现象查阅故障字典 实现故障定位。
系统监控方法需在系统设置检测点,使用专用的检测仪器或编写专用的检测 程序,实施时需对系统的各个环节进行改造,成本高;专用的检测仪器或检测程 序容易对被监控系统产生影响,检测仪器或检测程序本身出问题时,可能产生故 障误报,甚至破坏被监控系统。在现实中,在同一台主机上可能运行了很多业务 程序,这些业务可能相互独立,但任何一个业务程序出问题,可能都会导致监控 检查点检测到异常(如通常的cpu使用率、内存使用情况等监测指标异常),而从 这些异常指标又很难定位是哪个业务程序出了问题,也就是系统监控方法难以做 到按业务监控。采用系统监控的思想,对监控方法加以改进,按业务设置检査点,如检查业 务日志是否更新,业务的关键进程是否存在,在某段时间业务量是否达到闳值等, 能在一定程度上实现对业务的监控,但由于这些检査方法大多只能检査到状态量 (如日志更新/未更新、进程存在/不存在、超过阀值/未超过阀值),且这些指标 又与正常的业务量变化密切相关,故难以区分和判断检测到的状态变化是由于系 统异常引起还是业务量变化引起,监控的准确性难以保证,容易出现故障误报和 故障未报的现象。而这种方法最大的问题在于要定位故障,必须尽可能监控业务 流程的每一个环节,监控系统建设成本非常高。
故障字典方法需要在系统设计时即对可能出现的故障进行周密的考虑,并预
先进行大量测试,模拟系统故障情况,编写故障字典,故也存在成本高的问题; 故障字典根据故障现象往往还无法定位故障,需要使用测量等各种辅助手段,在
需要测量等辅助手段时即无法准确定位故障点,而测量等辅助手段往往又增加了 系统排故成本,并可能对系统会产生不良影响;故障字典方法的另一个大问题是 无法检测和定位未知故障,在故障现象超出故障字典范围时,这一方法便不再有 效。
更为重要的是,系统监控和故障字典方法对现已有的业务支撑系统,实现起 来多存在问题,因为当初的市场形势所迫,可能业务支撑系统设计时并未考虑测 量点,新增测量点可能对原系统改造较大,实施困难;由于开发进度所限,可能 并未考虑建立故障字典以及故障字典的编码索引(如故障编码),重新建立故障编 码可能也需要进行较多的系统改造,故障字典的编制和使用就存在较大的困难。

发明内容
本发明为解决上述问题,提出了一种采用自检机制的业务监控与故障快速定 位方法,可以在最少对原系统的改造的基础上实现对业务支撑系统的业务监控与 故障快速定位,从而减少企业的成本支出,具有很强的实用性。
一种采用自检机制的业务监控与故障快速定位方法,其特征在于通过虚拟 用户关键ID产生自检业务请求,业务支撑系统对自检业务请求进行处理,然后采 集自检业务请求触发的系统反馈结果,同时以虚拟用户关键ID作为搜索关键字在 业务支撑系统各业务处理环节的日志中进行搜索,最后根据系统反馈结果和搜索 结果,对比正常业务请求的相关情况,判断系统健康状况、根据对比得出的差异 情况定位系统故障点。所述定位系统故障点是从发现差异情况的位置逐层往上寻找起始差异点,从 而确定系统的故障点。
所述虚拟用户ID是自检业务请求标识,或者是自检业务请求标识与自检业务 请求的发起时间信息的混合编码形成的。
所述虚拟用户关键ID与业务支撑系统处理用户请求时,使用的用户关键ID 相似。如在电信系统,使用电话号码作为系统处理用户各种业务请求的关键ID, 在混合编码时,形成的虚拟用户关键ID应该与电话号码尽可能相似;又如在银行 系统,使用用户的银行帐号作为处理用户各种业务请求的关键ID,在混合编码时,
形成的虚拟用户关键ID应该与用户帐号尽可能相似;在网上交易系统中,以用户
注册ID (如淘宝网注册的支付宝帐号)作为处理用户请求的关键ID,则在混合编 码时,形成的虚拟用户关键ID应该与用户注册ID尽可能相似。
所述自检业务请求是用于检査系统的业务请求,自检业务请求与用户正常发 起的业务请求相同或相似的请求。
自检业务请求可以通过专用的模拟器、自动测试软件或真实的用户发起产生, 如在电信运营商的使用短信完成充值的空中充值系统,可以编写一个短信收发的 模拟器,发送充值短信到业务支撑系统,也可以使用测试号码(真实的用户)向 业务支撑系统发送充值短信;又如营业厅前台或网上营业厅业务,可以使用自动 测试软件发起自检业务请求。
所述自检业务请求标识是指自检业务请求可以区分正常业务请求和自检业务 请求的特征。例如,向电信业务支撑系统中发起自检业务请求,发起请求的测试 号码编码的全部或一部分(电话号码或号段),这时自检业务请求标识即可以是该 测试号码或号段;又例如短信收发模拟器产生的虚拟号码的全部或一部分,如特 定的虚拟号码,或以"9"开头/结尾/居中某一位(或以其他数字、字符及其所处 位置为特征的虚拟号码),这时,自检业务请求标识即可以是该特定的虚拟号码, 或以"9"开头/结尾/居中的号码(或以其他数字、字符及其所处位置为特征的虚 拟号码)。
所述自检业务请求的发起时间信息是在发起自检业务时可记录的以编码、字 符串等形式的精确或模糊的时间信息,如在2008年3月17日10点41分10秒发 起的自检业务请求,其发起时间信息可记录为20080317104110,或省略年、秒记 录为03in041,以及10: 41: 10, 10: 41等形式根据实际情况都可采用。所述采集自检业务请求触发的系统反馈结果在收集业务支撑系统对自检业务 请求进行处理而生成的处理结果记录,或处理请求过程中向业务请求端反馈的处 理结果信息。采集的方法可以使用真实的用户终端接收,或使用专用的模拟器接 收,或使用合适的设备、仪器读取处理结果记录。
所述各业务处理环节的日志在系统处理业务请求时所记录的处理过程以及结 果的信息,日志可以以文件、数据库或其他可以保存信息的形式存在。
所述搜索利用操作系统搜索/査找命令(如gr印命令),数据库SQL语句 (select语句),或搜索程序对系统各业务请求处理的各环节的日志进行搜索。
在搜索的时候,以自检业务请求标识与自检业务请求的发起时间信息的混合 编码形成的虚拟用户关键ID作为搜索关键字或搜索条件。
所述根据系统反馈结果和搜索结果,对比正常业务请求的相关情况,来判断 系统健康状况、定位系统故障点,根据自检业务请求触发的系统反馈结果和在各 环节日志搜索的结果,对比正常业务请求触发的系统反馈结果和日志记录,可以 判断系统健康状况、定位系统故障点。如根据系统反馈结果的时间和内容,对比 正常业务反馈结果所需的时间、应该反馈的内容,可以判断系统处理是否正常; 根据各环节日志的搜索结果,对比正常业务的处理所需时间、记录内容等信息, 可以判断在该环节系统是否正常;将各环节搜索结果串起来,经过简单的对比分 析,可以快速定位故障点。如业务支撑系统处理一笔业务请求需要依次经过A、 B、 C三个环节,如在A环节搜索到自检业务请求的正常处理日志记录,而在B、 C环 节搜索无记录,则可快速判断系统故障在B环节。又如在A环节搜索到处理日志 记录有与正常情况相比有延时,在B、 C环节可以看到大致相同的延时,可知系统 在A环节发生了业务积压或其他导致处理延时的问题。
设置不同的自检业务请求序列,根据各自检业务请求序列(模拟不同的并发 业务量情况)的系统反馈结果和日志搜索结果,还可以准确建立业务量-系统性能 模型,从而结合历史业务量趋势情况,对将来的系统超负荷的时间点做出预判, 可以有充足的时间提前准备扩容、优化等工作。
采用本发明方法,根据实际需要,还可采用定时发起自检业务请求,实现对 系统的实时/准实时监控,如每分钟发起一笔自检业务请求,接收端也应该每分钟 收到一笔自检业务请求触发的系统反馈,系统各环节也应该以分钟为频率记录处 理日志,如偏离正常范围,则可产生监控告警。也可设定一个发起自检业务请求的时间序列(时间序列可以根据实际业务情况建立模型得到),在设定的时间序列 点发起自检业务请求,再以这些自检业务请求和其触发的系统反馈信息进行监控 和故障定位,以达到更加实用、有效的监控和故障快速定位效果。 本发明优点如下
1、 本发明可实现按业务监控系统健康状况;
2、 不需要专门的检测、监控设备,可利用现有系统的日志记录、搜索命令等 已有资源,对现系统改造小,甚至不需改造。故成本低,可推广性强,也不会出 现因监控测量影响被监控系统的风险;
3、 不需进行大量的测试,编制故障字典,可根据自检业务请求触发的系统反 馈和日志记录对比正常情况快速定位故障;
4、 采用将自检业务请求标识与自检业务请求的发起时间信息的混合编码,形 成的虚拟用户关键ID的方法,可最大限度较少对原系统的改造,模拟真实的用户 请求处理过程;
5、 可更准确识别监控指标异常是由于正常业务量影响还是系统故障影响,减 少监控的故障误报和故障不报现象;
6、 使用本发明可以在生产系统上采集系统性能数据,不影响系统的正常业务 处理,不需购置和生产系统相似的镜像系统。
具体实施方式
实施例1
一种采用自检机制的业务监控与故障快速定位方法,通过虚拟用户关键ID产 生自检业务请求,业务支撑系统对自检业务请求进行处理,然后采集自检业务请 求触发的系统反馈结果,同时以虚拟用户关键ID作为搜索关键字在业务支撑系统 各业务处理环节的日志中进行搜索,最后根据系统反馈结果和搜索结果,对比正 常业务请求的相关情况,判断系统健康状况、根据对比得出的差异情况定位系统 故障点。
所述定位系统故障点是从发现差异情况的位置逐层往上寻找起始差异点,从 而确定系统的故障点。
所述虚拟用户ID是自检业务请求标识,或者是自检业务请求标识与自检业务 请求的发起时间信息的混合编码形成的。
所述虚拟用户关键ID与业务支撑系统处理用户请求时,使用的用户关键ID相似。如在电信系统,使用电话号码作为系统处理用户各种业务请求的关键ID, 在混合编码时,形成的虚拟用户关键ID应该与电话号码尽可能相似;又如在银行 系统,使用用户的银行帐号作为处理用户各种业务请求的关键ID,在混合编码时, 形成的虚拟用户关键ID应该与用户帐号尽可能相似;在网上交易系统中,以用户 注册ID (如淘宝网注册的支付宝帐号)作为处理用户请求的关键ID,则在混合编 码时,形成的虚拟用户关键ID应该与用户注册ID尽可能相似。
所述自检业务请求是用于检査系统的业务请求,自检业务请求与用户正常发 起的业务请求相同或相似的请求。
自检业务请求可以通过专用的模拟器、自动测试软件或真实的用户发起产生, 如在电信运营商的使用短信完成充值的空中充值系统,可以编写一个短信收发的 模拟器,发送充值短信到业务支撑系统,也可以使用测试号码(真实的用户)向 业务支撑系统发送充值短信;又如营业厅前台或网上营业厅业务,可以使用自动 测试软件发起自检业务请求。
所述自检业务请求标识是自检业务请求区分正常业务请求和自检业务请求的 特征。例如,向电信业务支撑系统中发起自检业务请求,发起请求的测试号码编 码的全部或一部分(电话号码或号段),这时自检业务请求标识即可以是该测试号 码或号段;又例如短信收发模拟器产生的虚拟号码的全部或一部分,如特定的虚 拟号码,或以"9"开头/结尾/居中某一位(或以其他数字、字符及其所处位置为 特征的虚拟号码),这时,自检业务请求标识即可以是该特定的虚拟号码,或以"9" 开头/结尾/居中的号码(或以其他数字、字符及其所处位置为特征的虚拟号码)。
所述自检业务请求的发起时间信息是指在发起自检业务时可记录的以编码、 字符串等形式的精确或模糊的时间信息,如在2008年3月17日10点41分10秒 发起的自检业务请求,其发起时间信息可记录为20080317104110,或省略年、秒 记录为03171041,以及10: 41: 10, 10: 41等形式根据实际情况都可采用。
所述采集自检业务请求触发的系统反馈结果是收集业务支撑系统对自检业务 请求进行处理而生成的处理结果记录,或处理请求过程中向业务请求端反馈的处 理结果信息。采集的方法可以使用真实的用户终端接收,也可使用专用的模拟器 接收,或使用合适的设备、仪器读取处理结果记录。
所述各业务处理环节的日志在系统处理业务请求时所记录的处理过程以及结 果的信息,日志可以以文件、数据库或其他可以保存信息的形式存在。所述搜索利用操作系统搜索/査找命令(如gr印命令),数据库SQL语句 (select语句),或搜索程序对系统各涉及业务请求处理的各环节的日志进行搜 索。
所述以虚拟用户关键ID作为搜索关键字,是指在搜索的时候,以自检业务请 求标识与自检业务请求的发起时间信息的混合编码形成的虚拟用户关键ID作为搜 索关键字或搜索条件。
所述根据系统反馈结果和搜索结果,对比正常业务请求的相关情况,来判断 系统健康状况、定位系统故障点,是指根据自检业务请求触发的系统反馈结果和 在各环节日志搜索的结果,对比正常业务请求触发的系统反馈结果和日志记录, 可以判断系统健康状况、定位系统故障点。如根据系统反馈结果的时间和内容, 对比正常业务反馈结果所需的时间、应该反馈的内容,可以判断系统处理是否正 常;根据各环节日志的搜索结果,对比正常业务的处理所需时间、记录内容等信 息,可以判断在该环节系统是否正常;将各环节搜索结果串起来,经过简单的对 比分析,可以快速定位故障点。如业务支撑系统处理一笔业务请求需要依次经过A、 B、 C三个环节,如在A环节搜索到自检业务请求的正常处理日志记录,而在B、 C 环节搜索无记录,则可快速判断系统故障在B环节。又如在A环节搜索到处理日 志记录有与正常情况相比有延时,在B、 C环节可以看到大致相同的延时,可知系 统在A环节发生了业务积压或其他导致处理延时的问题。
采用本发明方法,根据实际需要,还可采用定时发起自检业务请求,实现对 系统的实时/准实时监控,如每分钟发起一笔自检业务请求,接收端也应该每分钟 收到一笔自检业务请求触发的系统反馈,系统各环节也应该以分钟为频率记录处 理日志,如偏离正常范围,则可产生监控告警。也可设定一个发起自检业务请求 的时间序列(时间序列可以根据实际业务情况建立模型得到),在设定的时间序列 点发起自检业务请求,再以这些自检业务请求和其触发的系统反馈信息进行监控 和故障定位,以达到更加实用、有效的监控和故障快速定位效果。 实施例2
电信业务支撑系统空中充值业务自检与故障快速定位系统。 空中充值业务在BOSS侧需经过较多环节的处理,如短信接收、短信解析、中
间件、充值服务、帐务到帐、短信下发等,在日常维护中,如何快速发现和定位 故障对保障系统稳定高效运行具有非常重要的作用。采用自检业务请求识别与自检业务请求的时间的混合编码,以208作为自检 业务请求标识,自检业务请求的时间和识别码以直接连接方式混合编码,如2008 年3月10日11点15分的自检业务请求混合编码为20803101115,与手机号同为 ll位数字,便于系统处理。
在BOSS短信网关前端设置短信收发模拟器,模拟器定时(如每5分钟或1分 钟,可根据情况设置间隔)产生"侦察兵"业务请求短信(即自检业务请求),送 至系统各个环节进行处理,在BOSS下发"侦察兵"业务请求触发的短信(充值成 功或错误)至短信中心前,使用模拟器接收。根据模拟器接收的自检业务请求处 理情况,可判断系统是否正常(并可根据实际情况生成各个等级预警,启动相应 的处理流程),在不正常的时候,在各环节日志搜索不正常时刻的自检业务请求混 合编码,可快速定位系统故障点。
如2008年3月10日11点15分产生一条充值短信,进入系统后,在系统的 各个环节即会产生20803101115为标识的日志记录,在充值成功时,产生号码 20803101115的到帐记录,触发下发到帐成功短信(失败时则触发失败短信),经 过短信下行的各个环节处理,最后到达短信收发模拟器。在系统正常时, 20803101115的充值成功短信应该在正常的时间范围内到达模拟器,如果不在正常 范围,则可对各环节的日志以20803101115为标识进行搜索,根据搜索结果快速 定位在哪个环节出现故障点。如在短信接收环节可发现为20803101115充值的正 常的短信接收记录,在短信解析环节发现处理有延时,可定位故障在短信解析环 节,从而进行相应的排故工作。
权利要求
1、一种采用自检机制的业务监控与故障快速定位方法,其特征在于通过虚拟用户关键ID产生自检业务请求,业务支撑系统对自检业务请求进行处理,然后采集自检业务请求触发的系统反馈结果,同时以虚拟用户关键ID作为搜索关键字在业务支撑系统各业务处理环节的日志中进行搜索,最后根据系统反馈结果和搜索结果,对比正常业务请求的相关情况,判断系统健康状况、根据对比得出的差异情况定位系统故障点。
2、 根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法,其特征在于所述定位系统故障点是从发现差异情况的位置逐层往上寻找起始差 异点,从而确定系统的故障点。
3、 根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法, 其特征在于所述虚拟用户ID是自检业务请求标识,或者是自检业务请求标识与 自检业务请求的发起时间信息的混合编码形成的。
4、 根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法, 其特征在于所述自检业务请求是用于检查系统的业务请求,自检业务请求与用 户正常发起的业务请求相同或相似的请求。
5、 根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法, 其特征在于所述发起自检业务时,发起时间信息就是记录的以编码、字符串等 形式的精确或模糊的时间信息。
6、 根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法, 其特征在于所述采集自检业务请求触发的系统反馈结果是收集业务支撑系统对 自检业务请求进行处理而生成的处理结果记录,或处理请求过程中向业务请求端 反馈的处理结果信息。
7、 根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法, 其特征在于所述各业务处理环节在系统处理业务请求时所记录的处理过程以及 结果的信息为日志,所述日志以文件、数据库或其他可以保存信息的形式存在。
8、 根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法, 其特征在于所述搜索利用操作系统搜索/査找命令,数据库SQL语句,或搜索程 序对系统各涉及业务请求处理的各环节的日志进行搜索。
9、根据权利要求1所述的一种采用自检机制的业务监控与故障快速定位方法, 其特征在于所述根据系统反馈结果和搜索结果,对比正常业务请求的相关情况, 根据自检业务请求触发的系统反馈结果和在各环节日志搜索的结果,对比正常业 务请求触发的系统反馈结果和日志记录得出差异情况,然后通过差异情况判断系 统健康状况、定位系统故障点。
全文摘要
本发明公开了一种采用自检机制的业务监控与故障快速定位方法,其特征在于将自检业务请求标识与自检业务请求的发起时间信息的混合编码形成虚拟用户关键ID,通过虚拟用户关键ID产生自检业务请求,业务支撑系统对自检业务请求进行处理,然后采集自检业务请求触发的系统反馈结果,同时以虚拟用户关键ID作为搜索关键字在业务支撑系统各业务处理环节的日志中进行搜索,最后根据系统反馈结果和搜索结果,对比正常业务请求的相关情况,判断系统健康状况、定位系统故障点;本发明可以在最少对原系统的改造的基础上实现对业务支撑系统的业务监控与故障快速定位,从而减少企业的成本支出,具有很强的实用性。
文档编号H04L12/24GK101420340SQ20081014772
公开日2009年4月29日 申请日期2008年11月28日 优先权日2008年11月28日
发明者徐苛杰 申请人:中国移动通信集团四川有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1