一种分布式业务系统故障告警的方法、系统和装置的制作方法

文档序号:7921579阅读:367来源:国知局
专利名称:一种分布式业务系统故障告警的方法、系统和装置的制作方法
技术领域
本发明涉及计算机技术领域,特别涉及一种分布式业务系统故障告警的 方法、系统和装置。
背景技术
对于大型的关键的业务系统,如金融系统、电子商务系统、电子支付系 统等,当系统的某些地方出现故障,如业务规则不匹配、网络不通、数据库 异常等,此时如果不及时进行处理,很可能会产生非常严重的后果。例如, 对于一个大型银行软件业务系统,通常都会有緩存来提高系统性能。当緩存 中的数据与数据库中的数据不一致时,如果不能及时发现并处理,很可能会 产生资金损失。
目前解决这类问题的主要办法就是记录日志,通过日志分析来发现问题。
这种方式存在很多弊端
1、 时效性差
通过日志分析的方式时效性非常差,往往在问题产生很久以后,甚至在 出现重大损失时才能够发现问题。由此,发现问题的成本往往非常高,通常 都是在产生严重后果并有人4艮告时才被发现。
2、 不够灵活
无法灵活配置由谁来处理问题,通过什么方式来通知处理人等。只能安 排某个固定的人定期对日志进行分析。

发明内容
本发明实施例提供的一种分布式业务系统故障告警的方法、系统和装置, 以使业务系统在出现系统故障时,能够及时地将告警信息通知给相关人员。 本发明实施例提供的一种业务系统故障告警的方法,包括 接收来自分布式业务系统的告警信号; 从所述告警信号中获取告警内容和告警业务类型;根据所述告警业务类型获取接收告警内容的至少一个接收端和发送方式信息;将包含所述告警内容的告警信息通过所述发送方式发送给所述接收端。其中,所述接收到的告警信号直接来自发生故障的分布式业务系统;或者,由设置在分布式业务系统内的客户端采集业务系统的故障信息,所述接收到的告警信号来自所述客户端。其中,进一步包括对所发送的告警信息进行流量控制。其中,所述发送方式包括以下所述发送方式之一或任意组合邮件、短消息、语音。本发明实施例提供的一种分布式业务系统故障告警的系统,包括 至少一个独立于告警系统的业务系统,用于发出告警信号; 告警系统,用于接收来自所述业务系统的告警信号,从所述告警信号中 获取告警内容和告警业务类型;根据所述告警业务类型获取接收告警内容的 至少一个接收端和发送方式信息;将包含所述告警内容的告警信息通过所述 发送方式发送给所述接收端。其中,所述告警系统还用于对所发送的告警信息进行流量控制。 本发明实施例提供的一种告警系统,包括配置管理单元,用于保存告警业务类型,与告警业务类型对应的接收告 警内容的接收端,以及与告警业务类型对应的发送方式信息;告警服务单元,用于接收来自分布式业务系统的告警信号,将所述告警 信号传送给告警控制器单元;所述告警控制器单元,用于从所述告警信号中获取告警内容和告警业务 类型,根据所述告警业务类型从配置管理单元获取接收告警内容的至少一个 接收端和发送方式信息;指示消息发送器单元进行^喿作;消息发送器单元,用于根据接收到的指示将包含所述告警内容的告警信 息通过所述发送方式发送给所述接收端。其中,所述配置管理单元,还用于保存发送方式所对应的发送频率;所述告警系统还包括流量控制单元,用于根据所述发送频率,对所发送的告警信息进行流量 控制。
其中,所述告警系统还包括至少一个客户端,每个客户端用于接收其 所在业务系统的故障信息,将采集到的故障信息转换为告警信号后发送至告 警服务单元。
其中,所述配置管理单元和流量控制单元位于同一物理模块,或分别位 于不同的物理^t块。
应用本发明,使得在业务系统出现系统故障时,能够及时地将告警信息 通知给相关人员,提高了告警的时效性,避免了在系统故障产生很久以后, 甚至在出现重大损失时才发现问题所造成的损失。由于本发明可以灵活配置 由什么人接收告警信息,接收的方式是什么,因而可使实现方式更灵活。本 发明不但具有很好的时效性和灵活性,而且实现方式简单。
再有,由于本发明中的告警系统和业务系统是独立部署的,不在同一个 设备上,因而一套告警设备可以为多个业务系统提供服务,节约了整个系统 的成本,同时,由于不需每个业务系统都具备一套相似告警系统,也简化了 业务系统,大大节约了各业务系统本身的成本。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是是根据本发明实施例的业务系统故障告警系统的结构示意图2是根据本发明实施例的告警系统的结构示意图3是才艮据本发明实施例的业务系统故障告警方法的流程图。
具体实施例方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为更清楚地说明本发明,下面首先介绍几个概念系统故障指软件系统在某些特定的情况下出现了问题,如业务规则不 匹配、网络不通、数据异常等。当出现这类问题的时候,系统很可能已经无 法正常工作。如果不能及时地发现这些问题,很可能会造成严重的后果。告警指通过短信、邮件、即时通讯软件、语音等方式向指定的人发出 信息。该信息内容包含系统发生的故障的详细信息。分布式指告警系统和业务系统是独立部署的,不在同一个机器上。本发明实施例提供的一种业务系统故障告警的方法,可以应用于金融系 统、电子商务系统或其他系统,包括接收来自分布式业务系统的告警信号, 从所述告警信号中获取告警内容和告警业务类型;才艮据所述告警业务类型获 取接收告警内容的至少一个接收端和发送方式信息;将包含所述告警内容的 告警信息通过所述发送方式发送给所述接收端。应用本发明,使得在业务系 统出现系统故障时,能够及时地将告警信息通知给相关人员,提高了告警的 时效性,避免了在系统故障产生很久以后,甚至在出现重大损失时才发现问 题所造成的损失。由于本发明可以灵活配置由什么人接收告警信息,接收的 方式是什么,因而可使实现方式更灵活。本发明不但具有很好的时效性和灵 活性,而且实现方式简单。由于本发明中的告警系统和业务系统是独立部署 的,不在同一个设备上,因而一套告警设备可以为多个业务系统提供服务, 节约了整个系统的成本,同时,由于不需每个业务系统都具备一套相似告警 系统,也简化了业务系统,大大节约了各业务系统本身的成本。参见图1,其是才艮据本发明实施例的一种业务系统故障告警的系统,可 以应用于金融系统、电子商务系统或其他领域的业务系统,包括至少一个独立于告警系统的业务系统101,用于发出告警信号;该告警 信号可以通过调用告警系统内的告警服务的方式直接发送给告警系统,或者, 在每个分布式的独立于告警系统的业务系统内设置用于告警的客户端,该客户端采集业务系统的故障信息,然后由该客户端调用告警系统内的告警服务, 从而将告警信号发送给告警系统,即通过用于告警的客户端发送告警信号。告警系统102,用于接收来自所述业务系统的告警信号,从所述告警信
号中获取告警内容和告警业务类型;根据所述告警业务类型获取告警内容的 至少一个接收端和发送方式信息;将包含所述告警内容的告警信息通过所述 发送方式发送给所述接收端。
上述告警系统102还用于对所发送的告警信息进行流量控制。
应用本发明所述业务系统故障告警的系统,当业务系统中的故障检测单 元检测出业务系统出现故障时(业务规则不匹配、网络不通等),可以用告警 系统的客户端向告警系统发送一个消息,请求相关的人员进行处理。使得在 业务系统出现系统故障时,能够及时地将告警信息通知给相关人员,提高了 告警的时效性,避免了在系统故障产生很久以后,甚至在出现重大损失时才 发现问题所造成的损失。再有,由于本发明可以灵活配置由什么人接收告警 信息,接收的方式是什么,因而可使实现方式更灵活。本发明不但具有4艮好 的时效性和灵活性,而且实现方式简单。
参见图2,其是根据本发明实施例的告警系统的结构示意图。所述告警系 统可以应用于金融系统、电子商务系统或其他领域的业务系统,其包括
配置管理单元204,用于保存告警业务类型,与告警业务类型对应的接 收告警内容的接收端,以及与告警业务类型对应的发送方式信息;比如,配
置管理单元可以保存某个或某些告警业务类型,以及与某个或某些告警业务 类型对应的发送告警内容的发送方式、接收端等配置信息;该配置管理单元 还可以保存某个或某种发送方式的发送频率等配置信息。此外,配置管理单 元还提供了一个管理界面,通过该管理界面可以实时地修改及新增所需要的 配置信息,而且修改后的配置会立即生效。
告警服务单元202,用于接收来自分布式业务系统的告警信号,将所述 告警信号传送给告警控制器单元;告警服务单元是告警系统对外提供的服务, 业务系统可以直接调用这个告警服务单元进行告警,但更好的^L法是通it^ 户端来调用这个告警服务单元进行告警,因为客户端封装了告警系统的消息 传输细节,不需要业务系统本身再对告警信号按照告警系统的要求进行封装 处理。
告警控制器单元201,用于从所述告警信号中获取告警内容和告警业务类型,根据所述告警业务类型从配置管理单元获取接收告警内容的至少一个接收端和发送方式信息;指示消息发送器单元进行操作;告警控制器单元是 告警系统的中枢神经,负责协调消息发送器单元、流量控制单元等来合理的 发送告警信息。告警控制器单元会从告警信号中获取告警内容及告警业务类 型,然后根据告警业务类型从配置管理单元中查找相应的消息接收端及消息 发送方式,最后调用消息发送器单元将告警消息发送给指定的接收端。消息发送器单元203,用于根据接收到的指示将包含所述告警内容的告 警信息通过所述发送方式发送给所述接收端。上述消息发送器单元可以包括但不限于以下之一或任意组合邮件发送 器单元,短信发送器单元、语音发送器单元。由于配置管理单元204还用于保存发送方式所对应的发送频率;因此, 所述告警系统还可以包括流量控制单元205,用于根据所述发送频率,对 所发送的告警信息进行流量控制。流量控制单元负责对消息发送的频率进行 控制,避免短时间发送大量的消息,导致信息风暴。具体的,可以对每个告 警业务类型所对应的每种发送方式进行流量控制,如对于业务系统1的告警 信息,每10分钟最多只能发送2个短信,10分钟内如果超过2个则不发送; 每5个小时内可以发送10封邮件,5个小时内如果超过10封则不发送。上述告警系统还可以包括至少一个客户端206,每个客户端用于接收 其所在业务系统的故障信息,将采集到的故障信息转换为告警信号后发送至 告警服务单元。告警客户端是为业务系统提供的一个便利工具,使业务系统 在需要告警时能够非常方便的调用。客户端负责将业务系统发出的告警消息 通过指定的协议或方式传送给告警系统,客户端封装了告警系统的消息传输 细节。在实际应用中,上述配置管理单元和流量控制单元位于同一物理才莫块, 也可以分别位于不同的物理模块。应用本发明所述的告警系统,当业务系统出现故障时(业务规则不匹配、 网络不通等),可以用告警系统的客户端向告警系统发送一个消息,请求相关 的人员进行处理。告警系统和业务系统分布式独立部署,可以同时为多个业 务系统提供告警服务。告警系统中的配置管理单元,可以对告警系统进行配置,如针对某种类 型的业务,将告警信息发送给哪些人、通过什么方式发送、发送告警信息的 频率是多少等,这些配置都可以在系统运行时动态更新,如此可以做到对业 务系统没有任何侵入,业务系统只管在发生故障问题时发出一个消息,至于
最终发送给谁以及通过什么方式发送都由告警系统的配置管理单元来配置;
告警系统中的流量控制单元,可以控制告警信息的发送频率,避免在短时间
内频繁发送告警信息,产生信息风暴,而告警频率由配置管理单元设定;告 警系统中的消息发送器单元,负责将告警信息通过指定的方式发送给指定的 人。消息接受人及信息发送方式都由配置管理单元来配置,对于一个告警信 息,可以通过多种方式进行发送,针对每种发送方式都可以同时发送给多个 人。
应用本发明所述的告警系统,使得在业务系统出现系统故障时,能够及 时地将告警信息通知给相关人员,提高了告警的时效性,避免了在系统故障 产生很久以后,甚至在出现重大损失时才发现问题所造成的损失。再有,由 于本发明可以灵活配置由什么人接收告警信息,接收的方式是什么,因而可 使实现方式更灵活。本发明不4旦具有很好的时效性和灵活性,而且实现方式 简单。再有,由于本发明中的告警系统和业务系统是独立部署的,不在同一 个设备上,因而一套告警设备可以为多个业务系统提供服务,节约了整个系 统的成本,同时,由于不需每个业务系统都具备一套相似告警系统,也简化 了业务系统,大大节约了各业务系统本身的成本。
需要说明的是,告警控制器单元201会维护一个消息队列,当有多个业务 系统或业务系统中的客户端调用告警系统中的告警服务时,告警控制器会将 接收到的告警信号作为消息保存到所维护的消息队列中,之后告警控制单元
息。如果消息队列已满或达到接收阈值,则告警控制器单元将所述消息队列 中未处理的告警信号取出存入数据库中,待系统空闲或有能力处理时,再从 所述数据库中取出未处理的告警信号进行处理。上述数据库可以位于内存中, 也可以为于硬盘中。因而,应用本发明不存在多个业务系统之间的告警冲突 问题。参见图3,其是才艮据本发明实施例的业务系统故障告警方法的流程图。其可以应用于金融系统、电子商务系统或其他领域的业务系统,具体包括步骤l,通过配置管理单元用于保存告警业务类型,与告警业务类型对应的接收告警内容的接收端,以及与告警业务类型对应的发送方式信息;比如, 可以令配置管理单元保存某个或某些告警业务类型,以及与某个或某些告警 业务类型对应的发送告警内容的发送方式、接收端等配置信息;该配置管理 单元还可以保存某个或某种发送方式的发送频率等配置信息。此外,配置管 理单元还提供了 一个管理界面,通过该管理界面可以实时地修改及新增所需 要的配置信息,而且修改后的配置会立即生效。步骤2 3,业务系统发出告警信号;该告警信号和通过调用告警系统内 的告警服务直接发送给告警系统,或者,在每个分布式的独立于告警系统的 业务系统内设置用于告警的客户端,该客户端采集业务系统的故障信息,然 后调用告警系统内的告警服务,从而将告警信号发送给告警系统,即通过用 于告警的客户端发送告警信号。本实施例中采用通过客户端发送告警信号的方式,即业务系统通过客户 端将告警信号发送给告警系统的告警控制器单元。步骤4,告警控制器单元接收到来自业务系统的告警信号后,从所述告警 信号中获取告警内容和告警业务类型,根据所述告警业务类型从配置管理单 元获取接收告警内容的至少一个接收端和发送方式信息;并且,告警控制器 单元还可以进一步从配置管理单元中获取该告警业务类型所对应的发送频率 即流量。步骤5,告警控制器单元指示流量控制单元根据所述发送频率,对所发送 的告警信息进行流量控制。这样做的好处是,可以避免短时间发送大量的消 息,导致信息风暴。具体的,可以对每个告警业务类型所对应的每种发送方 式进行流量控制,如对于业务系统l的告警信息,每10分钟最多只能发送2个 短信,10分钟内如果超过2个则不发送;每5个小时内可以发送10封邮件,5 个小时内如果超过10封则不发送。步骤6 7,告警控制器单元指示消息发送器单元进行操作;消息发送器 单元2根据接收到的指示将包含所述告警内容的告警信息通过所述发送方式发送给所述接收端。对于一个告警信息,可以通过多种方式进行发送,针对 每种发送方式都可以同时发送给多个接收端,也就是说,每种发送方式都可 以同时发送给多个人。所述发送方式包括但不限于以下所述发送方式之一或任意组合通过邮 件方式发送、通过短消息方式发送、通过语音方式发送。应用本发明所述的告警方法,使得在业务系统出现系统故障时,能够及 时地将告警信息通知给相关人员,提高了告警的时效性,避免了在系统故障 产生很久以后,甚至在出现重大损失时才发现问题所造成的损失。再有,由 于本发明可以灵活配置将告警信息发送给哪些人、通过什么方式发送、发送 告警信息的频率是多少,对于一个告警信息,可以通过多种方式进行发送, 针对每种发送方式都可以同时发送给多个人,因而可使实现方式更灵活。本 发明不但具有很好的时效性和灵活性,而且实现方式简单。再有,由于本发 明中的告警系统和业务系统是独立部署的,不在同一个设备上,因而一套告 警设备可以为多个业务系统提供服务,节约了整个系统的成本,同时,由于 不需每个业务系统都具备一套相似告警系统,也简化了业务系统,大大节约 了各业务系统本身的成本。需要说明的是,告警控制器单元会维护一个消息队列,当有多个业务系 统或业务系统中的客户端调用告警系统中的告警服务时,告警控制器会将接 收到的告警信号作为消息保存到所维护的消息队列中,之后告警控制单元会息。如果消息队列已满或达到接收阈值,则告警控制器单元将所述消息队列 中未处理的告警信号取出存入数据库中,待系统空闲或有能力处理时,再从 所述数据库中取出未处理的告警信号进行处理。上述数据库可以位于内存中, 也可以为于硬盘中。因而,应用本发明不存在多个业务系统之间的告警冲突 问题。本发明实施例中所述的业务系统可以是金融系统中、电子商务系统中的 某个业务系统或其他领域的某个业务系统,如支付宝业务系统等。骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范 围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均 包含在本发明的保护范围内。
权利要求
1、一种分布式业务系统故障告警的方法,其特征在于,包括接收来自分布式业务系统的告警信号;从所述告警信号中获取告警内容和告警业务类型;根据所述告警业务类型获取接收告警内容的至少一个接收端和发送方式信息;将包含所述告警内容的告警信息通过所述发送方式发送给所述接收端。
2、 根据权利要求1所述的方法,其特征在于, 所述接收到的告警信号直接来自发生故障的分布式业务系统;或者, 由设置在分布式业务系统内的客户端釆集业务系统的故障信息,所述接收到的告警信号来自所述客户端。
3、 根据权利要求1所述的方法,其特征在于,进一步包括对所发送的 告警信息进行流量控制。
4、 根据权利要求1所述的方法,其特征在于,所述发送方式包括以下所 述发送方式之一或任意组合邮件、短消息、语音。
5、 一种分布式业务系统故障告警的系统,其特征在于,包括 至少 一个独立于告警系统的业务系统,用于发出告警信号; 告警系统,用于接收来自所述业务系统的告警信号,从所述告警信号中获取告警内容和告警业务类型;根据所述告警业务类型获取告警内容的至少 一个接收端和发送方式信息;将包含所述告警内容的告警信息通过所述发送 方式发送给所述接收端。
6、 根据权利要求5所述的系统,其特征在于,所述告警系统还用于对所 发送的告警信息进行流量控制。
7、 一种告警系统,其特征在于,包括配置管理单元,用于保存告警业务类型,与告警业务类型对应的接收告 警内容的接收端,以及与告警业务类型对应的发送方式信息;告警服务单元,用于接收来自分布式业务系统的告警信号,将所述告警 信号传送给告警控制器单元;所述告警控制器单元,用于从所述告警信号中获取告警内容和告警业务 类型,根据所述告警业务类型从配置管理单元获取接收告警内容的至少一个 接收端和发送方式信息;指示消息发送器单元进行l喿作;消息发送器单元,用于根据接收到的指示将包含所述告警内容的告警信 息通过所述发送方式发送给所述接收端。
8、 根据权利要求7所述的系统,其特征在于,所述配置管理单元,还用于保存发送方式所对应的发送频率; 所述告警系统还包括流量控制单元,用于才艮据所述发送频率,对所发送的告警信息进行流量 控制。
9、 根据权利要求7所述的系统,其特征在于,所述告警系统还包括 至少一个客户端,每个客户端用于接收其所在业务系统的故障信息,将釆集到的故障信息转换为告警信号后发送至告警服务单元。
10、 根据权利要求8所述的系统,其特征在于,所述配置管理单元和流 量控制单元位于同一物理模块,或分别位于不同的物理模块。
全文摘要
本发明公开了一种分布式业务系统故障告警的方法、系统和装置,所述方法包括接收来自分布式业务系统的告警信号,从所述告警信号中获取告警内容和告警业务类型;根据所述告警业务类型获取告警内容的至少一个接收端和发送方式信息;将包含所述告警内容的告警信息通过所述发送方式发送给所述接收端。应用本发明,使得在业务系统出现系统故障时,能够及时地将告警信息通知给相关人员,提高了告警的时效性,避免了在系统故障产生很久以后,甚至在出现重大损失时才发现问题所造成的损失。再有,由于本发明可以灵活配置由什么人接收告警信息,接收的方式是什么,因而可使实现方式更灵活。本发明不但具有很好的时效性和灵活性,而且实现方式简单。
文档编号H04W24/00GK101409638SQ20081017704
公开日2009年4月15日 申请日期2008年11月19日 优先权日2008年11月19日
发明者尤占涛 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1