基于双向信息流的分布式监控方法

文档序号:6371114阅读:423来源:国知局
专利名称:基于双向信息流的分布式监控方法
技术领域
本发明涉及信息技术领域,特别涉及一种基于双向信息流的分布式监控方法。
背景技术
随着网络技术的迅速发展,基于网络互联的各种分布式应用系统也逐渐增多。如提供WWW服务的Web服务器机群、提供数据库服务的数据库服务器机群、提供计算服务的计算服务器机群等。在很多应用场合,如数据中心、电子商务、科学计算等,机群中包含大量的服务器节点和网络设备,往往是少则几十个,多则成百上千个,而且这些服务器节点和设备的物理位置的分布范围也可能是很广的。如何对上述这样的分布式系统进行有效地监测和控制,以能够及时地发现并排除系统中已存在的和潜在的故障,保证系统高效可靠的运行,便成为分布式监控系统需要解决的问题。
传统的分布式监控系统大多集中在信息获取方面,也就是监测方面,而在对系统的控制能力上相对是比较弱的,特别是在自动控制能力上就更加薄弱了。比较有代表性的就是基于简单网络管理协议(SNMP)的监控系统,其大多数系统都是利用SNMP来获取所需的信息,加以显示和分析,当发现一些可能的问题时便通知管理员,通过人工干预进行故障发现和排除。这种人工控制方式往往会导致系统的故障不能及时得到处理,影响整个系统的工作。在有大量节点,而且节点物理位置分布广泛的机群应用中,这个问题会更加突出,同时导致人力、物力和财力的花费。
对传统的分布式监控系统结构进行分析,我们发现,导致上述问题的一个重要原因就是其信息流大多是单向的,即信息大多是从被监控方流向监控方,而缺乏一个有效的从监控方到被监控方的控制信息流。尽管像SNMP协议也提供了从监控方到被监控方的信息流功能,但其功能很弱,一般只能通过其进行字符型或整型数据的传送,很难满足一些复杂控制的需求。例如监控方远程下载某个故障处理程序到被监控方并运行,排除故障。


图1为传统的分布式监控系统结构示意图。被监控方1通过其上的监控代理2传送监测信息3到监控方4,监控方4上的监测、显示和报警5接受其所需的监测信息3,进行显示或报警等;监控方4上的监测、显示和报警5也可以通过被监控方1上的监控代理2向其传送字符型或整型数据信息6,进行一些阈值的设定等。

发明内容
本发明的目的是提出一种基于双向信息流的分布式监控系统结构和方法。
为实现上述目的,一种基于双向信息流的分布式监控方法,包括位于监控方上的监测5从被监控方接收监测信息;位于监控方上的中心控制与分析7从监测5接收监测信息并对接收的监测信息进行分析决策;位于被监控方上的控制信息通道接口9,接收来自中心控制与分析7的文件数据和控制命令数据并执行来自中心控制与分析7的控制命令,然后,返回结果给中心控制与分析7。
采用这种结构,当监控方发现被监控方出现故障或存在潜在的故障时,便根据不同的故障确定相应的处理方案,然后通过控制信息通道下载相应的处理程序到被监控方并执行,排除故障。这样,就大大提高了监控方对被监控方的控制能力,实现了自动的故障分析和排除。从而不仅使故障得到及时处理,提高了整个机群系统的性能和可用性,而且为系统的升级和维护带来了很大的方便,极大地节省了人力、物力和财力。
具体实施例方式
图2为基于双向信息流的分布式监控系统结构示意图。与图1所示的传统分布式监控系统结构相比,其不同在于,监控方4上的监测、显示和报警5接受到监测信息3之后,将其传送到中心分析和控制7,中心控制与分析7对接受的监测信息3进行分析决策,通过其上的控制信息通道接口8和被监控方上1的控制信息通道接口9传送文件数据或控制命令数据10到被监控方1,并控制被监控方1执行所需的处理程序或控制命令。
采用基于双向信息流的分布式监控系统,当监控方的分析控制软件发现被监控方出现故障或存在潜在的故障时,便可以根据需要,主动地、有针对性地、动态地下载一些故障检测程序到被监控方,改变被监控方的监测信息(如增加或减少监视信息的节点种类和上报频率、提高监视信息密度等),为其提供分析控制所需的监测信息;在获取充分的监测信息之后,通过故障原因分析,最终定位故障原因;针对其故障,确定相应的处理方案,并通过控制信息通道下载相应的处理程序到被监控方并执行,排除故障。这样,就大大提高了监控方对被监控方的控制能力,实现了自动的故障分析和排除。从而不仅使故障得到及时处理,提高了整个机群系统的性能和可用性,而且为系统的升级和维护带来了很大的方便,极大地节省了人力、物力和财力。
图3给出了基于双向信息流分布式监控系统结构的一种实施方式。其工作流程描述如下(1)监控方4上的中心控制与分析7通过其上SNMP程序5定购其所需的监测信息,SNMP程序5将定购信息转化为SNMP SET信息6传送到被监控方1上的SNMP程序2;(2)被监控方1上的SNMP程序2根据收到的定购信息进行处理,将监控方4所需的监测信息转化为SNMP GET信息3传送到监控方4上的SNMP程序5,监控方4上的SNMP程序5对收到的监测信息进行整理和预处理之后,将其传给监控方4上的中心分析和控制7;(3)中心控制与分析7对接受到的监测信息进行分析、处理和决策,如有必要,决定动态增加监视信息节点,进一步收集系统信息;(这一步骤有可能被多次重复)
(4)中心控制与分析7对接受到的监测信息进行分析、处理和决策,从文件和控制命令库13中获取所需的文件和控制命令属性信息14,转化为相应的控制命令,通过其上的控制命令发送接口8传送控制命令数据10到被监控方上1的控制命令接受和执行程序9;(5)被监控方上1的控制命令接受和执行程序9根据所接受的控制命令,采取相应的处理。如果是运行已经下载的程序或系统命令,则直接控制执行;如果是需要下载文件,则调用被监控方1上的FTP客户端程序11下载文件;(6)被监控方1上的FTP客户端程序11接受来自控制命令接受和执行程序9的下载命令17后,发送文件访问请求15到监控方4上的FTP服务器程序12,FTP服务器程序12从文件和控制命令库13中取得文件数据16,将其传递给FTP客户端程序11,FTP客户端程序11在完成文件传输后,返回结果给控制命令接受和执行程序9;(7)控制命令接受和执行程序9接受FTP客户端程序11的返回结果以及其直接控制运行程序的返回结果,通过监控方4上的控制命令发送接口8返回结果给中心分析和控制7。
这样,就实现了从信息的定购、采集、分析处理、故障发现到故障排除的自动化。当然,这只是一种实施方式,根据具体的应用环境还会有其它的实施方式。如不采用FTP协议传递文件等。
权利要求
1.一种基于双向信息流的分布式监控方法,包括位于监控方上的监测(5)从被监控方接收监测信息;位于监控方上的中心控制与分析(7)从监测(5)接收监测信息并对接收的监测信息进行分析决策;位于被监控方上的控制信息通道接口(9),接收来自中心控制与分析(7)的文件数据和控制命令数据并执行来自中心控制与分析(7)的控制命令,然后,返回结果给中心控制与分析(7)。
2.按权利要求1所述的方法,其特征在于所述监测(5)包括显示和报警。
3.按权利要求1所述的方法,其特征在于所述文件数据包括诸如故障监测程序和故障处理程序的各种可执行程序和配置文件。
4.按权利要求1所述的方法,其特征在于所述控制命令数据包括下载文件命令、运行程序命令和系统命令。
5.按权利要求1所述的方法,其特征在于还包括位于监控方的存储文件和控制命令的数据库。
全文摘要
一种基于双向信息流的分布式监控方法,包括位于监控方上的监测(5)从被监控方接收监测信息;位于监控方上的中心控制与分析(7)从监测(5)接收监测信息并对接收的监测信息进行分析决策;位于被监控方上的控制信息通道接口(9),接收来自中心控制与分析(7)的文件数据和控制命令数据。当监控方发现被监控方出现故障或存在潜在的故障时,便根据不同的故障确定相应的处理方案,然后通过控制信息通道下载相应的处理程序到被监控方并执行,排除故障。这样,就大大提高了监控方对被监控方的控制能力,实现了自动的故障分析和排除。从而不仅使故障得到及时处理,提高了整个机群系统的性能和可用性,而且为系统的升级和维护带来了很大的方便,极大地节省了人力、物力和财力。
文档编号G06F11/30GK1485737SQ0314725
公开日2004年3月31日 申请日期2003年7月10日 优先权日2003年7月10日
发明者范中磊, 许鲁, 韩月, 王敏 申请人:中国科学院计算技术研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1