一种大型集群节点性能监控系统的制作方法

文档序号:10555466阅读:332来源:国知局
一种大型集群节点性能监控系统的制作方法
【专利摘要】本发明涉及一种大型集群节点的性能监控系统,其特征在于:包括监控管理平台、代理节点集群和代理客户端。本发明提供的性能监控系统,其监控管理平台负责代理节点集群内所有成员的监控任务分配和调度,监控配置文件统一由监控管理平台推送至代理节点集群内的成员;而代理节点集群内所有节点间进行冗余检查和数据同步,当有代理节点失效时,监控管理平台根据剩余节点的负载将原本由该失效代理节点执行的监控任务分配给其他正常的节点,该过程不会影响或中断监控,从而有效地保证了监控系统的正常运行。
【专利说明】
一种大型集群节点性能监控系统
技术领域
[0001]本发明涉及一种大型集群节点的性能监控系统,尤其涉及一种安全、高可用且便于大规模动态扩展大型集群节点的性能监控系统。
【背景技术】
[0002]目前的数据中心管理员一般是通过监控系统及时了解和监管服务器的运行情况,并在服务器发生异常情况时快速解决问题,以保证服务器的安全、稳定与可靠。监控信息也为业务运行情况分析和改进提供了重要的参考数据。
[0003]当前主流的监控系统通常的框架为监控服务端、代理客户端两层架构模式或者是监控服务端、代理节点、代理客户端三层架构。这些主流监控系统无论有无代理节点,其服务端冗余多采用双机备份技术节点,因此扩展受到限制,其次,这些监控系统的多个代理节点间都是各自监控各自的目标互不通信,一个代理节点损坏则其所有监控业务中断。因此现有的监控系统难以满足监控资源庞大的环境,尤其是不能适应云计算技术成熟应用的环境。

【发明内容】

[0004]本发明要解决的技术问题,是提供一种安全、高可用且便于大规模动态扩展大型集群节点的性能监控系统。
[0005]本发明要解决的第一个技术问题,可以通过以下的技术方案来实现:一种大型集群节点的性能监控系统,其特征在于:包括监控管理平台、代理节点集群和代理客户端,其中,
[0006]所述监控管理平台,用于为每个代理节点分配监控任务,并根据各代理节点报告的状态将无法提供服务的节点的监控任务分配到正常的节点;
[0007]所述代理节点集群,其由若干互为冗余的代理节点配置后形成,各代理节点用于根据接收到的监控管理平台分配的任务,向代理客户端提取数据,且各代理节点对获取的数据进行同步;各代理节点还用于向监控管理平台主动报告自己的运行状态;
[0008]所述代理客户端,用于获取数据,并在接收到上层代理节点发送的请求后将数据提供给上层代理节点集群内相应的代理节点。
[0009]本发明提供的性能监控系统,其监控管理平台负责代理节点集群内所有成员的监控任务分配和调度,监控管理平台将记录着代理节点集群的成员信息、配置同步时间、向管理平台提交自己状态的时间等配置文件推送至代理节点集群内的成员;而代理节点集群内每个代理节点间均可互相通信,依据监控管理平台推送的配置信息以使所有代理节点间进行冗余检查和数据同步,当有代理节点失效时,监控管理平台将原本由该失效代理节点执行的监控任务分配给其他正常的节点,由于这一过程时间极短,该过程不会影响或中断监控,从而有效地保证了监控系统的正常运行。即本发明提供的监控系统可根据代理节点集群当前的运行情况进行动态任务分配和负载均衡管理,大幅度提升监控系统的高可靠性和安全性。同时由于代理节点集群内成员互为冗余,本监控系统可根据监控业务量的增大,动态地向代理节点集群中加入新的节点,而不会影响现有代理节点和监控业务。当有新节点加入到代理节点集群中时,代理节点集群和监控管理平台都会更新现有集群内节点信息,进行任务的负载均衡调整理。
[0010]作为本发明的一个优选实施例,所述监控管理平台,用于按照代理节点集群中各代理节点的性能设置权重为每个代理节点分配监控任务,并根据各代理节点报告的状态将无法提供服务的节点的监控任务依据正常节点的负载状态和权重分配到正常的节点。本实施例提供的监控系统在具体重新分配失效代理节点的监控任务时可根据实际环境选择正常代理节点的负载状态优先或者权重优先。各代理节点的权重取值可依据该代理节点的计算能力,依次由该节点的CPU处理能力、内存、网络质量,权重越大,节点分配的任务较其他节点则越多;CHJ处理能力越强,内存越大、网络质量越好则负载状态由节点操作系统的1adaverage值决定,越小则可承载的任务较其他节点越多。
[0011]本发明所述代理节点集群通过网络心跳机制检测集群内各代理节点是否良好运行。
[0012]在上述基础上,本发明所述代理节点集群中各代理节点按预设的时间间隔向监控管理平台发送自己当前的负载信息,成功则表示其运行正常,不成功则视为异常,按节点失效处理;设置简单、方便。
[0013]本发明所述代理节点集群,其各代理节点还用于对接受到来自代理客户端的数据进行格式处理后输出至外部数据库;格式处理主要是提取有用的指标数据,在实际设置时,可根据后续分析的需求选择合适的格式处理,以便去除多余信息、方便数据库存储并节省空间。比如load average值、cpu利用率、磁盘利用率、内存利用率等,以便为监控管理平台进行数据展示、异常报警、趋势分析提供源数据。数据库可以采用比较成熟的MySQLCluster技术,也可以采用其他支持集群技术的商用数据库。
[0014]在上述基础上,本发明所述监控管理平台,还用于预设接收地址,并在获取的数据中有异常状态或指标时,自动触发报警服务,向预设的接收地址发送异常报警信息。在实际应用时,可选择预设邮件地址和/或短信地址,以便管理员及时、方便地接收相应的报警信息,实时作出适当的处理。
[0015]在上述基础上,本发明所述监控管理平台,还用于配置用作报警服务的依据的监控指标阀值;比如管理员经由管理平台设置load average、cpu利用率、磁盘利用率、内存利用率等指标的阀值,当超过阀值时即触发邮件和/或短信报警服务。
[0016]本发明所述代理客户端,用于向所在应用服务器不间断的获取相应的资源数据,并将数据提供给上层的代理节点。考滤到对应用服务器的影响代理客户端的CPU和内存占用不应超过应用服务器的I %。
[0017]本发明所述代理客户端安装在监控主机上。
[0018]本发明所述监控管理平台为一基于WEB服务的管理平台;该WEB服务管理平台可实现数据展示及所有监控业务的管理功能,包括代理节点集群、监控任务调度、应用服务器监控资源和指标配置、监控异常情况的邮件或短信报警,同时提供监控数据的处理、图表展示、报警、日志、业务趋势分析等,实现合理高效的整合和管理所有监控框架中涉及的所有资源;同时还可以结合开源领域已有的成熟双机热备或其他集群技术来实现统一监控管理平台的冗余性,提高其安全和可用性。
【附图说明】
[0019]图1是本发明的结构示意图。
【具体实施方式】
[0020]图1所示的大型集群节点性能监控系统是本发明的实施例,其包括监控统管理平台、代理节点集群和代理客户端。
[0021]其中,监控管理平台,其为一基于WEB服务的管理平台;用于按照代理节点集群中各代理节点的性能设置权重为每个代理节点分配监控任务,并根据各代理节点报告的状态将无法提供服务的节点的监控任务依据正常节点的负载状态和权重分配到正常的节点。各代理节点的权重取值依据每个节点的计算能力,一般依次为节点的CPU处理能力、内存、网络质量,CPU处理能力越强,内存越大、网络质量越好则权重越大,节点分配的任务较其他节点则越多。负载状态由节点操作系统的load average值决定,越小则可承载的任务较其他节点越多。监控管理平台还用于配置用作报警服务的依据的监控指标阀值和预设接收地址,并在获取的数据中有异常状态或指标时(即当超过阀值时即触发邮件和/或短信报警服务),自动触发报警服务,向预设的接收地址发送异常报警信息。
[0022]代理节点集群,其由若干互为冗余的代理节点配置后形成,每个节点间均可互相通信,并保存一份所有节点的IP、主机名等信息,通过网络心跳机制检测集群内节点是否良好运行;各代理节点用于根据接收到的监控管理平台分配置的任务、向代理客户端提取数据,且各代理节点对获取的数据进行同步;各代理节点还用于向监控管理平台主动报告自己的状态;即按设定的时间间隔向监控管理平台发送自己当前的负载信息,成功则表示其运行正常,一段时间内不成功则视为异常,按节点失效处理;各代理节点还用于对接受到来自代理客户端的数据进行格式处理后输出至外部数据库。各代理节点还用于对接受到来自代理客户端的数据进行格式处理后输出至外部数据库。
[0023]代理客户端,其安装在监控主机上;用于获取数据,并在接收到上层代理节点发送的请求后向所在应用服务器不间断的获取相应的资源数据,并将数据提供给上层的代理节点。
[0024]本发明提供的性能监控系统,其监控管理平台负责代理节点集群内所有成员的监控任务分配和调度,监控管理平台将记录着代理节点集群的成员信息、配置同步时间、向管理平台提交自己状态的时间等配置文件推送至代理节点集群内的成员;而代理节点集群内所有节点间均可互相通信,依据监控管理平台推送的配置信息以使所有代理节点间进行冗余检查和数据同步,当有代理节点失效时,监控管理平台根据剩余节点的负载或者权重将原本由该失效代理节点执行的监控任务分配给其他正常的节点,如图1所示,其中实线部分即为该节点当前的监控对象,虚拟部分即为其他节点坏掉后该节点可以接管的监控对象。该对正常代理节点重新分配监控任务过程不会影响或中断监控,从而有效地保证了监控系统的正常运行。即本发明提供的监控系统可根据代理节点集群当前的运行情况进行动态任务分配和负载均衡管理,大幅度提升监控系统的高可靠性和安全性。同时由于代理节点集群内成员互为冗余,本监控系统可根据监控业务量的增大,动态地向代理节点集群中加入新的节点,而不会影响现有代理节点和监控业务。当有新节点加入到集群中时,集群和统一监控管理平台都会更新现有集群内节点信息,统一监控管理平台还会根据新集群的负载状态和权重,进行任务的负载均衡调整理。
【主权项】
1.一种大型集群节点的性能监控系统,其特征在于:包括监控统一管理平台、代理节点集群和代理客户端,其中, 所述监控管理平台,用于为每个代理节点分配监控任务,并将无法提供服务的节点的监控任务分配到正常的节点; 所述代理节点集群,其由若干互为冗余的代理节点配置后形成,各代理节点用于根据接收到的监控管理平台分配的任务,向代理客户端提取数据;且各代理节点对获取的数据进行同步;各代理节点还用于向监控管理平台主动报告自己的状态; 所述代理客户端,用于获取数据,并在接收到上层代理节点发送的请求后将数据提供给上层代理节点集群内相应的代理节点。2.根据权利要求1所述的系统,其特征在于:所述监控管理平台,用于按照代理节点集群中各代理节点的性能设置权重为每个代理节点分配监控任务,并根据各代理节点报告的状态将无法提供服务的节点的监控任务依据正常节点的负载状态和权重分配到正常的节点。3.根据权利要求1所述的系统,其特征在于:所述代理节点集群通过网络心跳机制检测集群内各代理节点是否良好运行。4.根据权利要求2所述的系统,其特征在于:所述代理节点集群中各代理节点按预设的时间间隔向监控管理平台发送自己当前的负载信息,成功则表示其运行正常,不成功则视为异常,按节点失效处理。5.根据权利要求1所述的系统,其特征在于:所述代理节点集群,其各代理节点接还用于对接受到来自代理客户端的数据进行格式处理后输出至外部数据库。6.根据权利要求5所述的系统,其特征在于:所述监控管理平台,还用于预设接收地址,并在获取的数据中有异常状态或指标时,自动触发报警服务,向预设的接收地址发送异常报警信息。7.根据权利要求5或6所述的系统,其特征在于:所述监控管理平台,还用于配置用作报警服务的依据的监控指标阀值。8.根据权利要求1所述的系统,其特征在于:所述代理客户端,用于向所在应用服务器不间断的获取相应的资源数据,并将数据提供给上层的代理节点。9.根据权利要求1所述的系统,其特征在于:所述代理客户端安装在监控主机上。10.根据权利要求1所述的系统,其特征在于:所述监控管理平台为一基于WEB服务的管理平台。
【文档编号】H04L12/26GK105915405SQ201610186971
【公开日】2016年8月31日
【申请日】2016年3月29日
【发明人】李发明, 张建
【申请人】深圳市中博科创信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1