一种监控装置的制作方法

文档序号:12863429阅读:192来源:国知局
一种监控装置的制作方法

本实用新型涉及一种监控装置,尤其涉及一种用于大规模计算集群的信息监控装置。



背景技术:

对于信息监控,是当前信息爆炸时代很重要的一个工作,尤其在高性能计算集群领域。集群拥有数千上万台计算机,涵盖各种类型的服务器,盘阵和刀片服务器。它们的整体运维是无法通过人工检查的方式来管理的。监控装置通过可视化的管理页面,让集群管理员迅速了解各服务器的运行状态、资源使用、配置策略和故障报警等,有效提高集群的可用性。

目前比较主流的几款监控管理软件,Ganglia主要用来监控服务器性能,比如cpu、mem、I/O负载和网络流量等,对于服务器更深层的各项服务没有监控。Nagios可监控的功能比较多,还可以采用插件方式自定义需要监控的内容,并提供故障报警功能。但这两种监控装置都只注重了“监”,缺乏“控”方面的内容。管理员使用的时候主要是浏览页面,具体问题的处理仍需再登录服务器解决。



技术实现要素:

本实用新型的目的是针对现有技术的缺陷,提供一种监控装置,主要用于解决以下几个方面的内容:

1.监控内容的全面和可扩展。在一个拥有大规模的计算集群的数据中心,集群管理员会有多人,但是管理的侧重点各有不同,所以监控装置首先要求全面,应包括整个系统从硬件到软件的各种监控内容,并且可根据管理员的需求,提供API接口,允许管理员自定义监控程序。其次要求可定制化,对于不同的管理员,提供所需要的监控内容,减少管理员搜索信息的时间和监控主机不必要的检索压力。

2.监控信息收集的效率。在大规模的计算机集群中使用的监控装置,时刻都有海量的信息需要收集。为了提高信息收集的效率,本装置采用模块化设计,监控主机采用两级结构。底层的接收器分类收集信息,上层的信息汇总器根据定制模板给管理员显示需要查看的内容。在监控客户端(被监控机器,包括服务器、盘阵、刀片机)上运行内核级的监控模块,用于收集本机的各种硬件和软件信息,进行信息过滤,并将过滤后的结果发送给监控主机。

3.增加对被监控机器的修改操作功能。对于系统的配置,资源调整,策略更新以及一些程序化的故障处理,定制各处理脚本。由信息汇总器发送到监控客户端,以代码触发方式运行。

为实现上述目的,本实用新型的技术方案为:

一种监控装置,其特征在于,包括监控主机和监控模块,所述监控模块运行于待监控的客户端上,用于收集所在客户端的硬件信息和软件信息发送给所述监控主机;所述监控主机包括信息汇总器、显示单元和信息接收器,所述信息接收器对所述监控模块发送过来的信息进行分类后发送给所述信息汇总器;所述信息汇总器根据不同管理员的定制模板显示对应内容到显示单元。

进一步的,所述信息接收器包括系统配置信息接收器、资源管理信息接收器、状态监控信息接收器、策略更新信息接收器、统计分析信息接收器、日志管理信息接收器、访问授权信息接收器和错误报警信息接收器;其中

所述系统配置信息接收器,用于接收所述监控模块采集信息中的客户端硬件配置信息和操作系统版本信息、安装的软件包信息,并发送给所述信息汇总器;

所述资源管理信息接收器,用于接收所述监控模块采集信息中的客户端的硬件使用情况信息,并发送给所述信息汇总器;

所述状态监控信息接收器,用于接收所述监控模块采集信息中的客户端I/O负载和网络流量,并发送给所述信息汇总器;

所述策略更新信息接收器,用于接收所述监控模块采集信息中的客户端策略更新信息,并发送给所述信息汇总器;

所述统计分析信息接收器接,用于接收所述监控模块采集信息中的客户端作业统计信息、用户统计信息和进程统计信息,并发送给所述信息汇总器;

所述日志管理信息接收器,用于接收所述监控模块采集信息中的客户端各种日志信息,并发送给所述信息汇总器;

所述访问授权信息接收器,用于从所述监控模块采集信息中的获取使用者的用户信息和组别信息,并发送给所述信息汇总器;

所述错误报警信息接收器,用于接收所述监控模块采集信息中的客户端报警信息,并发送给所述信息汇总器。

进一步的,所述信息汇总器对所述客户端的系统配置、资源调整或策略更新生成一控制脚本发送到所述客户端。

进一步的,所述客户端包括服务器、盘阵和或刀片机。

进一步的,所述硬件包括cpu、mem、swap和磁盘。

进一步的,所述信息接收器对所述监控模块发送过来的信息进行分类后通过agent进程发送给所述信息汇总器。

与现有技术相比,本实用新型的积极效果为:

本实用新型监控装置实现了比较全面的信息监控,将监控内容分类细化。还可以根据使用者的需要进行定制,提高了监控装置的可扩展性;分级监控方式将繁重的监控处理分布到三级。在监控客户端上已完成了信息的初次过滤和处理,减少了无用信息传递导致的网络消耗和监控主机负担。接收器层负责接收和处理信息。信息汇总器根据用户组别显示监控网页,响应用户处理操作,分级方式提高了监控装置的效率;增加的控制功能,在发现故障时点击页面就可以处理,提高了集群的可用性。

附图说明

图1为本实用新型监控装置的示意图;

图2为信息接收器与信息汇总器结构示意图。

具体实施方式

下面通过附图和实施例,对本实用新型的技术方案做进一步的详细描述。

图1为本实用新型监控装置的示意图,如图1所示,包括监控主机和监控模块,所述监控主机包括信息汇总器、显示单元和信息接收器,监控模块运行于待监控的客户端上,用于收集所在客户端的硬件信息和软件信息发送给所述监控主机;所述信息接收器对所述监控模块发送过来的信息进行分类后分别发送给所述信息汇总器;所述信息汇总器根据不同管理员的定制模板显示对应内容到显示单元。

如图2所示,信息汇总器与信息接收器连接,其中信息接收器包括:系统配置信息接收器、资源管理信息接收器、状态监控信息接收器、策略更新信息接收器、统计分析信息接收器、日志管理信息接收器、访问授权信息接收器和错误报警信息接收器。

信息汇总器用于完成网页显示和交互,提取用户需要的各监控单元内容,响应用户的处理请求。各下层接受器根据关键字收集各自负责的信息,并以规定格式存入数据库。根据监控装置应用的场景和规模,信息汇总器和接收器可安装在同一台机器,也可以分别安装在不同的机器上。各接收器启用服务后会持续运行一个agent进程,如果信息汇总器在同一台机器上,则直接在进程间传递信息;如果信息汇总器在另外的机器上,接收器的agent进程通过网络tcp方式提交信息。

各个接收器的联系关系如下:

系统配置信息接收器、资源管理信息接收器、状态监控信息接收器、策略更新信息接收器、统计分析信息接收器、日志管理信息接收器、访问授权信息接收器和错误报警信息接收器分别与信息汇总器相连接。

各接收器的具体功能如下:

系统配置信息接收器,接收硬件配置信息和软件信息,通过agent进程发送给信息汇总器;

资源管理信息接收器,接收监控客户端cpu、mem、swap和磁盘等硬件使用情况信息,通过agent进程发送给信息汇总器;

状态监控信息接收器,接收监控客户端的I/O负载和网络流量,通过agent进程发送给信息汇总器;

策略更新信息接收器,接收监控客户端的各种策略,包括备份策略,作业策略等的修改更新信息,通过agent进程并发送给信息汇总器;

统计分析信息接收器,接收监控客户端的作业统计,用户统计,进程统计,通过agent进程发送给信息汇总器;

日志管理信息接收器,接收监控客户端的各种日志信息,包括系统日志和服务运行日志等,通过agent进程发送给信息汇总器;

在申请使用监控装置时,用户会被分类为硬件管理员,存储管理员,作业管理员,网络管理员以及普通用户,并将用户信息和组别保存至数据库。访问授权信息接收器根据用户名,从数据库中查找其对应的访问权限,通过agent进程发送给信息汇总器;

错误报警信息接收器,接收两类报警信息:一种是从监控客户端上收集到关于硬件故障的报警信息;另一种是接收日志分析系统分析到的各类软件报警,通过agent进程发送给信息汇总器。

最后所应说明的是,以上实施例仅用以说明本实用新型的技术方案而非限制,尽管参照较佳实施例对本实用新型进行了详细说明,本领域的普通技术人员应当理解,可以对本实用新型的技术方案进行修改或者等同替换,而不脱离本实用新型技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1