一种监测主机硬件负载的方法和系统的制作方法

文档序号:8502115阅读:161来源:国知局
一种监测主机硬件负载的方法和系统的制作方法
【技术领域】
[0001]本发明涉及计算机技术领域,具体涉及一种适用于多主机集群系统的监测主机硬件负载的方法和系统。
【背景技术】
[0002]近年来,多主机集群系统已经成为计算机技术发展的新趋势。多主机集群方式通过将多个单一独立的主机有机的结合串联成一个系统性的整体,并依托存储区域网络,对外提供一个大容量文件系统的共享存储应用。实现了存储区域网络内的多并发用户操作和大数据传输。其优点是,由于数据是分布在集群系统不同的主机的存储单元上的,即使某几个主机宕机或存储单元不可用,也不会造成数据的丢失。
[0003]但是宕机或者存储单元不可用仍然会对整体系统的性能和稳定性造成一定影响。所以保证多主机集群硬件系统的正常运行尤为重要。
[0004]那么如何保证多主机集群系统的硬件系统正常运行?其中,一个非常关键的技术就是及时了解多主机集群系统中各主机硬件负载运行是否正常。随之而来的一系列问题是,如何从一个由众多单一主机连接而成的多主机集群系统中获取各主机硬件负载的运行状态,在如此多的主机中如何判断其是否正常,以及如何确定是哪个主机硬件负载异常,在判断其异常后如何处理等等都成为技术难题。而解决这些技术问题又是保证系统整体性能和稳定性的基础。

【发明内容】

[0005]本发明的目的,就是克服现有技术的不足,提供一种监测主机硬件负载的方法,其适用于多主机集群系统,该方法不仅可以及时的监测到多主机集群系统中主机硬件负载运行是否正常,而且还可以迅速定位状态异常的主机和硬件负载,以实现多主机集群系统出现异常时,能够及时对异常硬件负载进行处理,保证多主机集群系统的稳定性。
[0006]本发明的另一个目的是提供一种多主机硬件负载的收集系统。
[0007]为了达到上述目的,采用如下技术方案:
[0008]一种监测主机硬件负载的方法,其适用于多主机集群系统,所述多主机集群系统包括有多个主机节点,所述主机节点包括管理节点、监控节点和存储节点;其特征在于,包括有以下步骤:
[0009]将负载参数的预设阈值和预设区间封装为第一消息队列;
[0010]开始监测硬件负载并获取负载参数值,并将获取到的负载参数值封装为第二消息队列;
[0011]将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较;
[0012]根据比较结果,判定所述硬件负载的状态是否正常,并将判定结果封装为第三消息队列;
[0013]若某一硬件负载的负载参数值落在第一区间,则判定该硬件负载的状态为正常状态;
[0014]若某一硬件负载的负载参数值落在第二区间,则判定该硬件负载的状态为第一异常状态;
[0015]若某一硬件负载的负载参数值落在第三区间,则判定该硬件负载的状态为第二异常状态;
[0016]根据所述第三消息队列中的判定结果,对所述硬件负载进行处理;
[0017]若所述硬件负载的状态为正常状态,则对该硬件负载不作处理;
[0018]若所述硬件负载的状态为第一异常状态,则生成第一状态事件;
[0019]若所述硬件负载的状态为第二异常状态,则生成第二状态事件,并调高固定监测频率对该硬件负载再次监测,获取该硬件负载的负载参数值,将该硬件负载的负载参数值与所述预设阈值、预设区间进行比较,进一步判定该硬件负载的状态是否正常;
[0020]根据进一步判定结果,对所述硬件负载进行处理;
[0021]若所述硬件负载再次被判定为第二异常状态,则再次生成第二状态事件,并报警对该硬件负载进行定位;
[0022]若所述硬件负载未再次被判定为第二异常状态,则不对该硬件负载进行处理或生成第一状态事件,并恢复至第一监测频率对该硬件负载进行监测;
[0023]结束本次监测,等待下一次监测开始。
[0024]作为一种具体的实施例,在将获取到的负载参数值封装为第二消息队列后,还包括以临时文件的方式将第二消息队列保存到监控消息数据库,并将所述第二消息队列发送至管理消息数据库的步骤。
[0025]进一步地,在将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较之前,还包括接收所述第二消息队列,将所述第二消息队列保存至所述管理消息数据库,解析所述第二消息队列,并读取所述第二消息队列中的负载参数值的步骤。
[0026]作为一种具体的实施例,在将所述第二消息队列发送至管理消息数据库之前,还包括同步各监控消息数据库之间的第二消息队列的步骤。
[0027]作为一种具体的实施例,所述负载参数值至少包括主机板的温度,中央处理器的温度、中央处理器的使用率,内存储器的温度、内存储器的占用率,外存储器的温度、外存储器的占用率,网络适配器的流量和冷却单元的运行速度中的一个或多个。
[0028]进一步地,所述主机板的温度,中央处理器的温度、中央处理器的使用率,内存储器的温度、内存储器的占用率,外存储器的温度、外存储器的占用率,网络适配器流量的第一阈值均小于第二阈值;
[0029]其中,将小于或等于第一阀值的区域定义为第一区间;将大于第一阀值且低于或等于第二阀值的区域定义为第二区间;将大于第二阀值的区域定义为第三区间。
[0030]进一步地,所述冷却单元的运行速度的第一阈值大于第二阈值;
[0031]其中,将大于或等于第一阈值的区域定义为第一区间;将大于或等于第二阀值且小于第一阀值的区域定义为第二区间;将小于第二阀值的区域定义为第三区间。
[0032]作为一种具体的实施例,所述第一状态事件包括监测时间、异常状态、异常主机、异常硬件负载以及负载参数值中的一个或多个;
[0033]所述第二状态事件包括监测时间、异常状态、异常主机、异常硬件负载、负载参数值以及连续异常次数。
[0034]一种监测主机硬件负载的系统,其适用于多主机集群系统,所述多主机集群系统包括有多个主机节点,所述主机节点包括管理节点、监控节点和存储节点,其特征在于,包括:
[0035]阈值设置模块,用以将负载参数的预设阈值和预设区间封装为第一消息队列;
[0036]负载监测模块,用以监测硬件负载并获取负载参数值,并将获取到的负载参数值封装为第二消息队列;
[0037]比较判定模块,用以将所述第二消息队列中的负载参数值与所述第一消息队列中的预设阈值、预设区间进行比较;以及根据比较结果,判定所述硬件负载的状态为正常状态或第一异常状态或第二异常状态,并将判定结果封装为第三消息队列;
[0038]处理模块,用以根据所述第三消息队列中的判定结果,对所述硬件负载进行处理;以及用以在所述硬件负载初步判定为第二异常状态时,根据调高固定监测频率后,再次监测该硬件负载,进一步判定该硬件负载的状态的判定结果,对所述硬件负载进行处理。
[0039]作为一种具体的实施例,所述阈值设置模块、比较判定模块以及处理模块集成在所述管理节点上;
[0040]所述负载监测模块集成在所述监控节点上。
[0041]与现有技术相比,本发明的有益效果在于:
[0042]本发明通过设计一种监测主机硬件负载的方法和系统,通过阈值设置模块的设置,首先将主机板的温度、中央处理器温度等负载参数的预设阈值和预设区间按照一定序列封装成第一消息队列;然后通过设置负载监测模块监测各硬件负载并获取硬件负载运行时的负载参数值,并将获取到的负载参数值按照与第一消息队列相同的封装序列封装成第二消息队列;再通过比较判定模块将第二消息队列中的负载参数值与第一消息队列中预设阈值和预设区间进行比较,并判定各硬件负载的运行状态是否正常;最后通过设置处理模块,针对各硬件负载不同的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1