基于集群监控分析计算设备可用性的方法及装置的制造方法_2

文档序号:9202743阅读:来源:国知局
0035]可选地,步骤SllO之前,在多个计算设备上分别部署监控工具,在执行监控步骤时,启动监控工具,并通过监控工具执行多个预定监控项的监控数据监控及采集。
[0036]具体地,通过自动化配置和管理工具进行监控工具的部署,如SaltStack自动化工具在多个计算设备上批量部署监控工具ganglia。
[0037]步骤S120:对在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果。
[0038]如图2所示,对在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果的步骤具体包括步骤S221和步骤S222;步骤S221:对在预定时长内每台计算设备的每个预定监控项的监控数据进行计算处理,确定与每个预定监控项相应的测评值;步骤S222:将与每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,确定每台计算设备基于多个预定监控项的监控分析结果。
[0039]具体地,对每台计算设备的每个预定监控项,将采集到的在预定时长内的监控数据通过贝叶斯分析,计算确定与每个预定监控项相应的测评值;将与每个预定监控项相应的测评值与该预定监控项的预设阈值进行比较,根据比较结果确定每台计算设备基于多个预定监控项的监控分析结果。
[0040]更具体地,计算测评值及相应的确定监控分析结果的方式包括:
[0041]I)对采集到的预定时长内CPU负载率进行平均值计算,确定相应的测评值为CPU负载率平均值;比较CPU负载率平均值与CPU负载率阈值的大小,当CPU负载率平均值大于CPU负载率阈值时,该计算设备的CPU负载率属于非正常状态;
[0042]2)对采集到的预定时长内可用磁盘容量进行最大值计算,确定相应测评值为可用磁盘容量最大值;比较可用磁盘容量最大值与磁盘容量阈值的大小,当可用磁盘容量最大值小于磁盘容量阈值时,该计算设备的可用磁盘容量属于非正常状态;
[0043]3)对采集到的预定时长内每秒I/O数量进行平均值计算,确定相应的测评值为每秒I/O平均值;比较每秒I/O平均值与I/O阈值的大小,当每秒I/O平均值大于I/O阈值时,该计算设备的每秒I/o数量属于非正常状态;
[0044]4)对采集到的预定时长内网络流量进行最大值计算,确定相应的测评值为网络流量最大值;比较网络流量最大值与网络流量阈值的大小,当网络流量最大值大于网络流量阈值时,该计算设备的网络流量属于非正常状态;
[0045]5)对采集到的预定时长内内存占用率进行最大值计算,确定相应的测评值为内存占用率最大值;比较内存占用率最大值与内存占用率阈值的大小,当内存占用率最大值大于内存占用率阈值时,该计算设备的内存属于非正常状态。
[0046]步骤S130:根据监控分析结果,确定多台计算设备的可用性信息,以用于将数据业务分配至可用的计算设备。
[0047]具体地,确定多台计算设备的可用性信息,包括以下情形:
[0048]当一台计算设备的所述多个预定监控项均属于正常状态,则该计算设备为可用设备;
[0049]当一台计算设备的任一预定监控项属于非正常状态,则该计算设备为不可用设备。
[0050]根据上述确定的多台计算设备的可用性信息,可以将数据业务分配至可用设备中。
[0051]可选地,对于一台计算设备,如果在步骤SllO中采集数据失败,即未采集到在预定时长内任一预定监控项的监控数据时,确定该计算设备的可用性为未知;需要检测监控工具是否异常,当监控工具恢复正常时,重新执行步骤S110、步骤S120和步骤S130来判断该计算设备的可用性。
[0052]可选地,对于一台计算设备,如果在步骤SllO中采集数据有误时,即采集到在预定时长内任一预定监控项的监控数据与正常监控数据有较大偏差时,确定该计算设备的可用性为待定;需要重新执行步骤S110、步骤S120和步骤S130来采集监控数据从而判断该计算设备的可用性。
[0053]优选地(参照图1),该方法还包括步骤S150 (图中未示出);步骤S150:创建监控数据库,并将采集到的多台计算设备的多个预定监控项的监控数据、相应的监控数据采集的时间信息、监控分析结果及可用性信息保存至监控数据库。
[0054]具体地,为监控系统创建监控数据库,其中,监控数据库优选为MongoDB,并将采集到的多台计算设备的多个预定监控项的监控数据、相应的监控数据采集的时间信息、监控分析结果及可用性信息相关联地保存至监控数据库。其中,监控数据采集的时间信息可包括监控数据采集时间起始点、监控数据采集时长中的至少一个,而存储监控数据采集的时间信息是用于辨识数据的有效性,为后续根据监控时长及采集时间起始点来对数据业务执行进一步分配提供时间参考。
[0055]其中,MongoDB是目前在互联网行业常用的一种非关系型数据库(NoSql),其数据存储方式非常灵活。MongoDB内置的水平扩展机制提供了从百万到十亿级别的数据量处理能力,可以支持较大数据量的同时插入、更新等操作。
[0056]现有技术中多采用MysqlDB来存储类似数据,由于MysqlDB是关系型数据库,其数据存储格式非常标准,而来自不同计算设备的多项预定监控项的监控数据无固定格式,因此,会造成经常修改Mysql表结构、数据写入失败等情况。本方案的优选实施例中,利用MongoDB数据存格式灵活的特点,可以解决了无固定格式监控数据的存储问题。
[0057]图3为本发明中基于集群监控分析计算设备可用性的装置一个实施例的结构示意图。
[0058]监控采集模块310:监控并采集多台计算设备在预定时长内多个预定监控项的监控数据;分析模块320:对在预定时长内每台计算设备的每个预定监控项的监控数据进行分析处理,确定每台计算设备的监控分析结果;可用性确定模块330:根据监控分析结果,确定多台计算设备的可用性信息,以用于将数据业务分配至可用设备中。
[0059]本发明的实施例中,通过对集群式计算设备中的每台机器设备的多项预定监控项进行监控,并对不同类型的预定监控项的监控数据进行不同的分析,来获取分析结果用于判断机器的可用性信息,进而根据机器可用性信息对数据业务进行合理的分配,确保数据业快速且合理地分配,提升系统的自动化运维水平,节约人力成本。
[0060]监控采集模块310:监控并采集多台计算设备在预定时长内多个预定监控项的监控数据。
[0061]其中,监控并采集监控数据的方式包括但不限于:
[0062]ganglia监控方式;zabbix监控方式;nag1s监控方式。
[0063]其中,预定监控项包括但不限于:
[0064]CPU负载率;可用磁盘容量;每秒I/O数量,即每秒对磁盘读写总次数;网络流量;内存占用率。
[0065]在此,预定监控项可为管理员在监控之前
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1