一种运维监控数据的采集方法及服务器的制造方法_4

文档序号:9846560阅读:来源:国知局
间隔的整数 倍;
[0223] 例如,监控项的采集间隔为1分钟,则当该监控项对应的工作进程监控到有定时事 件触发时,进行数据采集。
[0224]步骤208:监控服务器判断数据采集方式,如果是监控代理采集数据方式,则执行 步骤209,如果是SNMP代理采集数据方式,则执行步骤210;
[0225] 步骤209:监控服务器将该工作进程对应的监控项所对应的监控信息发送至数据 采集器,接收数据采集器返回的采集结果,执行步骤211;
[0226] 步骤210:监控服务器将该工作进程对应的监控项所对应的监控信息发送至S匪P 代理,接收SNMP代理返回的采集结果,执行步骤211;
[0227] 步骤211:监控服务器判断接收到的采集结果是否异常,如果是,则执行步骤212, 否则执行步骤215;
[0228] 本实施例中,监控服务器判断接收到的采集结果中的当前采集值是否小于报警阀 值或小于故障阀值,如果是,则接收到的采集结果异常,否则接收到的采集结果正常;
[0229] 例如,采集结果为:
[0230] Memory Free: /246MB( 16% ) I percentage = 24; 20 ;10;0;100;其中,当前米集值为 24,大于故障阀值10,且大于报警阀值20,因此采集结果正常;
[0231 ]如果接收到的采集结果为:
[0232] Memory Free :/246MB( 16% ) I percentagel8; 20; 10 ;0; 100 ;其中,当前米集值为 18,小于报警阀值20,大于故障阀值10,因此采集结果异常;
[0233] 步骤212:监控服务器根据监控项的监控信息,判断异常的采集结果是否需要报 警,如果是,则执行步骤213,否则执行步骤215;
[0234] 本实施例中,监控服务器根据监控项中的监控信息notifications_enabled的值, 判断异常的采集结果是否需要报警,如果该监控信息notif ications_enabled的值为1时, 则需要报警,如果该监控信息11〇1^;^〇31:;[0118_61^1316(1的值为0时,则不需要报警 ;
[0235] 步骤213:监控服务器根据服务器配置文件中监控项的监控信息,判断是否允许发 送报警通知,如果是,则执行步骤214,否则执行步骤215;
[0236] 本实施例中,监控服务器根据监控项中的监控信息notification_period的值,判 断是否允许发送报警通知;
[0237] 例如,监控项中的监控信息notification_period的值为24x7,则表示7*24小时均 可发送报警通知,其中,是否需要报警或者何时需要报警可以由用户自行对该监控信息的 值进行设定。
[0238] 步骤214:监控服务器选择报警通知方式,将报警信息发送至管理员,执行步骤 215;
[0239] 其中,报警通知方式可以为语音报警或者邮件通知报警等,由用户根据需求自行 设定。
[0240]步骤215:监控服务器将对应的采集结果存储在服务器数据库中,返回步骤207。
[0241] 本实施例还包括:用户界面定时(优选为1分钟)从监控服务器数据库中读取采集 结果,在界面上显示读取到的采集结果;
[0242] 本实施例中,步骤211至步骤215可以替换为:服务器根据服务器配置文件判断是 否需要分析采集结果的变化趋势,如果是,则将采集结果保存,返回步骤207,否则直接返回 步骤207;
[0243] 例如,服务器配置文件中监控项的监控信息saVe_result的值为1时,表示需要分 析采集结果的变化趋势,保存采集结果,如果sa Ve_reSul t的值为0时,表示不需要分析采集 结果的变化趋势,不保存采集结果。
[0244] 除此之外,步骤211至步骤215还可以替换为:服务器根据采集结果判断是否需要 记录日志信息,如果是,则记录日志信息,返回步骤207,否则直接返回步骤207;
[0245] 具体的,服务器判断采集结果是否异常,如果是,则记录日志信息,否则不记录日 志信息;
[0246] 例如,监控信息为采集CPU使用率,当采集结果中CPU使用率超过预设报警阀值时, 记录当前时间点该被监控的机器发生CPU使用率超阀值信息。
[0247] 实施例4
[0248] 本发明实施例4提供了一种运维监控数据系统中数据采集器的工作方法,如图4所 示,包括:
[0249] 本实施例中,优选的,监控服务器将监控信息以命令行的形式发送至数据采集器, 数据采集器接收到监控信息后执行以下操作:
[0250]步骤301:数据采集器以命令行的形式解析接收到的监控信息,判断命令行参数是 否出错,如果是,则向监控服务器发送错误信息,结束,否则执行步骤302;
[0251 ]步骤302:数据采集器判断监控信息中是否包含辅助信息,如果是,则显示所述辅 助信息,将已显示响应返回至监控服务器,结束,否则执行步骤303;
[0252] 本实施例中,当获取到的命令行参数中包含有数据采集器的帮助信息、版本信息 等辅助信息时,为用于显示辅助信息的命令;
[0253] 步骤303:数据采集器根据监控信息组装数据包,并获取监控信息中指定的监控客 户端;
[0254] 本实施例中,组装得到的数据包中包含版本号、包类型、数据采集命令信息和通过 校验算法(如crc32算法等)对上述数据进行计算得到的校验和,其中包类型包括请求包类 型和响应包类型;
[0255] 步骤304:数据采集器将数据包发送至指定的监控客户端;
[0256] 步骤305:数据采集器接收监控客户端返回的采集结果;
[0257] 本实施例中,采集结果中包含版本号、包类型、采集得到的数据信息和通过校验算 法(如crc32算法等)对上述数据进行计算得到的校验和,其中包类型包括请求包类型和响 应包类型;
[0258]步骤306:数据采集器判断采集结果是否正确,如果是,则执行步骤307,否则向监 控服务器发送错误信息,结束;
[0259] 本实施例中,数据采集器从采集结果中获取校验和,判断采集结果中的校验和与 发送的数据包的校验和是否相同,判断采集结果中的版本号与数据包中的版本号是否相 同,判断采集结果中的包类型与数据包中的包类型是否相同,如果均相同,则采集结果正 确,否则采集结果错误;
[0260] 步骤307:数据采集器将采集结果发送至监控服务器。
[0261] 实施例5
[0262] 本发明实施例5提供了一种运维监控数据系统中监控客户端的工作方法,如图5所 示,包括:
[0263] 步骤401:监控客户端加载客户端配置文件,根据客户端配置文件中的配置参数, 监听与监控服务器的连接端口;
[0264] 例如,客户端配置文件中配置参数为:
[0265] log_faci Iity = daemon
[0266] server_port = 5666
[0267] allowed_hosts = 127.0.0.1,192.168.88.179,192.168.88.189
[0268] dont_blame_nrpe = 0
[0269] 客户端配置文件中的监控项为:
[0272] 其中,客户端配置文件的配置参数中的server_P〇rt = 5666即为监控客户端与监 控服务器的连接端口。
[0273] 步骤402:监控客户端等待接收监控服务器发送的采集命令;
[0274] 步骤403:当监控客户端接收到采集命令时,根据客户端配置文件,判断发送该命 令的监控服务器是否为允许接入的设备,如果是,则执行步骤404,否则向监控服务器返回 错误信息,返回步骤402;
[0275] 本实施例中,判断采集命令中监控服务器的IP地址是否包含在客户端配置文件中 的配置参数allowecLhosts值对应的IP地址内,如果是,则发送该命令的监控服务器为允许 接入的设备,否则该命令的监控服务器不是允许接入的设备;
[0276] 例如,客户端配置文件中的配置参数&11〇^(1_11〇5^ 8值为12 7.0.0.1, 192.168.88.179,192.168.88.189,从采集命令中获取到的监控服务器的IP地址为 192.168.88.179,因此该服务器为允许接入该客户端的设备。
[0277] 步骤404:监控客户端对接收到的采集命令进行解析,得到需要采集的监控信息, 判断该监控信息是否为允许执行的监控信息,如果是,则执行步骤405,否则向监控服务器 返回错误信息,返回步骤402;
[0278] 本实施例中,判断得到的监控信息是否能够在客户端配置文件中找到,如果是,则 该监控信息为允许执行的监控信息,否则该监控信息不是允许执行的监控信息。
[0279] 步骤405:监控客户端将需要采集的监控信息发送至数据采集应用;
[0280]例如,客户端接收到的监控信息用于采集CPU使用率,则数据采集应用通过top命 令获取CPU使用率,如获取到的CPU使用率为:
[0281] Cpu(s): 2.9%us ,33.3%sy,16.2%ni ,44.8% id,2.9%wa,0.0%hi,0.0%si〇 [0282]例如,客户端接收到的监控信息用于获取内存使用率,则数据采集应用通过free 命令获取内存使用率,如获取到的内存使用率为:
[0284]步骤406:监控客户端判断在预设时间内是否接收到数据采集应用返回的采集结 果,如果是,则执行步骤407,否则将采集结果设置为超时,执行步骤407;
[0285] 优选的,预设时间为10s。
[0286] 步骤407:监控客户端将采集结果返回监控服务器。
[0287] 实施例6
[0288] 本发明实施例6提供了一种运维监控数据采集的服务器,如图6所示,包括:
[0289] 第一判断模块601,用于根据服务器配置文件中各个监控项的采集间隔,判断是否 有监控项满足采集条件;
[0290]第一发送模块602,用于当第一判断模块601判断有监控项满足采集条件时,将满 足采集条件的监控项对应的监控信息发送至客户端;
[0291]第一接收模块603,用于接收客户端返回的采集结果;
[0292]处理模块604,用于对第一接收模块603接收到的采集结果进行
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1