一种监控目标设备的方法和装置的制造方法_3

文档序号:9765879阅读:来源:国知局
目标设备上的所有进程对一种或多种类型资源的总占用量达到了预设阈值,如网络流量,如果目标机器上流量总和达到了饱和流量的80%—般就是有异常情况发生,此时可以对网卡进行如上述的监控。又例如,10分钟内目标机器上所有网卡的流量总和突然增多200兆,或者直接发生了网络故障,此时即是满足了预设的监控条件,需要进行监控。
[0104]在本发明的一个实施例中,图2所示的方法中,获取目标设备上的所有进程的标识包括:读取目标设备上的指定目录下的文件,从该文件中获取进程的标识。例如,在Linux系统中可以通过读取/proc/文件获取proc下的进程标识pid。
[0105]在本发明的一个实施例中,上述方法还包括:预设应用程序资源占用阈值列表;该列表中对应保存了应用程序和对应的多个资源占用阈值,其中多个资源占用阈值分别对应不同类型资源;根据各列表中的信息以及应用程序资源占用阈值列表,判断是否触发报警,如果是则进行报警处理。
[0106]例如,目标设备上运行了 5个进程,其中一个进程对CPU资源的占用率超过60 %,而这5个进程对CPU资源的占用率也仅为75%。通常情况下用户会初步认定该CPU资源占用率超过60%的进程存在异常状况。但用户通过排查发现该进程对应的应用程序是目标设备上的一个大型数据库,该数据库正在正常工作,因此用户认定该进程正常。诸如此类的情形还有很多,因此用户可以根据实际需求,对应用程序资源占用阈值列表进行设置。
[0107]在本发明的一个实施例中,上述方法中,根据各列表中的信息以及应用程序资源占用阈值列表,判断是否触发报警包括:对于每个列表中的每个进程,根据该进程对应的应用程序查询应用程序资源占用阈值列表,得到相应类型资源的资源占用阈值,判断该进程在该列表中的资源占用量是否大于或等于查询得到的资源占用阈值,是则触发报警。
[0108]例如,对于应用程序A,用户在用CPU资源占用阈值列表中将CPU资源占用阈值设置为70%,其中应用程序A启动了进程a、b、c,在CPU资源占用信息列表中查询到进程a的CPU资源率为30%,进程a的CPU资源率为10%,进程a的CPU资源率为25%,通过计算得知应用程序A的总CPU占用率达到了 75%,此时大于查询得到的资源占用阈值,贝IJ触发报警。
[0109]在本发明的一个实施例中,上述方法中,进行报警处理包括:通过指定渠道发送报警信息;通过指定渠道发送报警信息包括如下中的一种或多种:在目标设备上显示包含报警信息的弹窗;通过电子邮件系统向指定电子邮件地址发送报警信息;通过即时通讯系统向指定的即时通讯账号发送报警信息;通过手机短信向指定的手机号码发送报警信息;通过与指定服务器之间连接向该指定服务器上报报警信息。
[0110]即使触发报警也不意味着目标设备一定出现问题,此时可能还需要运维人员进行进一步的人工排查,此时可以通过上述的多种渠道向运维人员发送报警信息。其中,用户可以根据需求自定义报警级别,对于不同的报警级别,可以通过不同的渠道发送报警信息。例如,较为严重的报警信息可以直接向指定手机号码发送,如通过短信的方式;而程度较轻的报警信息可以以电子邮件的方式通过电子邮件系统向指定电子邮件地址发送,等等。其中,报警信息可以包括触发报警的应用程序的资源占用信息等。
[0111]图4示出了根据本发明一个实施例的一种监控目标设备的装置的结构示意图,如图4所示,监控目标设备的装置400包括:
[0112]条件判断单元410,适于判断是否满足预设监控条件。
[0113]监控处理单元420,适于在条件判断单元判断为满足预设条件时,获取目标设备上的所有进程的标识;获取每个进程对不同类型资源的占用信息;对于每种类型资源,生成各进程对该类型资源的占用信息列表。
[0114]展示单元430,适于展示所生成的各列表。
[0115]可见,图4所示的装置,通过各单元的相互配合,首先判断是否满足预设的监控条件,在满足条件的情况下进一步获取目标设备上的所有进程的标识,并获取每个进程对不同类型资源的占用信息,通过生成占用信息列表的方式,对每个进程对各种类型资源的占用信息进行展示。该技术方案可以全面地展现目标设备上所有进程对各种不同类型资源的占用情况,使得用户可以更好地对目标设备进行监控,进一步对可能存在的异常情况进行处理。
[0116]在本发明的一个实施例中,图4所示的装置中,监控处理单元420,适于在每个列表中将各进程根据各进程对该类型资源的占用量进行排序。
[0117]在本发明的一个实施例中,图4所示的装置中,展示单元430,还适于对于每种类型的资源所对应的列表,将该列表中的各进程按照排序顺序分为多个组,在列表中将不同组的进程用不同颜色进行标记展示。
[0118]在本发明的一个实施例中,图4所示的装置中,展示单元430,适于预设不同快捷标识和各列表之间的对应关系;当接收到用户输入的一个快捷标识时,展示该快捷标识对应的列表。
[0119]在本发明的一个实施例中,图4所示的装置中,监控处理单元420,进一步适于获取各进程对应的应用程序的相关信息;展示单元430,进一步适于当接收到用户在所展示的一个列表中选择一个进程的指令时,展示该被选择的进程对应的应用程序的相关信息。
[0120]在本发明的一个实施例中,上述装置中,对应的应用程序的相关信息包括如下中的一种或多种:应用程序的名称;应用程序的功能描述信息;应用程序的启动时间;应用程序的启动者。
[0121]在本发明的一个实施例中,图4所示的装置中,不同类型资源包括如下中的一种或多种:CPU资源、内存资源、硬盘资源、I/O资源。
[0122]在本发明的一个实施例中,图4所示的装置中,条件判断单元410,适于判断是否到了预设的检测周期对应的时间;或者,判断目标设备上的所有进程对指定一种或多种类型资源的总占用量是否达到了预设阈值;或者,监测目标设备上的所有进程对指定一种或多种类型资源的总占用量的变化状态,判断总占用量在预设长度时间内的变化值是否超过一定值;或者,判断目标设备是否发生业务故障。
[0123]在本发明的一个实施例中,上述装置中,条件判断单元410,适于在到了预设的检测周期对应的时间时,确定预设的监控条件满足;或者,当目标设备上的所有进程对指定一种或多种类型资源的总占用量达到了预设阈值时,确定预设的监控条件满足;或者,当目标设备上的所有进程对指定一种或多种类型资源的总占用量在预设长度时间内的变化值超过一定值时,确定预设的监控条件满足;或者,当目标设备发生业务故障时,确定预设的监控条件满足。
[0124]在本发明的一个实施例中,图4所示的装置中,监控处理单元420,适于读取目标设备上的指定目录下的文件,从该文件中获取进程的标识。
[0125]在本发明的一个实施例中,上述装置进一步包括:报警处理单元,适于预设应用程序资源占用阈值列表;根据各列表中的信息以及应用程序资源占用阈值列表,判断是否触发报警,如果是则进行报警处理;应用程序资源占用阈值列表中对应保存了应用程序和对应的多个资源占用阈值,其中多个资源占用阈值分别对应不同类型资源。
[0126]在本发明的一个实施例中,上述装置中,报警处理单元,适于对于每个列表中的每个进程,根据该进程对应的应用查询应用程序资源占用阈值列表,得到相应类型资源的资源占用阈值,判断该进程在该列表中的资源占用量是否大于或等于查询得到的资源占用阈值,是则触发报警。
[0127]在本发明的一个实施例中,上述装置中,报警处理单元,适于通过指定渠道发送报警信息;通过指定渠道发送报警信息包括如下中的一种或多种:在目标设备上显示包含报警信息的弹窗;通过电子邮件系统向指定电子邮件地址发送报警信息;通过即时通讯系统向指定的即时通讯账号发送报警信息;通过手机短信向指定的手机号码发送报警信息;通过与指定服务器之间连接向该指定服务器上报报警信息。
[0128]需要说明的是,以上各装置实施例的【具体实施方式】与前述对应方法实施例的【具体实施方式】相同,在此不再赘述。
[0129]综上所述,本发明的技术方案,首先判断是否满足预设的监控条件,在满足条件的情况下进一步获取目标设备上的所有进程的标识,并获取每个进程对不同类型资源的占用信息,通过生
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1