计算机服务器运行监控系统以及方法与流程

文档序号:17989263发布日期:2019-06-22 00:39阅读:248来源:国知局
计算机服务器运行监控系统以及方法与流程

本发明涉及计算机服务器监控技术领域,具体为一种计算机服务器运行监控系统以及方法。



背景技术:

计算机服务器系统本身是一个相当复杂的运行系统,各种运行因素相互影响相互作用。面对这样的一个系统若是单纯使用人工方式来进行维护,则对系统维护人员来说不仅是脑力的考验,也是体力的考验。系统维护人员就好像是一个消防员,疲于奔波在各个系统间四处救灾,显得十分被动。而这种救灾式的运行监控方式与小型机运行的一些规律不太适应,存在着许多问题。

而正是因为这些特点造成了在维护工作中的许多难点。首先由于系统的复杂性造成,我们在手工收集各系统信息时费时费事十分不便,同时分析这些信息也需要很强的专业性。而系统运行又必须具有连续性,这就需要能够及时快速的发现并解决问题,这一点是人工处理在短时间内很难做到的。同时,又因为故障发生的随机性,就需要有大量人员来进行维护,以便及时处理故障,而这又会提高维护成本。而如果不随时准备着进行维护,由于异常而停止服务,会直接导致产销系统停止运行,这对生产活动会带来巨额的经济损失。



技术实现要素:

本发明的目的在于提供一种计算机服务器运行监控系统以及方法,通过数据采集单元、数据处理单元以及推理模块之间的配合,降低了人工成本,而且能够实时了解计算机服务器当前的运行状况、状态变化趋势、发生故障的位置、发生故障的严重程度以及预测的故障隐患等结论,从而解决了计算机服务器的维护和检修难题。

为实现上述目的,本发明实施例提供如下技术方案:一种计算机服务器运行监控方法,包括如下步骤:

s1,采用数据采集单元采集计算机服务器运行时的运行信息,并进行初步处理;

s2,采用数据处理单元接收所述数据采集单元传递来的数据并进行处理;

s3,采用推理模块对所述数据处理单元处理的结果进行推理分析,以得到监控结论,所述监控结论包括有运行状况结论、状态变化趋势结论、发生故障的位置结论、发生故障的严重程度结论以及预测的故障隐患结论。

进一步,在所述s1步骤中,所述数据采集单元包括监控代理模块和若干监控功能模块,所述计算机服务器运行时的运行信息有多个种类,每一所述监控功能模块对应采集一种运行信息,具体的采集步骤为:

s10,采用监控代理模块根据采集何种运行信息的控制指令,给监控功能模块发送采集指令,

s11,所述监控功能模块接收所述监控代理模块发送来的采集指令,并对其对应的运行信息进行数据采集,整形并形成报文后传递至所述数据处理单元。

进一步,在所述s2步骤中,所述数据处理单元包括监控端主模块和监控报文处理模块,具体的处理步骤为:

s20,采用所述监控端主模块定时发送监控请求至所述监控报文处理模块;

s21,所述监控报文处理模块接收到所述监控端主模块的请求后向所述数据采集单元发送数据采集请求,并接收在该采集请求下传递来的数据并进行处理。

进一步,所述监控报文处理模块处理后的数据信息包括标准化格式,所述标准化格式包括时间、机型以及类别。

进一步,采用数据库储存计算机服务器运行时的运行信息、储存所述监控报文处理模块处理后的数据信息以及储存所述推理模块得到的监控结论,在需要时,可供所述数据采集单元和所述推理模块调用。

进一步,采用应用展现单元将所述推理模块得出的监控结论直观地展现给维护人员。

进一步,采用的所述应用展现单元包括监控子单元、报警子单元以及报表子单元,具体为:

采用所述监控子单元对所述监控结论进行监控,并采用所述报警子单元对所述监控子单元监控到的发生故障的所述监控结论进行报警,或采用所述报表子单元将所述监控结论通过报表的方式展现给维护人员。

本发明实施例提供另一种技术方案:计算机服务器运行监控系统,包括数据采集单元和数据处理单元,

所述数据采集单元,用于采集计算机服务器运行时的运行信息,并初步处理后传递至所述数据处理单元;

所述数据处理单元,用于接收所述数据采集单元传递来的数据并进行处理;

所述数据处理单元包括推理模块,

所述推理模块,用于对所述数据处理单元处理的结果进行推理分析,以得到监控结论;

所述监控结论具体包括运行状况结论、状态变化趋势结论、发生故障的位置结论、发生故障的严重程度结论以及预测的故障隐患结论。

进一步,所述数据采集单元包括监控代理模块和若干监控功能模块,所述计算机服务器运行时的运行信息有多个种类,每一所述监控功能模块对应采集一种运行信息;

所述监控代理模块,用于根据采集何种运行信息的控制指令,给所述监控功能模块发送采集指令;

所述监控功能模块,用于接收所述监控代理模块发送来的采集指令,并对其对应的运行信息进行数据采集,并反馈至所述监控代理模块整形并形成报文后传递至所述数据处理单元。

进一步,所述数据处理单元还包括监控端主模块和监控报文处理模块,

所述监控端主模块,用于定时发送监控请求至所述监控报文处理模块;

所述监控报文处理模块,用于接收到所述监控端主模块的请求后向所述数据采集单元发送数据采集请求,并接收在该采集请求下传递来的数据并进行处理。

与现有技术相比,本发明的有益效果是:通过数据采集单元、数据处理单元以及推理模块之间的配合,降低了人工成本,而且能够实时了解计算机服务器当前的运行状况、状态变化趋势、发生故障的位置、发生故障的严重程度以及预测的故障隐患等结论,从而解决了计算机服务器的维护和检修难题。

附图说明

图1为本发明实施例提供的一种计算机服务器运行监控方法的步骤流程图;

图2为本发明实施例提供的一种计算机服务器运行监控方法的数据采集单元的具体采集的步骤流程图;

图3为发明实施例提供的一种计算机服务器运行监控方法的数据处理单元的具体处理的步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

实施例一:

请参阅图1,本实施例提供一种计算机服务器运行监控方法,包括如下步骤:s1,采用数据采集单元采集计算机服务器运行时的运行信息,并进行初步处理;s2,采用数据处理单元接收所述数据采集单元传递来的数据并进行处理;s3,采用推理模块对所述数据处理单元处理的结果进行推理分析,以得到运行状况结论、状态变化趋势结论、发生故障的位置结论、发生故障的严重程度结论以及预测的故障隐患结论。在本实施例中,由单元模块化的程序替代现有技术中技术人员进行计算机服务器维护的形式,在人工成本和人工压力上有了极大的降低。而且由推理模块推理出来的运行状况结论、状态变化趋势结论、发生故障的位置结论、发生故障的严重程度结论以及预测的故障隐患结论能够帮助维护人员了解当前的运行状况,及时有效地发现并解决问题。通过本系统实现了对计算机服务器故障早知道、早预报以及早诊断,做到了可预防故障的发生,把故障消灭在萌芽之中,其目的是提高计算机服务器运行完好率以及减少故障停机时间及降低维修成本。

作为本发明实施例的优化方案,请参阅图2,所述数据采集单元包括监控代理模块和若干监控功能模块,所述计算机服务器运行时的运行信息有多个种类,每一所述监控功能模块对应采集一种运行信息,具体的采集步骤为:s10,采用监控代理模块根据采集何种运行信息的控制指令,给监控功能模块发送采集指令,s11,所述监控功能模块接收所述监控代理模块发送来的采集指令,并对其对应的运行信息进行数据采集,整形并形成报文后传递至所述数据处理单元。在本实施例中,监控代理模块和监控功能模块互相协作来完成数据的采集工作。具体的,监控代理模块用来与数据处理单元进行沟通,它接收其传递来的此时采集何种运行信息的采集指令,该采集指令可以是维护人员发出的指令并借由数据处理单元发送,也可以是数据处理单元自行发送;监控功能模块有两个工作,其一,它先要接收监控代理模块发送来的采集指令,按照该采集指令完成对应的运行信息的数据采集,其二,在完成了采集工作后,将采集到的信息反馈(即返还)给监控代理模块进行初步处理后发送给数据处理单元处理。由于计算机服务器运行时的运行信息实际上包含广泛,例如操作系统的运行信息、应用系统的运行信息、数据库的运行信息等等,因此设多个监控功能模块来对这些不同种类的运行信息进行采集,使得每一个运行信息都至少有一个监控功能模块对其进行采集,可保证需要采集时始终有监控功能模块预备着,从而进一步提高了效率。在本实施例中,作为本实施例的一个优选的方案,监控功能模块采集到的数据通过接口发送给监控代理模块,然后监控代理模块进行的初步处理,该初步处理具体为整理并形成报文,通过报文的方式来传递更为符合数据处理单元的要求,便于其接收。作为本实施例的另一个优选的方案,采集的手段有rpc、snmp、syslog、专用agent、脚本方式等。

作为本发明实施例的优化方案,请参阅图3,在所述s2步骤中,所述数据处理单元包括监控端主模块和监控报文处理模块,具体的处理步骤为:s20,采用所述监控端主模块定时发送监控请求至所述监控报文处理模块;s21,所述监控报文处理模块接收到所述监控端主模块的请求后向所述数据采集单元发送数据采集请求,并接收在该采集请求下传递来的数据并进行处理。在本实施例中,维护人员可以预先设定监控端主模块发送监控请求的时间,监控端主模块到了规定的时间就会发送一次监控请求,实现了自动化。而且数据采集单元是需要有请求后才会去采集数据的,这样也避免了资源的浪费,并实现精确采集(即精确到采集何种运行信息)。设置的监控报文处理模块可以对应到上述的监控代理模块,由于该监控代理模块能够处理成报文,因此容易与监控报文处理模块进行匹配。

进一步优化上述方案,所述监控报文处理模块处理后的数据信息包括标准化格式,所述标准化格式包括时间、机型以及类别。在本实施例中,监控报文处理模块需要依据从数据库中读到的配置信息,对报文数据进行分析,并按照时间、机型、类别等标准化格式将监控结论实时发送至数据库中储存。然后,在监控报文处理模块完成报文后,监控端主模块将启动推理模块实时读取数据库中的数据处理单元处理的结果,并进行推理分析,完成分析后再将监控结论实时储存到数据库中。

作为本发明实施例的优化方案,采用数据库储存计算机服务器运行时的运行信息、储存所述监控报文处理模块处理后的数据信息以及储存所述推理模块得到的监控结论,在需要时,可供所述数据采集单元和所述推理模块调用。在本实施例中,数据库位于所述数据处理单元中,各个存储以及调用均为实时进行的,如此可以保证数据的精确程度,进而得到更为正确的结论。

作为本发明实施例的优化方案,采用应用展现单元将所述推理模块得出的监控结论直观地展现给维护人员。在本实施例中,通过该应用展现单元直观地展现监控结论,可便于维护人员及时且快速地了解到当前的计算机服务器的运行情况,进而便于维护人员作出相应的维护措施。

进一步优化上述方案,采用的所述应用展现单元包括监控子单元、报警子单元以及报表子单元,具体为:采用所述监控子单元对所述监控结论进行监控,并采用所述报警子单元对所述监控子单元监控到的发生故障的所述监控结论进行报警,或采用所述报表子单元将所述监控结论通过报表的方式展现给维护人员。在本实施例中,细化了应用展现单元的功能,其包括有监控功能、报警功能以及打印报表的功能,通过报警功能和打印报表的功能均可以直观地体现给维护人员。优选的,应用展现单元还包括有传输接口以及显示界面,通过传输接口,维护人员能够将报表拷贝出来,用作分析和研究,通过显示界面,该界面可以是液晶显示画面或者是投影画面,可以将报表呈现给维护人员。

作为本发明实施例的优化方案,推理模块依据在计算机服务器中出现故障的判断方式,即以初始状态值为判读标准,结合其他相关信息进行关联并做相应的匹配,其使用的推理原则是正向推理和非单调推理,并配合网格计算来得到最终的监控结论。其推理过程是首先将所述数据处理单元处理的结果与推理规则的条件项进行逐条比较,然后将可以匹配的推理条件依据推理规则得出监控结论。举个推理的例子:

若java虚拟机内存使用率持续大于95%,同时java虚拟机gc操作持续出现间隔时间少于5秒,执行时间大于10秒的情况,则应用服务器发生出dump的故障。

其中推理条件为:

java虚拟机内存使用率持续大于95%,

java虚拟机gc操作持续出现间隔时间少于5秒,执行时间大于10秒

因此可以得到运行状况结论和发生故障的位置结论为:应用服务器发生出dump的故障。

在进行推理时,我们首先将监控结果数据与上述两个推理条件进行比较对比。若发现有可匹配的监控结果数据,则依据推理规则推理出推理结论。反之,则对下一个规则条件进行比较对比。

依据上述的例子,当发生出dump的故障次数多了后,就会形成一个状态变化趋势线条,监控结论根据该线条就能够判断出状态变化趋势结论。

同样依据上述的例子,根据处理出dump的故障的时间,将每次用到的时间记录下来,通过比较,即可得到发生故障的严重程度结论,因为处理的时间越长,故障严重程度越高。

还是依据上述的例子,通过分析多次出dump故障的时间之间的间隔,可以得到预测的故障隐患结论,即合适会再次发生出dump故障。

实施例二:

,本发明实施例提供一种计算机服务器运行监控系统,包括数据采集单元和数据处理单元。其中,所述数据采集单元用于采集计算机服务器运行时的运行信息,并初步处理后传递至所述数据处理单元;所述数据处理单元用于接收所述数据采集单元传递来的数据并进行处理;所述数据处理单元包括推理模块,所述推理模块用于对所述数据处理单元处理的结果进行推理分析,以得到监控结论。最终得到的所述监控结论具体包括运行状况结论、状态变化趋势结论、发生故障的位置结论、发生故障的严重程度结论以及预测的故障隐患结论。在本实施例中,由单元模块化的程序替代现有技术中技术人员进行计算机服务器维护的形式,在人工成本和人工压力上有了极大的降低。而且由推理模块推理出来的运行状况结论、状态变化趋势结论、发生故障的位置结论、发生故障的严重程度结论以及预测的故障隐患结论能够帮助维护人员了解当前的运行状况,及时有效地发现并解决问题。通过本系统实现了对计算机服务器故障早知道、早预报以及早诊断,做到了可预防故障的发生,把故障消灭在萌芽之中,其目的是提高计算机服务器运行完好率以及减少故障停机时间及降低维修成本。

作为本发明实施例的优化方案,本系统还包括应用展现单元,所述应用展现单元用于将所述推理模块得出的监控结论直观地展现给维护人员。在本实施例中,通过该应用展现单元直观地展现监控结论,可便于维护人员及时且快速地了解到当前的计算机服务器的运行情况,进而便于维护人员作出相应的维护措施。

进一步优化上述方案,所述应用展现单元包括监控子单元、报警子单元以及报表子单元。其中,所述监控子单元用于对所述监控结论进行监控;所述报警子单元用于对所述监控子单元监控到的发生故障的所述监控结论进行报警;所述报表子单元,用于将所述监控结论通过报表的方式展现给维护人员。在本实施例中,细化了应用展现单元的功能,其包括有监控功能、报警功能以及打印报表的功能,通过报警功能和打印报表的功能均可以直观地体现给维护人员。优选的,应用展现单元还包括有传输接口以及显示界面,通过传输接口,维护人员能够将报表拷贝出来,用作分析和研究,通过显示界面,该界面可以是液晶显示画面或者是投影画面,可以将报表呈现给维护人员。

进一步优化上述方案,所述数据采集单元包括监控代理模块和若干监控功能模块,所述计算机服务器运行时的运行信息有多个种类,每一所述监控功能模块对应采集一种运行信息;所述监控代理模块,用于根据采集何种运行信息的控制指令,给所述监控功能模块发送采集指令;所述监控功能模块,用于接收所述监控代理模块发送来的采集指令,并对其对应的运行信息进行数据采集,并反馈至所述监控代理模块初步处理后传递至所述数据处理单元。在本实施例中,监控代理模块和监控功能模块互相协作来完成数据的采集工作。具体的,监控代理模块用来与数据处理单元进行沟通,它接收其传递来的此时采集何种运行信息的采集指令,该采集指令可以是维护人员发出的指令并借由数据处理单元发送,也可以是数据处理单元自行发送;监控功能模块有两个工作,其一,它先要接收监控代理模块发送来的采集指令,按照该采集指令完成对应的运行信息的数据采集,其二,在完成了采集工作后,将采集到的信息反馈(即返还)给监控代理模块进行初步处理后发送给数据处理单元处理。由于计算机服务器运行时的运行信息实际上包含广泛,例如操作系统的运行信息、应用系统的运行信息、数据库的运行信息等等,因此设多个监控功能模块来对这些不同种类的运行信息进行采集,使得每一个运行信息都至少有一个监控功能模块对其进行采集,可保证需要采集时始终有监控功能模块预备着,从而进一步提高了效率。在本实施例中,作为本实施例的一个优选的方案,监控功能模块采集到的数据通过接口发送给监控代理模块,然后监控代理模块进行的初步处理,该初步处理具体为整理并形成报文,通过报文的方式来传递更为符合数据处理单元的要求,便于其接收。作为本实施例的另一个优选的方案,采集的手段有rpc、snmp、syslog、专用agent、脚本方式等。

作为本发明实施例的优化方案,所述数据处理单元还包括监控端主模块和监控报文处理模块。其中,所述监控端主模块用于定时发送监控请求至所述监控报文处理模块;所述监控报文处理模块用于接收到所述监控端主模块的请求后向所述数据采集单元发送数据采集请求,并接收在该采集请求下传递来的数据并进行处理。在本实施例中,维护人员可以预先设定监控端主模块发送监控请求的时间,监控端主模块到了规定的时间就会发送一次监控请求,实现了自动化。而且数据采集单元是需要有请求后才会去采集数据的,这样也避免了资源的浪费,并实现精确采集(即精确到采集何种运行信息)。设置的监控报文处理模块可以对应到上述的监控代理模块,由于该监控代理模块能够处理成报文,因此容易与监控报文处理模块进行匹配。

进一步优化上述方案,所述数据处理单元还包括数据库,所述数据库用于实时储存计算机服务器运行时的运行信息、实时储存所述监控报文处理模块处理后的数据信息以及实时储存所述推理模块得到的监控结论,以及用于供所述数据采集单元和所述推理模块实时调用。在本实施例中,各个存储以及调用均为实时进行的,如此可以保证数据的精确程度,进而得到更为正确的结论。

进一步优化上述方案,所述监控报文处理模块处理后的数据信息包括标准化格式,所述标准化格式为时间、机型以及类别。在本实施例中,监控报文处理模块需要依据从数据库中读到的配置信息,对报文数据进行分析,并按照时间、机型、类别等标准化格式将监控结论实时发送至数据库中储存。然后,在监控报文处理模块完成报文后,监控端主模块将启动推理模块实时读取数据库中的数据处理单元处理的结果,并进行推理分析,完成分析后再将监控结论实时储存到数据库中。

作为本发明实施例的优化方案,推理模块依据在计算机服务器中出现故障的判断方式,即以初始状态值为判读标准,结合其他相关信息进行关联并做相应的匹配,其使用的推理原则是正向推理和非单调推理,并配合网格计算来得到最终的监控结论。其推理过程是首先将所述数据处理单元处理的结果与推理规则的条件项进行逐条比较,然后将可以匹配的推理条件依据推理规则得出监控结论。举个推理的例子:

若java虚拟机内存使用率持续大于95%,同时java虚拟机gc操作持续出现间隔时间少于5秒,执行时间大于10秒的情况,则应用服务器发生出dump的故障。

其中推理条件为:

java虚拟机内存使用率持续大于95%,

java虚拟机gc操作持续出现间隔时间少于5秒,执行时间大于10秒

因此可以得到运行状况结论和发生故障的位置结论为:应用服务器发生出dump的故障。

在进行推理时,我们首先将监控结果数据与上述两个推理条件进行比较对比。若发现有可匹配的监控结果数据,则依据推理规则推理出推理结论。反之,则对下一个规则条件进行比较对比。

依据上述的例子,当发生出dump的故障次数多了后,就会形成一个状态变化趋势线条,监控结论根据该线条就能够判断出状态变化趋势结论。

同样依据上述的例子,根据处理出dump的故障的时间,将每次用到的时间记录下来,通过比较,即可得到发生故障的严重程度结论,因为处理的时间越长,故障严重程度越高。

还是依据上述的例子,通过分析多次出dump故障的时间之间的间隔,可以得到预测的故障隐患结论,即合适会再次发生出dump故障。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1