业务系统的故障分析方法、系统、设备和存储介质与流程

文档序号:22386990发布日期:2020-09-29 17:49阅读:97来源:国知局
业务系统的故障分析方法、系统、设备和存储介质与流程

本发明涉及计算机应用技术领域,更为具体而言,涉及一种业务系统的故障分析方法、系统、设备和存储介质。



背景技术:

业务系统运行时通常是由多个节点有序结合,共同参与完成的业务链。当业务系统运行异常时,就需要快速、准确地找出业务链上引起其异常的一个或多个节点,进而才能准确地排除故障,恢复业务功能的正常运行。

现有技术通常需要由业务专家根据其自身运维经验进行分析和判断,以确定业务系统运行异常时的业务异常节点。

除上述人工参与的方法外,还可以通过尽量确定业务系统关联节点的范围(这些节点不一定在业务链上),然后收集这些节点的运行数据,并通过特定算法对这些运行数据的特定变化进行分析,进而判断业务系统关联节点是否为异常节点。

进一步的,针对业务异常节点的故障根本原因的定位,主要根据异常/故障节点的告警信息或运行指标的异常变化信息来判定业务故障的根本原因。

然而,上述现有技术都无法准确地获取节点间的关联关系、缩小故障节点范围,导致根据异常节点定位故障原因的准确性低,而且由于系统关联节点数据收集的运算工作量大,则无法达到快速定位故障节点的目标。其次,没有建立配置对象的关联关系,就不能自动获取该节点多维度的关联配置对象,包括平台层、网络层、设备层配置对象,进而无法进行完整的根因分析工作。同时,对于故障的根因定位,仅仅根据异常节点的告警信息或运行指标的异常变化信息来定位根因,无法对故障的根因进行全面的分析,进而无法实现准确的根因定位。



技术实现要素:

为解决上述现有技术存在的问题或部分问题,本发明提供了一种业务系统的故障分析方法、系统、设备和存储介质,可以基于业务链信息判断故障节点的范围,进而更加准确的定位故障产生原因。

根据本发明的第一方面,本发明实施方式提供了一种业务系统的故障分析方法,包括:获取业务运行过程中的运行指标;当所述运行指标异常时,获取该异常运行指标对应的错误对象;获取所述错误对象所涉及业务的业务链集;根据所述异常的运行指标对应的故障节点判断机制从所述业务链集中获取多个节点;从所述多个节点中选取出现次数超过预定阈值的节点作为故障节点。

本发明上述实施方式通过获取业务运行指标异常时的错误对象所涉及的业务链信息,在根据所述业务链集获取的多个节点中选取故障节点,可以结合业务链信息分析获取更加准确的故障节点,为后续的故障根因分析提供基础。

在本发明的一些实施方式中,所述运行指标包括:业务成功率、响应时间。

在本发明的一些实施方式中,获取所述错误对象所涉及业务的业务链集包括:获取所述错误对象所涉及业务的标识信息;根据所述标识信息获取所述错误对象所涉及业务的业务链,并汇总得到所述业务链集。

本发明上述实施方式通过获取错误对象涉及的每笔业务标识,进而通过相同的业务标识找到该笔业务的业务链,最后汇总得到错误对象对应的业务链集,能够得到错误对象关联的所有业务链信息及节点信息,使得对于业务系统的故障分析能够基于关联的业务链信息,由此获取准确的节点范围,进而得到更加准确的故障节点。

在本发明的一些实施方式中,当所述运行指标异常时,获取该异常运行指标对应的错误对象包括:当所述业务成功率异常时,获取数量增长超过第一阈值的错误码对象作为错误对象。

在本发明的一些实施方式中,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点包括:将所述业务链集中每一条业务链上的最后一个报错节点作为所述多个节点中的一个。

在本发明的一些实施方式中,当所述运行指标异常时,获取该异常运行指标对应的错误对象还包括:当所述响应时间异常时,获取响应时间增长超过第二阈值的业务对象作为错误对象。

在本发明的一些实施方式中,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点还包括:将所述业务链集中每一条业务链上处理时间变化最大的节点作为所述多个节点中的一个。

在本发明的一些实施方式中,所述故障节点诊断方法还包括:获取所述故障节点的多维度的关联配置对象。

在本发明的一些实施方式中,所述多维度的关联配置对象包括以下至少一种:应用维度的关联配置对象、平台维度的关联配置对象、网络维度的关联配置对象、存储维度的关联配置对象、主机系统维度的关联配置对象。

在本发明的一些实施方式中,所述故障节点诊断方法还包括:根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因。

本发明上述实施方式通过获取故障节点的多维度的关联配置对象对应的特征指标数据,能够收集更加全面的可能导致故障的线索,为根因定位的准确性提供基础。

在本发明的一些实施方式中,根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因,包括:过滤和汇总所述多维度的关联配置对象的变更信息、告警信息、用户访问信息;根据所述特征指标数据对应的健康检查信息和异常检测信息获取所述特征指标数据的异常程度和异常形态;根据所述特征指标数据的异常程度,以及所述特征指标数据的异常形态与所述运行指标异常的形态之间的相似程度,为所述特征指标数据分配权重;确定所述特征指标数据之间的追溯关系;输出所述过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,以及按照所述特征指标数据的权重和所述追溯关系推荐对应的配置对象及特征指标作为故障原因。

本发明上述实施方式通过输出经过过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,同时根据特征指标数据的异常程度、特征指标数据的异常形态与运行指标异常的形态之间的相似程度得到的权重、特征指标数据之间的追溯关系推荐对应的配置对象及特征指标作为故障原因,可以将可能导致故障的原因按照其可能性高低和关联关系进行推荐,实现标准化、智能化的故障原因输出,由此可以减少人员经验差异引起的根因定位偏差,实现标准化且高效的根因定位。

根据本发明的第二方面,本发明实施方式提供了一种业务系统的故障分析系统,包括:运行指标获取模块,用于获取业务运行过程中的运行指标;错误对象获取模块,用于当所述运行指标异常时,获取该异常运行指标对应的错误对象;业务链集获取模块,用于获取所述错误对象所涉及业务的业务链集;节点获取模块,用于根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点;故障节点获取模块,用于选取所述多个节点中出现次数超过预定阈值的节点作为故障节点。

本发明上述实施方式通过获取业务运行指标异常时的错误对象所涉及的业务链信息,在根据所述业务链集获取的多个节点中选取故障节点,可以结合业务链信息分析获取更加准确的故障节点,为后续的故障根因分析提供基础。

在本发明的一些实施方式中,所述运行指标包括:业务成功率、响应时间。

在本发明的一些实施方式中,获取所述错误对象所涉及业务的业务链集包括:获取所述错误对象所涉及业务的标识信息;根据所述标识信息获取所述错误对象所涉及业务的业务链,并汇总得到所述业务链集。

本发明上述实施方式通过获取错误对象涉及的每笔业务标识,进而通过相同的业务标识找到该笔业务的业务链,最后汇总得到错误对象对应的业务链集,能够得到错误对象关联的所有业务链信息及节点信息,使得对于业务系统的故障分析能够基于关联的业务链信息,由此获取准确的节点范围,进而得到更加准确的故障节点。

在本发明的一些实施方式中,当所述运行指标异常时,获取该异常运行指标对应的错误对象包括:当所述业务成功率异常时,获取数量增长超过第一阈值的错误码对象作为错误对象。

在本发明的一些实施方式中,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点包括:将所述业务链集中每一条业务链上的最后一个报错节点作为所述多个节点中的一个。

在本发明的一些实施方式中,当所述运行指标异常时,获取该异常运行指标对应的错误对象还包括:当所述响应时间异常时,获取响应时间增长超过第二阈值的业务对象作为错误对象。

在本发明的一些实施方式中,根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点还包括:将所述业务链集中每一条业务链上处理时间变化最大的节点作为所述多个节点中的一个。

在本发明的一些实施方式中,所述故障节点诊断系统还包括:关联配置对象获取模块,用于获取所述故障节点的多维度的关联配置对象。

在本发明的一些实施方式中,所述多维度的关联配置对象包括以下至少一种:应用维度的关联配置对象、平台维度的关联配置对象、网络维度的关联配置对象、存储维度的关联配置对象、主机系统维度的关联配置对象。

在本发明的一些实施方式中,所述故障节点诊断系统还包括:根因分析模块,用于根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因。

本发明上述实施方式通过获取故障节点的多维度的关联配置对象对应的特征指标数据,能够收集更加全面的可能导致故障的线索,为根因定位的准确性提供基础。

在本发明的一些实施方式中,根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因,包括:过滤和汇总所述多维度的关联配置对象的变更信息、告警信息、用户访问信息;根据所述特征指标数据对应的健康检查信息和异常检测信息获取所述特征指标数据的异常程度和异常形态;根据所述特征指标数据的异常程度,以及所述特征指标数据的异常形态与所述运行指标异常的形态之间的相似程度,为所述特征指标数据分配权重;确定所述特征指标数据之间的追溯关系;输出所述过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,以及按照所述特征指标数据的权重和所述追溯关系推荐对应的配置对象及特征指标作为故障原因。

本发明上述实施方式通过输出经过过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,同时根据特征指标数据的异常程度、特征指标数据的异常形态与运行指标异常的形态之间的相似程度得到的权重、特征指标数据之间的追溯关系推荐对应的配置对象及特征指标作为故障原因,可以将可能导致故障的原因按照其可能性高低和关联关系进行推荐,实现标准化、智能化的故障原因输出,由此可以减少人员经验差异引起的根因定位偏差,实现标准化且高效的根因定位。

根据本发明的第三方面,本发明实施方式提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述故障分析方法所包含的步骤。

根据本发明的第四方面,本发明实施方式提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的故障分析方法。

由上述可知,本发明实施方式提供的业务系统的故障分析方法、系统、存储介质和设备,通过获取业务运行指标异常时的错误对象所涉及的业务链信息,在根据所述业务链集获取的多个节点中选取故障节点,可以结合业务链信息分析获取更加准确的故障节点,为进一步的故障根因分析的准确性提供基础。

附图说明

图1是根据本发明一种实施方式的业务系统的故障分析方法的流程示意图;

图2是图1的步骤s12中异常的运行指标为业务成功率时的故障分析方法的流程示意图;

图3是图1的步骤s12中异常的运行指标为响应时间时的故障分析方法的流程示意图;

图4是图1中步骤s17的具体流程示意图;

图5是根据本发明一种实施方式的业务系统的故障分析系统的架构图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。

图1是根据本发明一种实施方式的业务系统的故障分析方法的流程示意图。

如图1所示,在本发明的一种实施方式中,所述故障分析方法可包括:步骤s11、步骤s12、步骤s13、步骤s14和步骤s15,下面对上述步骤进行具体的描述。

在步骤s11中,获取业务运行过程中的运行指标。在示例性实施方式中,所述运行指标可以包括但不限于业务成功率、响应时间。

在步骤s12中,当所述运行指标异常时,获取该异常运行指标对应的错误对象。

在步骤s13中,获取所述错误对象所涉及业务的业务链集。

在可选的实施方式中,可以通过获取所述错误对象所涉及业务的标识信息,进而根据所述标识信息获取所述错误对象所涉及业务的业务链并汇总得到所述业务链集。通过获取错误对象涉及的每笔业务标识,进而通过相同的业务标识找到该笔业务的业务链,最后汇总得到错误对象对应的业务链集,能够得到错误对象关联的所有业务链信息及节点信息,使得对于业务系统的故障分析能够基于关联的业务链信息,由此可以获取准确的节点范围,进而得到更加准确的故障节点。

在示例性实施方式中,业务链的获取前提是,每做一笔业务,业务发起端节点就生成一个包含业务名称和一个唯一标识的跟踪号信息,中途节点保持该唯一标识并输出相应的业务时序信息直至最终节点,由此,该跟踪号信息成为标记该笔业务对应业务链的全局统一标识信息。

在步骤s14中,根据所述异常的运行指标对应的故障节点判断机制从所述业务链集中获取多个节点。

在步骤s15中,从所述多个节点中选取出现次数超过预定阈值的节点作为故障节点。

采用本发明实施方式的上述故障分析方法,通过获取业务运行指标异常时的错误对象所涉及的业务链信息,并在根据所述业务链集获取的多个节点中选取故障节点,可以结合业务链信息分析获取更加准确的故障节点,为进一步的故障根因分析的准确性提供基础。

在本发明可选的实施方式中,当步骤s12中异常的运行指标为业务成功率时,如图2所示,针对业务成功率异常的故障分析方法具体可包括:步骤s21、步骤s22、步骤s23、步骤s24和步骤s25,下面对上述步骤进行具体的描述。

在步骤s21中,业务成功率异常。在可选的实施方式中,业务成功率异常可以是业务成功率不处于预定的业务成功率范围内,也可以是业务成功率的下降值超过预定下降数值。

在步骤s22中,获取数量增长超过第一阈值的错误码对象作为错误对象。

在步骤s23中,获取所述错误对象所涉及业务的业务链集。

在步骤s24中,获取所述业务链集中每一条业务链上的最后一个报错节点,以得到多个业务节点。

在步骤s25中,从所述多个业务节点中选取出现次数超过预定阈值的节点作为故障节点。

通过业务链信息判断故障节点,不仅能够避免遗漏和过度获取异常节点,并结合业务链信息更加准确的获取故障异常节点,还可以减少对业务专家的依赖及人工参与的工作量,实现规范化、自动化、智能化的故障节点判断。

在本发明可选的实施方式中,当步骤s12中异常的运行指标为响应时间时,如图3所示,针对响应时间异常的故障分析方法具体可包括:步骤s31、步骤s32、步骤s33、步骤s34和步骤s35,下面对上述步骤进行具体的描述。

在步骤s31中,响应时间异常。在可选的实施方式中,响应时间异常可以是响应时间不处于预定的响应时间范围内,也可以是响应时间的增长值超过预定的增长数值。

在步骤s32中,获取响应时间增长超过第二阈值的业务对象作为错误对象。

在步骤s33中,获取所述错误对象所涉及业务的业务链集。

在步骤s34中,获取所述业务链集中每一条业务链上处理时间变化最大的节点,以得到多个业务节点。

在步骤s35中,从所述多个业务节点中选取出现次数超过预定阈值的节点作为故障节点。

同样的,通过业务链信息判断故障节点,不仅能够避免遗漏和过度获取异常节点,并结合业务链信息更加准确的获取故障异常节点,还可以减少对业务专家的依赖及人工参与的工作量,实现规范化、自动化、智能化的故障节点判断。

可选的,本发明一种实施方式的业务系统的故障分析方法还包括步骤s16和步骤s17(如图1中的虚线框所示):步骤s16,获取故障节点的多维度关联配置对象;步骤s17,根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因。在示例性实施方式中,所述多维度的关联配置对象可以包括但不限于下述一种或多种:应用维度的关联配置对象、平台维度的关联配置对象、网络维度的关联配置对象、存储维度的关联配置对象、主机系统维度的关联配置对象。

图4是步骤s17的具体流程示意图。

如图4所示,根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因具体可包括:步骤s71、步骤s72、步骤s73、步骤s74和步骤s75,下面对上述步骤进行具体的描述。

在步骤s71中,过滤和汇总所述多维度的关联配置对象的变更信息、告警信息、用户访问信息。

在步骤s72中,根据所述特征指标数据对应的健康检查信息和异常检测信息获取所述特征指标数据的异常程度和异常形态。

在步骤s73中,根据所述特征指标数据的异常程度,以及所述特征指标数据的异常形态与所述运行指标异常的形态之间的相似程度,为所述特征指标数据分配权重。

在步骤s74中,确定所述特征指标数据之间的追溯关系。其中,该追溯关系可以为:当存在两个异常特征指标数据a和b,且其中一个异常特征指标数据a的异常引起了另一个异常特征指标数据b的异常,则这两个异常特征指标数据a和b之间存在着追溯关系。

在可选的实施方式中,通过将人工经验得到的各个指标间的关联关系生成为指标关系树,从而在获取到异常特征指标数据时,根据所述指标关系树确定异常特征指标数据之间的追溯关系。

在步骤s75中,输出所述过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,以及按照所述特征指标数据的权重和所述追溯关系推荐对应的配置对象及特征指标作为故障原因。在可选的实施方式中,按照权重排序获取预定个数的配置对象及特征指标进行推荐。

在可选的实施方式中,根据所述追溯关系进行推荐可以包括:根据异常特征指标数据之间的追溯关系,当确定一个下层异常特征指标数据导致了一个上层特征指标数据异常时,则过滤掉该上层异常指标,由此可以筛选出导致故障的根本原因。

通过上述方法可以将可能导致故障的原因按照其可能性高低和关联关系进行推荐,从而实现标准化、智能化(规范化、自动化)的故障原因输出,由此可以减少人员经验差异引起的根因定位偏差,实现标准化且高效的根因定位。

图5是根据本发明一种实施方式的业务系统的故障分析系统的架构图。

如图5所示,所述监控系统包括:

运行指标获取模块510,用于获取业务运行过程中的运行指标。在示例性实施方式中,所述运行指标可以包括但不限于业务成功率、响应时间。

错误对象获取模块520,用于当所述运行指标异常时,获取该异常运行指标对应的错误对象。

在可选的实施方式中,当所述业务成功率异常时,获取数量明显增长的错误码对象作为错误对象;当所述响应时间异常时,获取响应时间有明显增长的业务对象作为错误对象。示例性的,当所述业务成功率异常时,获取数量增长超过第一阈值的错误码对象作为错误对象;当所述响应时间异常时,获取响应时间增长超过第二阈值的业务对象作为错误对象。

业务链集获取模块530,用于获取所述错误对象所涉及业务的业务链集。

在可选的实施方式中,可以通过获取所述错误对象所涉及业务的标识信息,进而根据所述标识信息获取所述错误对象所涉及业务的业务链并汇总得到所述业务链集。通过获取错误对象涉及的每笔业务标识,进而通过相同的业务标识找到该笔业务的业务链,最后汇总得到错误对象对应的业务链集,能够得到错误对象关联的所有业务链信息及节点信息,使得对于业务系统的故障分析能够基于关联的业务链信息,由此可以获取准确的节点范围,进而得到更加准确的故障节点。

节点获取模块540,用于根据所述异常的运行指标对应的故障节点判断机制获取所述业务链集中的多个节点。

在可选的实施方式中,当所述业务成功率异常时,将所述业务链集中每一条业务链上的最后一个报错节点作为所述多个节点中的一个;当所述响应时间异常时,将所述业务链集中每一条业务链上处理时间变化最大的节点作为所述多个节点中的一个。

故障节点获取模块550,用于选取所述多个节点中出现次数超过预定阈值的节点作为故障节点。

关联配置对象获取模块560,用于获取所述故障节点的多维度的关联配置对象。在示例性实施方式中,所述多维度的关联配置对象可以包括但不限于以下一种或多种:应用维度的关联配置对象、平台维度的关联配置对象、网络维度的关联配置对象、存储维度的关联配置对象、主机系统维度的关联配置对象。

根因分析模块570,用于根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因。

在可选的实施方式中,根据所述故障节点的多维度的关联配置对象对应的特征指标数据定位故障原因,包括:过滤和汇总所述多维度的关联配置对象的变更信息、告警信息、用户访问信息;根据所述特征指标数据对应的健康检查信息和异常检测信息获取所述特征指标数据的异常程度和异常形态;根据所述特征指标数据的异常程度,以及所述特征指标数据的异常形态与所述运行指标异常的形态之间的相似程度,为所述特征指标数据分配权重;确定所述特征指标数据之间的追溯关系;输出所述过滤和汇总后的多维度的关联配置对象的变更信息、告警信息、用户访问信息,以及按照所述特征指标数据的权重和所述追溯关系推荐对应的配置对象及特征指标作为故障原因。

采用本发明实施方式的上述故障分析系统,通过获取业务运行指标异常时的错误对象所涉及的业务链信息,并在根据所述业务链集获取的多个节点中选取故障节点,可以结合业务链信息分析获取更加准确的故障节点,为进一步的故障根因分析的准确性提供基础。并且通过将可能导致故障的原因按照其可能性高低和关联关系进行推荐,从而实现标准化、智能化(规范化、自动化)的故障原因输出,由此可以减少人员经验差异引起的根因定位偏差,实现标准化且高效的根因定位。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。

对应的,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机可读指令或程序,所述计算机可读指令或程序被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述故障分析方法所包含的步骤,在此不再赘述。其中,所述存储介质可以包括:例如,光盘、硬盘、软盘、闪存、磁带等。

另外,本发明实施方式还提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令或程序,其中,所述一条或多条计算机指令或程序被所述处理器执行时能够实现如上任意一种实施方式所述的故障分析方法。所述计算机设备可以是,例如,服务器、台式计算机、笔记本计算机、平板电脑等。

最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。因此本发明的保护范围应以权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1