一种故障根因确定方法、装置及电子设备与流程

文档序号:31722224发布日期:2022-10-04 23:35阅读:来源:国知局

技术特征:
1.一种故障根因确定方法,其特征在于,所述方法包括:当监听到云平台出现云平台故障时,从至少一故障服务中确定底层故障服务;其中,所述故障服务为出现故障的应用服务,所述底层故障服务为处于所属调用链中最底层的故障服务;从所述云平台的各架构层中,确定目标架构层;其中,所述目标架构层为:所述各架构层中,层位置不低于故障架构层的架构层,所述故障架构层为:在所述底层故障服务出现故障时的窗口期内,出现故障的各架构层中,层位置最低的架构层;从所述目标架构层包含的层单元中,确定用于实现所述底层故障服务的层单元,作为目标层单元;基于所述目标层单元的单元信息,确定所述云平台故障的故障根因。2.根据权利要求1所述的方法,其特征在于,所述从至少一故障服务中确定底层故障服务,包括:基于所述云平台各应用服务之间的拓扑关系,确定故障调用链;其中,所述故障调用链为包含至少一故障服务的调用链;从所述故障调用链包含的至少一故障服务中,确定在所述故障调用链中位置最低的故障服务,作为底层故障服务。3.根据权利要求2所述的方法,其特征在于,所述基于所述云平台各应用服务之间的拓扑关系,确定故障调用链,包括:基于所述云平台各应用服务之间的拓扑关系,确定每一故障服务的上游应用服务和下游应用服务;基于各故障服务的上游应用服务和下游应用服务,确定每一故障服务所处的调用链,作为故障调用链。4.根据权利要求1-3任一项所述的方法,其特征在于,在所述当监听到云平台出现云平台故障时,从至少一故障服务中确定底层故障服务之后,且在所述从所述云平台的各架构层中,确定目标架构层之前,所述方法还包括:确定所述底层故障服务发生故障时的窗口期内,针对所述底层故障服务所在的调用链内各应用服务的事件操作;其中,所述事件操作包括发布服务操作、变更服务操作以及配置服务操作中的至少一种;针对所述事件操作执行回滚操作;在所述回滚操作结束之后,确定所述云平台故障是否已消除;若未消除,则执行所述从所述云平台的各架构层中,确定目标架构层的步骤。5.根据权利要求1-3任一项所述的方法,其特征在于,所述从所述云平台的各架构层中,确定目标架构层,包括:确定所述云平台的各架构层中,在所述底层故障服务发生故障时的窗口期内,出现故障且层位置最低的架构层,作为故障架构层;将所述各架构层中,层位置不低于所述故障架构层的架构层,作为目标架构层。6.根据权利要求5所述的方法,其特征在于,所述确定所述云平台的各架构层中,在所述底层故障服务发生故障时的窗口期内,出现故障且层位置最低的架构层,作为故障架构层,包括:
确定所述云平台的各架构层中,在所述底层故障服务发生故障时的窗口期内,出现故障的架构层,作为预选架构层;在所确定的预选架构层中,确定层位置最低的架构层,作为故障架构层。7.根据权利要求6所述的方法,其特征在于,所述确定所述云平台的各架构层中,在所述底层故障服务发生故障时的窗口期内,出现故障的架构层,作为预选架构层,包括:确定所述底层故障服务发生故障时的窗口期对应时间段,作为故障时间段;在所述云平台的各架构层中,确定在所述故障时间段内出现故障的架构层,作为预选架构层。8.根据权利要求1-3任一项所述的方法,其特征在于,所述基于所述目标层单元的单元信息,确定所述云平台故障的故障根因,包括:确定所述目标层单元的单元信息中,处于异常状态的单元信息,作为异常信息;基于所述异常信息,确定所述云平台故障的故障根因。9.根据权利要求8所述的方法,其特征在于,所述单元信息包括:指标信息和部署信息;所述指标信息为描述层单元各项指标参数的信息,所述部署信息为描述层单元部署位置的信息。10.根据权利要求1-3任一项所述的方法,其特征在于,在所述基于所述目标层单元的单元信息,确定所述云平台故障的故障根因之后,所述方法还包括:生成展示所确定故障根因的可视化报告。11.根据权利要求10所述的方法,其特征在于,所述可视化报告还用于展示各故障调用链的拓扑图、所述云平台的分层架构图以及信息展示区域中的至少一种;其中,所述故障调用链为包含至少一故障服务的调用链,每一故障调用链的拓扑图突出展示故障服务,所述分层架构图像突出展示在所述底层故障服务出现故障时的窗口期内,出现故障的各架构层,所述信息展示区域用于展示所述目标层单元的单元信息。12.一种故障根因确定装置,其特征在于,所述装置包括:服务确定模块,用于当监听到云平台出现云平台故障时,从至少一故障服务中确定底层故障服务;其中,所述故障服务为出现故障的应用服务,所述底层故障服务为处于所属调用链中最底层的故障服务;架构层确定模块,用于从所述云平台的各架构层中,确定目标架构层;其中,所述目标架构层为:所述各架构层中,层位置不低于故障架构层的架构层,所述故障架构层为:在所述底层故障服务出现故障时的窗口期内,出现故障的各架构层中,层位置最低的架构层;单元确定模块,用于从所述目标架构层包含的层单元中,确定用于实现所述底层故障服务的层单元,作为目标层单元;根因确定模块,用于基于所述目标层单元的单元信息,确定所述云平台故障的故障根因。13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-11任一所述的方法步骤。14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机
程序,所述计算机程序被处理器执行时实现权利要求1-11任一所述的方法步骤。

技术总结
本发明实施例提供了一种故障根因确定方法、装置及电子设备,应用于云平台故障定位技术领域。该方法包括:当监听到云平台出现云平台故障时,从至少一故障服务中确定底层故障服务;其中,故障服务为出现故障的应用服务,底层故障服务为处于所属调用链中最底层的故障服务;从云平台的各架构层中,确定目标架构层;其中,目标架构层为:各架构层中,层位置不低于故障架构层的架构层,故障架构层为:在底层故障服务出现故障时的窗口期内,出现故障的各架构层中,层位置最低的架构层;从目标架构层包含的层单元中,确定用于实现底层故障服务的目标层单元;基于目标层单元的单元信息,确定云平台故障的故障根因。通过本方案,可以快速地确定故障根因。定故障根因。定故障根因。


技术研发人员:张乐奇 明旭
受保护的技术使用者:杭州萤石软件有限公司
技术研发日:2022.06.27
技术公布日:2022/10/3
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1