一种基于观测云进行根因分析的结果输出方法及系统与流程

文档序号:37017688发布日期:2024-02-09 13:09阅读:16来源:国知局
一种基于观测云进行根因分析的结果输出方法及系统与流程

本发明涉及根因分析,具体而言,涉及一种基于观测云进行根因分析的结果输出方法及系统。


背景技术:

1、根本原因分析(root cause analysis,rca)是一种结构化的问题处理方法,用以逐步找出问题的根本原因并加以解决,而不是仅仅关注问题的表征。根本原因分析是一个系统化的问题处理过程,包括确定和分析问题原因,找出问题解决办法,并制定问题预防措施。

2、根因分析的目标是确定问题的根本原因,以便采取适当的措施来解决问题并防止类似问题再次发生。

3、然而,传统的aiops运维系统在解决运维场景时有着难以逾越的技术问题,比如,如何获取高质量高时效的监控数据。

4、现阶段的机器学习模型往往只能进行单指标预测及异常点的检测,无法实现运维场景的实时感知,无法支持多技术栈和混合架构下的不断增大的复杂性,基于根因分析的处理效果较差。


技术实现思路

1、鉴于此,本发明的目的在于提出一种基于观测云进行根因分析的结果输出方法,基于观测云根因分析构建发现问题、分析问题、定位问题的闭环流程,利用观测云serverless引擎func,通过检测函数的开发,满足一站式分析的场景,针对有固定action响应操作的场景也可通过命令函数的方式实现发现、分析、定位、解决问题的闭环处理,提高基于根因分析的处理效果。

2、本发明提供一种基于观测云进行根因分析的结果输出方法,包括:结果展示(结果展示是指具备根因分析结果的不同展示形式,根据不同的使用者,可展示不同的信息重点)、异常告警(异常告警是指具备对符合预先配置规则的异常情况进行告警的能力)、方案推荐(是指具备在问题定位与排查过程中积累解决方案,基于根因定位进行推荐的能力)、外部运维体系对接(是指具备基于api接口与消息/通知等形式对接外部运维系统的能力);

3、其中,所述结果展示的方法包括:

4、展示指标、链路、日志等故障现场异常数据;基于链路拓扑图像展示结果;以因果图形式展示上下游影响;展示问题发生的环节与影响范围;提供具备多种观测视图的可视化方案;提供细节化、可修复化的根因列表;提供故障预测,提前告警故障;

5、所述异常告警的方法包括:

6、在符合预设配置规则时产生相应的告警信息,触发告警详情信息并通过邮件、短信、电话或者im信息等通知相关技术人员;在告警同时产生诊断信息,智能巡检触发告警并产生诊断信息;提供用户自定义根因分析告警策略,智能巡检用户自定义根因分析;在告警同时给出推荐的解决方案信息;

7、其中,触发告警详情信息并通过im信息通知的方法包括以下步骤:

8、s1、编写飞书机器人收取issue信息的规则;

9、s2、编写监听脚本;

10、s21、在做好所述收取issue信息的规则配置后,在已经安装配置好的datafluxfunc中编写获取新消息,并通过webhook发送到飞书机器人的脚本;

11、s22、获取所有的频道列表,找出要监听的全部频道;

12、在引入需要的常量后需要两个方法来完成新issue的获取,首先要了解异常追踪的展示逻辑,在异常追踪模块中所有的issue都会被频道管理,但是所有新建的issue都会出现在全部的频道中,所以需要监听全部频道;

13、s23、在获取到需要的频道channel_uuid后,通过频道id查找当前频道中的新增issue,同时将获取到的新issue发送给飞书机器人的webhook;

14、s24、配置定时任务,自动执行获取新issue的任务;

15、在配置好任务后点击执行立即触发一次任务,或当有新issue时自行触发;当异常追踪中有新issue时,能够在配置了机器人应用的飞书群中获取到新issue提醒;

16、s3、在飞书中收取新issue并配置回复流程;

17、s4、编写中转发送评论脚本;

18、本发明为方便及时地获取异常追踪中的新issue问题,通过在内部群中创建一个飞书、钉钉或者企业微信的机器人以接受异常追踪中的新issue(问题)的提醒或新回复的提醒,帮助及时处理issue,通过@机器人的方式快速进行issue回复,提高异常处理效率;

19、所述方案推荐的方法包括:

20、基于固定的关联关系与关键词进行粗略的可行性解决方案推荐;基于方案提取关键词,构建问题、根因与解决方案的关联;基于标签与概率分析的更精确的解决方案推荐;基于用户自定义策略结合事故现场,通过机器学习方法实现精准方案推荐;提供联网自动匹配修改建议;

21、所述外部运维体系对接的方法包括:

22、提供以api接口(应用程序编程接口)形式的开放平台;通过所述api接口触发外部运维体系的请求;监听外部运维体系的信息变更并主动触发根因定位分析;采用被调用方式和/或主动发起调用两种方式触发根因分析;调度外部运维体系的能力进行根因定位分析,通过func数据处理平台调用任意外部api进行根因定位;通过自动化脚本或api接口调用的方式,自动化执行故障自愈动作。

23、进一步地,所述s1步骤的编写飞书机器人收取issue信息的规则的方法包括以下步骤:

24、s11、构建收取issue信息的流程以捕获新issue和回复信息;

25、s12、采用网络钩子webhook作为流程触发条件,当监听脚本发现有新issue记录或者回复时,通过调用飞书的webhook触发机器人的消息推送流程;

26、s13、通过配置webhook触发器将issue中的一些参数捕获作为机器人发送飞书消息的输入参数;

27、s14、通过markdown的方式编写想要呈现的消息样式,同时引用在webhook中配置的参数来呈现消息。

28、进一步地,所述s3步骤的在飞书中收取新issue并配置回复流程的方法包括以下步骤:

29、s31、配置飞书机器人应用的回复issue规则,对获取到的新issue记录行回复评论;

30、所述回复issue规则的触发条件是当需要进行issue消息的回复时,@机器人的动作触发,配置在指定群主中生效该规则,或配置指定的触发词条件;

31、s32、在配置好机器人触发规则后创建回复消息的规则,通过api服务作为中转,拆解回复消息中的issueid,向openapi发送添加评论请求;

32、优选地,通过填写api的返回示例,验证添加评论是否成功;

33、s33、当所述添加评论请求发送成功后,通过api获取返回参数,给消息发送者发送消息成功发送的通知。

34、进一步地,所述s4步骤的编写中转发送评论脚本的方法包括以下步骤:

35、s41、在dataflux func中利用授权链接功能创建一个api服务,在收取到消息解析后向openapi发送新增评论的请求,同时添加返回的json结构,用于对消息成功的确认;

36、s42、在编写好api脚本后,通过【管理/授权链接】配置开启api服务,作为飞书webhook http请求的接收端;

37、由于需要中转解析参数,所以在@机器人发送消息时需要按照指定规则才可成功将消息发送成功,

38、s43、采用#issueuuid#消息内容的方式@机器人发送消息,当获取到正确的参数后,将回复内容发送到openapi;

39、s44、当消息成功发送后,从配置的返回结构中获取数据进行通知;同时能够在studio中查看回复的消息内容。

40、通过飞书机器人的方式可以更加便捷地对异常追踪中的issue进行管理,从而提升针对异常问题的处理效率和协作效率。

41、进一步地,所述结果展示的方法中的提供具备多种观测视图的可视化方案包括:

42、提供开发者、决策者视角的视图。

43、进一步地,所述结果展示的方法中的提供细节化、可修复化的根因列表包括:

44、提供具体到代码级、sql级的根因分析列表,具体服务如数据库。

45、进一步地,所述方案推荐的方法中的提供联网自动匹配修改建议包括:

46、调用大模型接口,获取大模型分析后的处理意见。

47、进一步地,所述调用大模型接口的方法包括:

48、在func数据处理平台里调用大模型,通过func数据处理平台调用任意外部api进行根因定位。

49、进一步地,所述外部运维体系对接的方法中的自动化执行故障自愈动作包括:

50、产生告警后自动重启,通过func数据处理平台调用脚本。

51、进一步地,所述通过func数据处理平台调用脚本的方法包括:

52、通过func数据处理平台触发抢占即时型实例的购买(spot instance)。

53、本发明还提供一种基于观测云进行根因分析的结果输出系统,执行如上述所述的基于观测云进行根因分析的结果输出方法,包括:

54、结果展示模块:用于展示指标、链路、日志等故障现场异常数据;基于链路拓扑图像展示结果;以因果图形式展示上下游影响;展示问题发生的环节与影响范围;提供具备多种观测视图的可视化方案;提供细节化、可修复化的根因列表;提供故障预测,提前告警故障;

55、异常告警模块:用于在符合预设配置规则时产生相应的告警信息,触发告警详情信息并通过邮件、短信、电话或者im信息等通知相关技术人员;在告警同时产生诊断信息,智能巡检触发告警并产生诊断信息;提供用户自定义根因分析告警策略,智能巡检用户自定义根因分析;在告警同时给出推荐的解决方案信息;

56、方案推荐模块:用于基于固定的关联关系与关键词进行粗略的可行性解决方案推荐;基于方案提取关键词,构建问题、根因与解决方案的关联;基于标签与概率分析的更精确的解决方案推荐;基于用户自定义策略结合事故现场,通过机器学习方法实现精准方案推荐;提供联网自动匹配修改建议;

57、外部运维体系对接模块:用于提供以api接口形式的开放平台;通过所述api接口触发外部运维体系的请求;监听外部运维体系的信息变更并主动触发根因定位分析;采用被调用方式和/或主动发起调用两种方式触发根因分析;调度外部运维体系的能力进行根因定位分析,通过func数据处理平台调用任意外部api进行根因定位;通过自动化脚本或api接口调用的方式,自动化执行故障自愈动作。

58、观测云根因分析拥有强壮完整的数据体系,底层采用多模数据湖形态,将时序,日志,对象,链路,事件等数据结构进行统一的存储,通过行协议(line protocol)经过统一的dataway接口实现一致性高效低延时的写入,并通过datakit的pipeline和auto-tagging来进行前置数据治理,最后由自研的查询语言dataflux query language(dql)进行统一的查询与分析,真正做到了采集及治理无需额外的etl工程;观测云根因分析还可以通过dataflux func提供智能巡检的pipeline编写与调度支持,并通过丰富的脚本市场提供预测、异常检测、error grouping等开箱及用的检测库;其次观测云智能巡检可以协同观测云studio,实现任意的视图关联绑定,利用一个界面即可完成所有相关异常线索的可视化,最后观测云智能巡检还可以通过dataflux func提供的强大事件结构支持,以及高度自由的自定义巡检框架进行灵活实现各种巡检策略,并根据业务需要来定制巡检报告。

59、观测云采用统一的存储方案,底层采用多模数据湖形态,将时序,日志,对象,链路,事件等数据结构进行了统一的存储;

60、观测云作为一个数据分析监测平台,为用户系统提供全链路的数据可观测性云服务平台。平台强大的数据监测能力来源基础是申请人自主研发的一套强大的数据采集方案,数据采集客户端-datakit,集成了全面的数据采集能力,包括主机、容器、进程、中间件、数据库、消息队列、各种语言开发的应用性能、网络访问性能、黑盒拨测、安全巡检等并提供了基于自研的查询语言dataflux query language(dql)进行统一的查询与分析。datafluxfunc(是一款函数开发、管理、执行平台。简单易用、无需从零搭建web服务,无需管理服务器等基础设施,只需编写代码并发布,简单配置即可为函数生成http api的接口)作为函数开发平台,为根因分析提供获取数据、数据勘察、开发巡检函数、部署巡检函数、配置调度及设定自定义的巡检报告样式的能力。

61、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述基于观测云进行根因分析的结果输出方法的步骤。

62、本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述基于观测云进行根因分析的结果输出方法的步骤。

63、与现有技术相比,本发明的有益效果是:

64、本发明基于观测云进行根因分析结果输出的全面方案,比传统的手动定位根因更加地全面,快速,便捷,可解释,通过观测云链路异常数据、观测云日志异常数据、观测云指标异常数据、观测云指标根因分析、观测云指标下钻分析、观测云应用巡检事件详情、观测云应用巡检异常影响用户数等故障现场数据处理结果的展现,能够获取高质量高时效的监控数据,实现运维场景的实时感知,支持多技术栈和混合架构下的不断增大的复杂性,提高了对于根因分析结果的处理效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1