智能引擎、智能引擎集群、分布式排障系统和排障方法与流程

文档序号:37544217发布日期:2024-04-08 13:46阅读:28来源:国知局
智能引擎、智能引擎集群、分布式排障系统和排障方法与流程

本发明涉及人工智能,尤其涉及一种智能引擎、智能引擎集群、分布式排障系统和排障方法。


背景技术:

1、随着云计算和人工智能技术的发展,各式各样的人工智能模型被训练和开发出来,同时在云原生和微服务技术的帮助下,人工智能服务框架和开发平台也在迅速发展,引擎托管平台成为部署和运行各种人工智能模型的关键基础设施。然而,由于人工智能引擎的丰富性和模型的多样性、用户输入的多变性,以及引擎本身可能存在的各种问题,可能导致人工智能服务在运行时出现各种异常。这些异常可能影响服务的性能、准确性和稳定性,造成服务的卡死、崩溃、超时等异常事件,进而影响到整个应用系统的服务质量,导致用户使用异常并最终造成商业损失。

2、现有技术中,一方面,通过直接在模型引擎进程中嵌入事件捕获逻辑进行排障,另一方面,通过在模型引擎进程中启动一个子进程进行排障。然而,这两种方式均可能衍生其他异常事件,增加潜在的风险。例如,引擎进程间相互干扰,引擎进程间耦合,引擎进程间隔离性较差,在某些情况下,模型引擎进程难以正确处理子进程的信号,在子进程未正确处理信号的情况下,可能导致信号循环抛出,模型引擎进程无法正常退出,导致僵尸进程等。


技术实现思路

1、本发明提供一种智能引擎、智能引擎集群、分布式排障系统和排障方法,用以解决现有技术中排障时衍生其他异常事件,增加风险的缺陷。

2、本发明提供一种智能引擎,包括引擎主容器和至少一个sidecar容器,所述引擎主容器与所述至少一个sidecar容器通信连接,所述至少一个sidecar容器与诊断应急子系统通信连接,其中:

3、所述引擎主容器用于运行模型引擎进程,对外提供人工智能服务,并在监测到所述模型引擎进程发生目标异常事件的情况下,向所述至少一个sidecar容器发送异常信息;

4、所述至少一个sidecar容器用于在接收到所述异常信息的情况下,采集所述引擎主容器对应的所述目标异常事件对应的目标现场信息,并将所述目标现场信息上传至所述诊断应急子系统。

5、根据本发明提供的智能引擎,所述引擎主容器包括推理引擎、服务框架和监测模块,其中:

6、所述推理引擎与所述服务框架通信连接,所述推理引擎中部署人工智能模型;

7、所述服务框架用于基于所述模型引擎进程运行所述推理引擎中的人工智能模型,对外提供人工智能服务;

8、所述监测模块与所述至少一个sidecar容器通信连接,所述监测模块用于监测所述模型引擎进程对应的目标异常状态;确定所述目标异常状态对应的目标异常事件,以及所述目标异常事件对应的异常信息;并基于域套接字通信方式,将所述异常信息发送至所述至少一个sidecar容器。

9、根据本发明提供的智能引擎,所述监测模块确定所述目标异常状态对应的目标异常事件,具体用于:

10、在所述目标异常状态指示捕获到目标异常信号的情况下,将所述目标异常信号与所述监测模块中的预设注册信号进行匹配,在匹配到所述目标异常信号对应的预设注册信号的情况下,将所述预设注册信号对应的崩溃事件类型确定为所述目标异常状态对应的目标异常事件;

11、在所述目标异常状态指示未捕获到目标异常信号,且请求超时数量大于或等于1,且小于预设阈值的情况下,确定所述目标异常状态对应的目标异常事件为超时事件;

12、在所述目标异常状态指示未捕获到目标异常信号,且请求超时数量等于所述预设阈值的情况下,确定所述目标异常状态对应的目标异常事件为卡死事件,所述预设注册信号对应的崩溃事件类型不包括所述超时事件和所述卡死事件。

13、根据本发明提供的智能引擎,所述至少一个sidecar容器,具体用于:

14、基于所述异常信息,确定所述引擎主容器中所述模型引擎进程对应的目标进程号和所述目标异常事件;所述引擎主容器与所述至少一个sidecar容器共享进程命名空间;

15、基于所述目标进程号,采集所述目标异常事件对应的目标现场信息;

16、基于所述目标现场信息,生成告警信息,并将所述告警信息发送至所述诊断应急子系统。

17、根据本发明提供的智能引擎,所述至少一个sidecar容器,还用于:

18、对所述目标现场信息进行分类,确定至少两类子目标现场信息;

19、基于预设映射关系,确定各类所述子目标现场信息对应的目标存储模块;所述预设映射关系中包括现场信息类型与存储模块之间的映射关系;

20、针对各类所述子目标现场信息,将所述子目标现场信息发送至对应的所述目标存储模块,各所述目标存储模块均部署于所述诊断应急子系统中。

21、本发明还提供一种智能引擎集群,包括:集群管理执行器和至少两个如上述任一项所述的智能引擎,各所述智能引擎均与诊断应急子系统和所述集群管理执行器通信连接,所述诊断应急子系统与所述集群管理执行器通信连接,其中:

22、所述集群管理执行器用于接收所述诊断应急子系统发送的目标应急操作指令,并执行所述目标应急操作指令,以实现目标智能引擎的排障恢复,所述目标智能引擎属于所述智能引擎。

23、本发明还提供一种分布式排障系统,包括:诊断应急子系统和上述任一项所述的智能引擎集群,其中:

24、所述诊断应急子系统用于基于所述智能引擎集群中目标智能引擎上传的告警信息,确定所述目标智能引擎对应的目标应急操作指令,并将所述目标应急操作指令发送至所述智能引擎集群。

25、根据本发明提供的分布式排障系统,所述诊断应急子系统,还用于:

26、对所述告警信息进行分析,判断所述告警信息对应的目标异常事件是否满足应急条件;

27、基于判断结果,生成所述告警信息对应的目标应急操作指令。

28、根据本发明提供的分布式排障系统,所述诊断应急子系统,还用于:

29、在所述目标现场信息对应的文件类型为minidump文件的情况下,基于所述minidump文件和所述目标智能引擎对应的目标符号文件,生成可阅读调试信息。

30、本发明还提供一种排障方法,应用于上述任一项所述的智能引擎,包括:

31、运行模型引擎进程,对外提供人工智能服务,并在监测到所述模型引擎进程发生目标异常事件的情况下,向至少一个sidecar容器发送异常信息;

32、在接收到所述异常信息的情况下,采集引擎主容器对应的所述目标异常事件对应的目标现场信息,并将所述目标现场信息上传至诊断应急子系统。

33、本发明提供的智能引擎、智能引擎集群、分布式排障系统和排障方法,在各智能引擎中分别部署独立的引擎主容器和至少一个sidecar容器,通过引擎主容器运行模型引擎进程,对外提供人工智能服务,并实时监测模型引擎进程的运行状态,在监测到模型引擎进程发生目标异常事件的情况下,向至少一个sidecar容器发送异常信息,在不影响模型引擎进程正常运行的情况下,至少一个sidecar容器采集目标异常事件对应的目标现场信息,并向诊断应急子系统上传目标现场信息,通过充分利用云原生技术和容器化技术,利用引擎主容器和至少一个sidecar容器之间的隔离性,实现模型引擎进程与排障之间的解耦,进而实现在模型引擎进程外无侵入式的目标现场信息的采集,避免衍生其他的异常事件,提高智能引擎的运行稳定性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1