云环境下的调度方法、装置、电子设备及存储介质与流程

文档序号:35864006发布日期:2023-10-26 20:25阅读:37来源:国知局
云环境下的调度方法、装置、电子设备及存储介质与流程

本发明涉及智能运维,尤其涉及一种云环境下的调度方法、装置、电子设备及存储介质。


背景技术:

1、虚拟机对于开发和运维人员而言,存在启动慢,占用空间大,不易迁移的缺点。容器化技术的产生很好地解决了上述问题,它不需要虚拟出整个操作系统,只需要虚拟一个小规模的环境即可,而且启动速度很快,除了运行其中应用以外,基本不消耗额外的系统资源。但是,随着云计算的发展和应用越来越复杂,容器的数量也越来越多,由此衍生了管理运维容器难的问题。

2、现有的容器运维管理技术存在如下问题:1.现有的容器云中的调度问题,包含扩缩容、故障修复、灰度发布等,这些问题大多是基于硬规则或硬编码实现的。2.故障检测,只是基于进程在或者不在所做的检测,检测不到进程是否报错,是否在正常运行等。


技术实现思路

1、本发明提供一种云环境下的调度方法、装置、电子设备及存储介质,用以解决现有技术中容器运维管理的缺陷,实现云环境下的资源智能调度。

2、本发明提供一种云环境下的调度方法,包括:

3、获取云环境下的待检测的告警数据,对所述告警数据进行处理,得到所述告警数据对应的告警特征;

4、将所述告警特征输入至故障预测模型,得到所述告警数据对应的故障类别,所述故障预测模型是根据历史告警数据对应的故障告警特征和所述历史告警数据对应的故障类别训练得到;

5、根据所述故障类别以及预先构建的故障类别与自愈策略的映射表,自动化触发可移植容器的编排管理工具按照与所述故障类别对应的自愈策略执行自愈操作,所述自愈操作用于实现所述云环境下的资源调度。

6、根据本发明提供的一种云环境下的调度方法,所述故障预测模型通过以下步骤训练得到:

7、采集来自云应用和/或pod的历史告警数据,所述历史告警数据包括自愈场景对应的告警指标;

8、按照预设时间间隔统计各目标告警指标的告警次数,其中,所述目标告警指标为从所述历史告警指标信息中筛选出的能够体现应用性能故障和/或应用业务故障的告警指标;

9、基于统计得到的所述各目标告警指标的告警次数,获取故障告警特征以及所述故障告警特征对应的故障类别;

10、利用所述故障告警特征以及所述故障告警特征对应的故障类别对分类组合模型进行训练,得到所述故障预测模型。

11、本发明还提供一种云环境下的调度方法,所述基于统计得到的所述各目标告警指标的告警次数,获取故障告警特征以及所述故障告警特征对应的故障类别,包括:

12、使用第一平滑时间窗口的方式,得到第一矩阵,其中,所述第一矩阵的列为各目标告警指标,所述第一矩阵的行为每个时间单位内各目标告警指标的告警次数,所述第一平滑时间窗口大于所述预设时间间隔;

13、使用第二平滑时间窗口的方式,将所述第一矩阵中的数据按列进行合并,并将矩阵中合并后的告警次数转换成固定位数的数值,形成第二矩阵,所述第二平滑时间窗口大于所述第一平滑时间窗口;

14、对所述第二矩阵的每行数据的故障类别进行标注,并将每行数据的故障类别添加至所述第二矩阵的最后一列,形成第三矩阵;

15、将所述第三矩阵中的目标告警指标两两组合进行拼接,得到多个拼接后的告警指标,并确定每个所述拼接后的告警指标的告警次数和故障类别;

16、对每个所述拼接后的告警指标的告警次数进行稀疏处理,得到多个特征,并采用随机森林算法计算所述多个特征中的各个所述特征的重要性;

17、从所述多个特征中筛选出重要性高于预设阈值的特征作为故障告警特征,并确定所述故障告警特征对应的故障类别。

18、本发明还提供一种云环境下的调度方法,所述利用所述故障告警特征以及所述故障告警特征对应的故障类别对分类组合模型进行训练,得到所述故障预测模型,包括:

19、将所述故障告警特征以及所述故障告警特征对应的故障类别所组成的数据集划分为训练集和测试集;

20、基于所述训练集,采用k折交叉验证的方式对所述分类组合模型中的第一逻辑回归模型,随机森林模型和xgboost模型进行训练,得到所述训练集对应的预测结果;

21、分别合并所述第一逻辑回归模型、所述随机森林模型以及所述xgboost模型各自对应的训练集的预测结果,得到三个特征;

22、将所述三个特征输入至所述分类组合模型中的第二逻辑回归模型进行训练,训练结束后,利用所述测试集对训练后的第二逻辑回归模型进行测试,并根据测试结果调节模型参数,测试结束后,得到所述故障预测模型。

23、本发明还提供一种云环境下的调度方法,所述对所述告警数据进行处理,得到所述告警数据对应的告警特征,包括:

24、按照预设时间间隔,统计所述告警数据中各告警指标对应的告警次数;

25、基于所述告警数据中各告警指标对应的告警次数,使用第三平滑时间窗口的方式,得到第三矩阵,其中,所述第三矩阵的列是各告警指标,所述第三矩阵的行是每个时间单位内各告警指标的告警次数,所述第三平滑时间窗口大于所述预设时间间隔;

26、使用第四平滑时间窗口的方式,将所述第三矩阵中的数据按列进行合并,并将矩阵中合并后的告警次数转换成固定位数的数值,形成第四矩阵,所述第四平滑时间窗口大于所述第三平滑时间窗口;

27、对所述第四矩阵的每行数据的故障类别进行标注,并将每行数据的故障类别添加至所述第四矩阵的最后一列,形成第五矩阵;

28、将所述第五矩阵中的告警指标两两组合进行拼接,得到多个拼接后的告警指标,并确定每个所述拼接后的告警指标的告警次数;

29、对每个所述拼接后的告警指标的告警次数进行稀疏处理,得到多个特征,并采用随机森林算法计算各个所述特征的重要性;

30、从所述多个特征中筛选出重要性高于预设阈值的告警特征,作为所述告警数据对应的告警特征。

31、本发明还提供一种云环境下的调度方法,所述将所述告警特征输入至故障预测模型,得到所述告警数据对应的故障类别,包括:

32、将所述告警特征分别输入至所述故障预测模型中的第一逻辑回归模型,随机森林模型和xgboost模型,得到第一特征,第二特征和第三特征;

33、将所述第一特征,第二特征和第三特征输入至所述故障预测模型中的第二逻辑回归模型,获取所述第二逻辑回归模型输出的所述告警数据对应的故障类别。

34、本发明还提供一种云环境下的调度方法,所述方法还包括:

35、获取故障类别与自愈策略的映射关系;

36、基于所述故障类别与自愈策略的映射关系,构建故障类别与自愈策略的映射表。

37、本发明还提供一种云环境下的调度装置,包括:

38、特征获取模块,用于获取云环境下的待检测的告警数据,对所述告警数据进行处理,得到所述告警数据对应的告警特征;

39、故障类别预测模块,用于将所述告警特征输入至故障预测模型,得到所述告警数据对应的故障类别,所述故障预测模型是根据历史告警数据对应的故障告警特征和所述历史告警数据对应的故障类别训练得到;

40、自愈模块,用于根据所述故障类别以及预先构建的故障类别与自愈策略的映射表,自动化触发可移植容器的编排管理工具按照与所述故障类别对应的自愈策略执行自愈操作,所述自愈操作用于实现所述云环境下的资源调度。

41、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述云环境下的调度方法。

42、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述云环境下的调度方法。

43、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述云环境下的调度方法。

44、本发明提供的云环境下的调度方法、装置、电子设备及存储介质,,通过使用ai算法进行故障检测和根因定位,再自动化触发可移植容器的编排管理工具按照故障类别对应的自愈策略执行自愈操作,从而实现了云环境下的智能化资源调度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1