一种智能运维方法、装置、设备及存储介质与流程

文档序号:28541657发布日期:2022-01-19 14:40阅读:116来源:国知局
一种智能运维方法、装置、设备及存储介质与流程

1.本技术涉及人工智能领域,尤其涉及一种智能运维方法、装置、设备及存储介质。


背景技术:

2.在运维发展初期,运维人员根本不知道故障什么时候会出现、会出现在哪里,只有在故障出现之后才能去查找原因并解决故障,工作十分被动与低效;现有技术中,随着脚本工具的大规模引入,处理问题的方式变得更加科学了,在处理速度上也得到了一定的提升,但还是未能从本质改变运维的“被动性”。随着运维经验的不断积累,许多公司尝试引入监控系统,开始着手建设自己的自动化运维平台,以进一步提高运维效率。但自动化运维平台主要依靠告警来判断系统是否出现故障,信息处理量有限,当面对大量的告警及海量的监控数据时常常会无法很好地发挥作用。因此,在运维平台在面对海量的监控数据的情况下,仍能准确识别并处理监控数据成为了亟待解决的问题。


技术实现要素:

3.本技术提供了一种智能运维方法、装置、设备及存储介质,以解决现有技术中,在运维平台在面对海量的监控数据的情况下,不能准确对监控数据中的异常进行识别并处理的问题。
4.为解决上述问题,本技术提供了一种智能运维方法,包括:
5.获取设备的实时运行数据;
6.基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断,得到异常判断结果,所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;
7.将异常判断结果为异常的实时运行数据作为第一数据,利用关联模型对所述第一数据进行根因分析,根据得到的根因分析结果进行告警;
8.基于所述告警中的告警信息,获取对应的预设的自愈方式;
9.根据所述预设的自愈方式,对所述设备进行处理。
10.进一步的,在获取设备的实时运行数据之前,还包括:
11.获取历史运行数据;
12.利用历史运行数据,对预设的初始关联规则模型进行训练得到所述关联模型。
13.进一步的,在所述基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断,得到异常判断结果之前,包括:
14.根据所述历史运行数据,对所述时间序列模型进行有监督训练,得到中间曲线;
15.通过对所述中间曲线中的异常凸起进行拉平处理,得到所述动态基线。
16.进一步的,所述获取历史运行数据包括:
17.向预设知识库发送调用请求,其中,所述调用请求携带验签令牌;
18.接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述预设知识库
中的所述历史运行数据,所述验签结果为所述知识库根据所述验签令牌进行rsa非对称加密方式验证得到。
19.进一步的,所述基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断包括:
20.将所述实时运行数据转换为对应的实时图像;
21.利用决策树模型,将所述实时图像和所述动态基线进行比较判断,得到异常判断结果。
22.进一步的,所述利用决策树模型,将所述实时图像和所述动态基线进行比较判断,得到异常判断结果包括:
23.将所述实时图像与所述动态基线分为多个比较区段;
24.比对各所述比较区段内的所述实时图像与所述动态基线;
25.当所述比较区段内的实时图像未超过或仅在预设时间内超过所述动态基线时,则判断得到该所述比较区段内的实时图像对应的实时运行数据为正常,否则,所述比较区段内的实时图像对应的实时运行数据为异常。
26.进一步的,所述根据得到的根因分析结果进行告警包括:
27.当所述根因分析结果为多个所述第一数据间有关联时,则基于有关联的多个所述第一数据,仅发出一次告警,其中,多个所述第一数据的发生时间在同一或相邻的所述比较区段内;
28.当所述根因分析结果为多个所述第一数据间没有关联时,则基于没有关联的多个所述第一数据,以及多个所述第一数据的出现时序,依次对每个所述第一数据进行告警。
29.为了解决上述问题,本技术还提供一种智能运维装置,所述装置包括:
30.第一获取模块,用于获取设备的实时运行数据;
31.异常判断模块,用于基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断,得到异常判断结果,所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;
32.分析模块,用于将异常判断结果为异常的实时运行数据作为第一数据,利用关联模型对所述第一数据进行根因分析,根据得到的根因分析结果进行告警;
33.第二获取模块,用于基于所述告警中的告警信息,获取对应的预设的自愈方式;
34.处理模块,用于根据所述预设的自愈方式,对所述设备进行处理。
35.为了解决上述问题,本技术还提供一种计算机设备,包括:
36.至少一个处理器;以及,
37.与所述至少一个处理器通信连接的存储器;其中,
38.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的智能运维方法。
39.为了解决上述问题,本技术还提供一种非易失性的计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的智能运维方法。
40.根据本技术实施例提供的一种智能运维方法、装置、设备及存储介质,与现有技术相比至少具有以下有益效果:
41.通过获取到设备的实时运行数据,根据所述实时运行数据,利用动态基线和决策树模型,来判断所述实时运行数据是否异常,通过利用决策树模型的强解释性,能很好的将所述实时运行数据和动态基线进行判断,得到异常判断结果,提高了对实时运行数据异常识别的准确率,且所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;将异常判断结果为异常的实时运行数据作为第一数据,将所述第一数据利用关联模型进行根因分析,最后根据得到的根因分析结果进行告警,从而可以避免有关联的异常情况,还进行多次告警,实现了对告警的收敛;随后基于所述告警中的告警信息,获取对应的预设自愈方式,根据所述预设的自愈方式,对所述设备进行处理,实现提高了对异常情况的识别的准确率以及对应的处理效率。
附图说明
42.为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图做一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
43.图1为本技术一实施例提供的智能运维方法的流程示意图;
44.图2为本技术一实施例提供的智能运维装置的模块示意图;
45.图3为本技术一实施例的计算机设备的结构示意图。
具体实施方式
46.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象,而不是用于描述特定顺序。
47.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例,也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
48.本技术提供一种智能运维方法。参照图1所示,图1为本技术一实施例提供的智能运维方法的流程示意图。
49.在本实施例中,智能运维方法包括:
50.s1、获取设备的实时运行数据;
51.具体的,在本技术中,通过接口接收设备运行实时产生的指标、日志、作业数据等运行数据,所述指标数据可为cpu或磁盘等的使用或占用比例。
52.进一步的,在获取设备的实时运行数据之前,还包括:
53.获取历史运行数据;
54.利用历史运行数据,对预设的初始关联规则模型进行训练得到所述关联模型。
55.具体的,通过获取历史运行数据,所述历史运行数据中标注有异常数据点或段,以
及各异常数据点或段的关联关系,基于所述历史运行数据对预设的初始关联规则模型进行训练得到所述关联模型。
56.所述预设的初始关联规则模型可为apriori模型,所述apriori模型,也即apriori算法,是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
57.通过利用历史运行数据来对预设的初始关联规则模型进行训练,得到贴合实际使用的关联模型,便于后续的使用。
58.s2、基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断,得到异常判断结果,所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;
59.具体的,基于实时运行数据,将所述实时运行数据转换为实时曲线图像,例如将cpu或磁盘的负载情况通过折线图的形式展现出来,利用决策树模型,基于所述实时图像和所述动态基线进行判断比较,得到异常判断结果。
60.所述动态基线为利用历史运行数据,利用所述时间序列模型进行训练,从而得到的。
61.进一步的,在所述基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断,得到异常判断结果之前,包括:
62.根据所述历史运行数据,对所述时间序列模型进行有监督训练,得到中间曲线;
63.通过对所述中间曲线中的异常凸起进行拉平处理,得到所述动态基线。
64.具体的,首先,通过利用所述历史运行数据,利用所述时间序列模型进行有监督训练,从而得到中间曲线,再对所述中间曲线的异常凸起段进行拉平处理,从而得到所述动态基线,对异常凸起段的判断可以异常凸起段两侧的中间曲线的数值来判断,例如,所述异常凸起段的数值大于等于其左右两侧预设时间段内的平均数值的预设倍数时,将对该所述异常凸起段进行拉平处理,即将该异常凸起段对应的数值变为所述异常凸起段左右两侧预设时间段内的平均数值;若小于时,则不对所述异常凸起段进行处理。所述异常凸起段的数值可以以所述异常凸起段所在时间段的平均数值计算,或者直接以异常凸起段的数值进行比较判断。
65.通过利用历史运行数据来获取所述动态基线,得到贴合现实使用的动态基线,使得后续对异常情况的判断能更为准确。
66.再进一步的,所述获取历史运行数据包括:
67.向预设知识库发送调用请求,其中,所述调用请求携带验签令牌;
68.接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述预设知识库中的所述历史运行数据,所述验签结果为所述知识库根据所述验签令牌进行rsa非对称加密方式验证得到。
69.具体的,由于历史运行数据,可能会涉及用户的隐私数据,所以对于历史运行数据都会保存至预设数据库中,所以在获取历史运行数据时,数据库会进行验签步骤,以保证数据的安全,避免泄露数据等问题。
70.整个过程为,客户端计算消息m的第一消息摘要,并用rsa非对称加密方式对第一消息摘要进行加密(利用客户端的私钥),得到签名s,将消息m和签名s再利用知识库的公
钥,得到密文c,发送至知识库,知识库使用自己的私钥对密文c进行解密,得到消息m和签名s,知识库使用客户端的公钥对签名s进行解密,得到第一消息摘要;同时知识库用同样的方法对消息m进行摘要提取,得到第二消息摘要,判断第一消息摘要和第二消息摘要是否相同,相同则验证成功;不同则验证失败。
71.通过在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。
72.进一步的,所述基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断包括:
73.将所述实时运行数据转换为对应的实时图像;
74.利用决策树模型,将所述实时图像和所述动态基线进行比较判断,得到异常判断结果。
75.具体的,通过将所述实时运行数据,转换为其对应的实时图像数据,例如cpu或磁盘的负载情况,将其转换为实时的折线图,可形象的展示出实时情况,利用决策树模型的强解释性,能基于所述实时图像和所述动态基线进行准确的比较判断,针对多种特殊情况,所述决策树模型也能准确得出判断结果,例如所述实时图像仅瞬时超过所述动态基线时,所述决策树模型也能得出判断结果为正常。
76.所述决策树模型为利用历史运行数据预先训练好的。
77.由于决策树模型的强解释性,利用决策树模型,将所述实时图像和所述动态基线进行比较判断,从而提高了对异常情况的识别准确率。
78.再进一步的,所述利用决策树模型,将所述实时图像和所述动态基线进行比较判断,得到异常判断结果包括:
79.将所述实时图像与所述动态基线分为多个比较区段;
80.比对各所述比较区段内的所述实时图像与所述动态基线;
81.当所述比较区段内的实时图像未超过或仅在预设时间内超过所述动态基线时,则判断得到该所述比较区段内的实时图像对应的实时运行数据为正常,否则,所述比较区段内的实时图像对应的实时运行数据为异常。
82.具体的,通过将所述实时图像与所述动态基线分为多个比较区段,便于所述决策树模型在每个比较区段内,将所述实时图像与动态基线进行比较,并且比较区段的设置间隔时间可较短,例如10s间隔的比较区段,提高了判断的准确率。
83.当所述比较区段内的实时图像未超过或仅在预设时间内超过所述动态基线时,则决策树模型判断该所述比较区段内的实时图像对应的实时运行数据的结果为正常;所述仅在预设时间内超过,例如在预设时间为0.1,所述比较区段内的图像仅在该0.1s内超过所述动态基线,也即瞬时超过所述动态基线,则对应的实时运行数据正常;
84.否则决策树模型判断该所述比较区段内的实时图像对应的实时运行数据的结果为异常。
85.通过将实时图像划分为多个比较区段进行分段比较,进一步提高了对异常情况的识别准确率。
86.s3、将异常判断结果为异常的实时运行数据作为第一数据,利用关联模型对所述第一数据进行根因分析,根据得到的根因分析结果进行告警;
87.具体的,通过将决策树模型判断得到一比较区段内有多个异常数据点或段的数据作为第一数据,通过利用关联模型对该比较区段内的多个异常点或段的数据进行根因分析,根据根因分析结果进行告警。
88.所述根因分析即判断多个异常情况间是否有关联。
89.进一步的,所述根据得到的根因分析结果进行告警包括:
90.当所述根因分析结果为多个所述第一数据间有关联时,则基于有关联的多个所述第一数据,仅发出一次告警,其中,多个所述第一数据的发生时间在同一或相邻的所述比较区段内;
91.当所述根因分析结果为多个所述第一数据间没有关联时,则基于没有关联的多个所述第一数据,以及多个所述第一数据的出现时序,依次对每个所述第一数据进行告警。
92.具体的,当异常判断结果为异常的多个异常数据点或段间具有关联关系时,将仅发出一次告警,而所述告警的告警信息中将包含所述多个异常数据点或段,即在同一比较区段内的多个所述第一数据;而当异常判断结果为异常的多个异常数据点或段间不具有关联关系时,获取多个第一数据的出现时序,基于没有关联的多个所述第一数据,以及多个所述第一数据的出现时序,依次对每个所述第一数据进行告警,各告警的告警信息与异常数据点或段相对应,例如根据各异常数据点或段对应的平均数值,得出例如磁盘的占用情况,所述告警信息中带有所述占有情况。
93.且上述判断为在同一或相邻的比较区段下,异常判断结果为异常对应的多次第一数据。如相邻的两个比较区段内,有3个第一数据,对该3个第一数据进行根因分析,判断是否有关联。
94.根据根因分析结果,进行对应告警,避免了有关联的异常情况进行多次告警,提高了告警的智能程度。
95.s4、基于所述告警中的告警信息,获取对应的预设的自愈方式;
96.具体的,在所述获取设备的实时运行数据之前,就针对现有告警信息,预设了对应的自愈方式,例如针对磁盘的占用高的情况,预设的自愈方式为启动文件清理功能,清楚冗余和过期数据等;当有应用进程异常关闭时,会自行执行健康检查功能,找出异常关闭的原因。
97.s5、根据所述预设的自愈方式,对所述设备进行处理。
98.具体的,根据预设的文件清理和健康检查等自愈方式,对应进行启动,来对设备进行清理维护。
99.需要强调的是,为了进一步保证数据的私密性和安全性,所述历史运行数据的所有数据还可以存储于一区块链的节点中。
100.本技术所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
101.通过获取到设备的实时运行数据,根据所述实时运行数据,利用动态基线和决策树模型,来判断所述实时运行数据是否异常,通过利用决策树模型的强解释性,能很好的将
所述实时运行数据和动态基线进行判断,得到异常判断结果,提高了对实时运行数据异常识别的准确率,且所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;将异常判断结果为异常的实时运行数据作为第一数据,将所述第一数据利用关联模型进行根因分析,最后根据得到的根因分析结果进行告警,从而可以避免有关联的异常情况,还进行多次告警,实现了对告警的收敛;随后基于所述告警中的告警信息,获取对应的预设自愈方式,根据所述预设的自愈方式,对所述设备进行处理,实现提高了对异常情况的识别准确率以及对应的处理效率。
102.本实施例还提供一种智能运维装置,如图4所示,是本技术智能运维装置的功能模块图。
103.本技术所述智能运维装置100可以安装于电子设备中。根据实现的功能,所述智能运维装置100可以包括第一获取模块101、异常判断模块102、分析模块103、第二获取模块104和处理模块105。本技术所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
104.在本实施例中,关于各模块/单元的功能如下:
105.第一获取模块101,用于获取获取设备的实时运行数据;
106.具体的,第一获取模块101通过接口接收设备运行实时产生的指标、日志、作业数据等运行数据,所述指标数据可为cpu或磁盘等的使用或占用比例。
107.进一步的,所述智能运维装置100还包括第三获取模块和训练模块;
108.所述第三获取模块,用于获取历史运行数据;
109.所述训练模块,用于利用历史运行数据,对预设的初始关联规则模型进行训练得到所述关联模型。
110.具体的,所述第三获取模块通过获取历史运行数据,所述历史运行数据中标注有异常数据点或段,以及各异常数据点或段的关联关系,所述训练模块基于所述历史运行数据对预设的初始关联规则模型进行训练得到所述关联模型。
111.通过第三获取模块和训练模块的配合,利用历史运行数据来对预设的初始关联规则模型进行训练,得到贴合实际使用的关联模型,便于后续的使用。
112.异常判断模块102,用于基于所述实时运行数据,利用动态基线和决策树模型,对所述实时运行数据进行异常判断,得到异常判断结果,所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;
113.具体的,基于实时运行数据,将所述实时运行数据转换为实时曲线图像,例如将cpu或磁盘的负载情况通过折线图的形式展现出来,利用决策树模型,基于所述实时图像和所述动态基线进行判断比较,得到异常判断结果。
114.进一步的,所述智能运维装置100还包括第四获取模块、曲线获取模块和异常处理模块;
115.所述曲线获取模块,用于根据所述历史运行数据,对所述时间序列模型进行有监督训练,得到中间曲线;
116.所述异常处理模块,用于通过对所述中间曲线中的异常凸起进行拉平处理,得到所述动态基线。
117.具体的,所述曲线获取模块通过利用所述历史运行数据,利用所述时间序列模型
进行有监督训练,从而得到中间曲线,所述异常处理模块再对所述中间曲线的异常凸起段进行拉平处理,从而得到所述动态基线,对异常凸起段的判断可以异常凸起段两侧的中间曲线的数值来判断,例如,所述异常凸起段的数值大于等于其左右两侧预设时间段内的平均数值的预设倍数时,将对该所述异常凸起段进行拉平处理,即将该异常凸起段对应的数值变为所述异常凸起段左右两侧预设时间段内的平均数值;若小于时,则不对所述异常凸起段进行处理。所述异常凸起段的数值可以以所述异常凸起段所在时间段的平均数值计算,或者直接以异常凸起段的数值进行比较判断。
118.通过曲线获取模块和异常处理模块的配合,利用历史运行数据来获取所述动态基线,得到贴合现实使用的动态基线,使得后续对异常情况的判断能更为准确。
119.再进一步的,所述第四获取模块包括请求发送子模块和数据调用子模块;
120.所述请求发送子模块,用于向预设知识库发送调用请求,其中,所述调用请求携带验签令牌;
121.所述数据调用子模块,用于接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述预设知识库中的所述历史运行数据,所述验签结果为所述知识库根据所述验签令牌进行rsa非对称加密方式验证得到。
122.通过请求发送子模块和数据调用子模块的配合在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。
123.进一步的,所述异常判断模块102包括图像生成子模块和比较子模块;
124.所述图像生成子模块,用于将所述实时运行数据转换为对应的实时图像;
125.所述比较子模块,用于利用决策树模型,将所述实时图像和所述动态基线进行比较判断,得到异常判断结果。
126.具体的,通过所述图像生成子模块将所述实时运行数据,转换为其对应的实时图像数据,例如cpu或磁盘的负载情况,将其转换为实时的折线图,可形象的展示出实时情况,比较子模块利用决策树模型的强解释性,能基于所述实时图像和所述动态基线进行准确的比较判断,针对多种特殊情况,所述决策树模型也能准确得出判断结果,例如到所述实时图像仅瞬时超过所述动态基线时,所述决策树模型也能得出判断结果为正常。
127.通过图像生成子模块和比较子模块的配合,由于决策树模型的强解释性,利用决策树模型,将所述实时图像和所述动态基线进行比较判断,从而提高了对异常情况的识别准确率。
128.再进一步的,所述比较子模块,用于分段单元、分段比较单元和分段判断单元;
129.所述分段单元,用于将所述实时图像与所述动态基线分为多个比较区段;
130.所述分段比较单元,用于比对各所述比较区段内的所述实时图像与所述动态基线;
131.所述分段判断单元,用于当所述比较区段内的实时图像未超过或仅在预设时间内超过所述动态基线时,则判断得到该所述比较区段内的实时图像对应的实时运行数据为正常,否则,所述比较区段内的实时图像对应的实时运行数据为异常。
132.具体的,通过所述分段单元将所述实时图像与所述动态基线分为多个比较区段,所述分段比较单元利用所述决策树模型在每个比较区段内,将所述实时图像与动态基线进行比较,并且比较区段的设置间隔时间可较短。
133.所述分段判断单元当所述比较区段内的实时图像未超过或仅在预设时间内超过所述动态基线时,则决策树模型判断该所述比较区段内的实时图像对应的实时运行数据的结果为正常;所述仅在预设时间内超过;
134.否则决策树模型判断该所述比较区段内的实时图像对应的实时运行数据的结果为异常。
135.通过分段单元、分段比较单元和分段判断单元的配合,将实时图像划分为多个比较区段进行分段比较,进一步提高了对异常情况的识别准确率。
136.分析模块103,用于将异常判断结果为异常的实时运行数据作为第一数据,利用关联模型对所述第一数据进行根因分析,根据得到的根因分析结果进行告警;
137.具体的,分析模块103通过将决策树模型判断得到一比较区段内有多个异常数据点或段的数据作为第一数据,通过利用关联模型对该比较区段内的多个异常点或段的数据进行根因分析,根据根因分析结果进行告警。
138.进一步的,所述分析模块包括第一告警子模块和第二告警子模块;
139.所述第一告警子模块,用于当所述根因分析结果为多个所述第一数据间有关联时,则基于有关联的多个所述第一数据,仅发出一次告警,其中,多个所述第一数据的发生时间在同一或相邻的所述比较区段内;
140.所述第二告警子模块,用于当所述根因分析结果为多个所述第一数据间没有关联时,则基于没有关联的多个所述第一数据,以及多个所述第一数据的出现时序,依次对每个所述第一数据进行告警。
141.通过第一告警子模块和第二告警子模块的配合根据根因分析结果,进行对应告警,避免了有关联的异常情况进行多次告警,提高了告警的智能程度。
142.第二获取模块104,用于基于所述告警中的告警信息,获取对应的预设的自愈方式;
143.具体的,第二获取模块104在所述获取设备的实时运行数据之前,就针对现有告警信息,预设了对应的自愈方式,在获取到告警后,基于告警中的告警信息,获取对应的自愈方式。
144.处理模块105,用于根据所述预设的自愈方式,对所述设备进行处理。
145.具体的,处理模块105根据预设的文件清理和健康检查等自愈方式,对应进行启动,来对设备进行清理维护。
146.通过采用上述装置,所述智能运维装置100通过第一获取模块101、异常判断模块102、分析模块103、第二获取模块104和处理模块105的配合使用,通过获取到设备的实时运行数据,根据所述实时运行数据,利用动态基线和决策树模型,来判断所述实时运行数据是否异常,通过利用决策树模型的强解释性,能很好的将所述实时运行数据和动态基线进行判断,得到异常判断结果,提高了对实时运行数据异常识别的准确率,且所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;将异常判断结果为异常的实时运行数据作为第一数据,将所述第一数据利用关联模型进行根因分析,最后根据得到的根因分析结果进行告警,从而可以避免有关联的异常情况,还进行多次告警,实现了对告警的收敛;随后基于所述告警中的告警信息,获取对应的预设自愈方式,根据所述预设的自愈方式,对所述设备进行处理,实现提高了对异常情况的识别的准确率以及对应的处理效率。
147.本技术实施例还提供一种计算机设备。具体请参阅图5,图5为本实施例计算机设备基本结构框图。
148.所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field-programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
149.所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
150.所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如智能运维方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
151.所述处理器42在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述智能运维方法的计算机可读指令。
152.所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
153.本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例智能运维方法的步骤,通过获取到设备的实时运行数据,根据所述实时运行数据,利用动态基线和决策树模型,来判断所述实时运行数据是否异常,通过利用决策树模型的强解释性,能很好的将所述实时运行数据和动态基线进行判断,得到异常判断结果,提高了对实时运行数据异常识别的准确率,且所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;将异常判断结果为异常的实时运行数据作为第一数据,将所述第一数据利用关联模型进行根因分析,最后根据得到的根因分析结果进行告警,从而可以避免有关联的异常情况,还进行多次告警,实现了对告警的收敛;随后基于所述告警中的告警信息,获取对应的预设自愈方式,根据所述预设的自愈方式,对所述设备进行处理,实现提高了对异常情况的识别准确率以及对应的处理效率。
154.本技术实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的智能运维方法的步骤,通过获取到设备的实时运行数据,根据所述实时运行数据,利用动态基线和决策树模型,来判断所述实时运行数据是否异常,通过利用决策树模型的强解释性,能很好的将所述实时运行数据和动态基线进行判断,得到异常判断结果,提高了对实时运行数据异常识别的准确率,且所述动态基线为基于历史运行数据,利用时间序列模型训练得到的;将异常判断结果为异常的实时运行数据作为第一数据,将所述第一数据利用关联模型进行根因分析,最后根据得到的根因分析结果进行告警,从而可以避免有关联的异常情况,还进行多次告警,实现了对告警的收敛;随后基于所述告警中的告警信息,获取对应的预设自愈方式,根据所述预设的自愈方式,对所述设备进行处理,实现提高了对异常情况的识别准确率以及对应的处理效率。
155.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
156.本技术上述实施例的智能运维装置、计算机设备、计算机可读存储介质具有与上述实施例的智能运维方法相同的技术效果,在此不作展开。
157.显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1