一种智能运维方法和装置、电子设备和计算机存储介质与流程

文档序号:30381464发布日期:2022-06-11 04:18阅读:156来源:国知局
一种智能运维方法和装置、电子设备和计算机存储介质与流程

1.本发明属于系统运维技术领域,更具体的说,尤其涉及一种智能运维方法和装置、电子设备和计算机存储介质。


背景技术:

2.早期的运维工作大部分是由运维人员手工完成的,运维人员又被称为系统管理员或网管,负责的工作包括监控产品运行状态和性能指标、产品上线、变更服务等。因此,单个运维人员的工作量和运维人员的数量都是随着产品的个数或者产品服务的用户规模呈线性增长的。此时的运维工作消耗大量的人力资源,但大部分运维工作都是低效的重复。这种手工运维的方式必然无法满足互联网产品日新月异的需求和突飞猛进的规模。
3.运维人员逐渐发现,一些常见的重复性的运维工作可以通过自动化的脚本来实现:一部分自动化脚本用以监控分布式系统,产生大量的日志;另外一部分被用于在人工的监督下进行自动化处理。这些脚本能够被重复调用和自动触发,并在一定程度上防止人工的误操作,从而极大地减少人力成本,提高运维的效率,这就诞生了自动化运维。自动化运维可以认为是一种基于行业领域知识和运维场景领域知识的专家系统。
4.自动化运维在手动运维基础上大大提高了运维的效率,devops有效地提升了研发和运维的配合效率。但是,随着整个互联网系统数据规模的急剧膨胀,以及服务类型的复杂多样,“基于人为指定规则”的专家系统逐渐变得力不从心。因为自动化运维的瓶颈在于人脑:必须由一个长期在一个行业从事运维的专家手动地将重复出现的、有迹可循的现象总结出来,形成规则,才能完成自动化运维。然而,越来越多的场景表明,简单的、基于人为制定规则的方法并不能够解决大规模运维的问题。


技术实现要素:

5.有鉴于此,本发明的目的在于提供一种智能运维方法和装置、电子设备和计算机存储介质,用于实现实时提醒与告警,从而快速定位到故障原因、提高运维效率。
6.本技术第一方面公开了一种智能运维方法,包括:
7.使用时间序列从系统数据实时提取多维度的关键性能指标;
8.对日志文本数据进行编码;其中,所述编码包括文本编码、知识编码;
9.将所述关键性能指标的特征以及所述日志文本数据编码后的特征进行融合,并使用softmax分类器进行故障检测和定位。
10.可选的,在上述的智能运维方法中,所述关键性能指标,包括:系统中业务层、应用层、网络层、系统层、数据层的监控指标。
11.可选的,在上述的智能运维方法中,使用时间序列从系统数据实时提取多维度的关键性能指标,包括:
12.采用长短期记忆人工神经网络方法,从系统数据提取关键性能指标的特征。
13.可选的,在上述的智能运维方法中,所述对日志文本数据进行编码包括:
14.获取日志文本数据;
15.对所述日志文本数据进行文本编码以及知识编码;
16.将进行文本编码后的数据和进行所述知识编码后的数据进行融合。
17.本技术第二方面公开了一种所述的智能运维装置,包括:
18.提取单元,用于使用时间序列从系统数据实时提取多维度的关键性能指标;
19.编码单元,用于对日志文本数据进行编码;其中,所述编码包括文本编码、知识编码;
20.检测定位单元,用于将所述关键性能指标的特征以及所述日志文本数据编码后的特征进行融合,并使用softmax分类器进行故障检测和定位。
21.可选的,在上述的智能运维装置中,所述关键性能指标,包括:系统中业务层、应用层、网络层、系统层、数据层的监控指标。
22.可选的,在上述的智能运维装置中,提取单元用于使用时间序列从系统数据实时提取多维度的关键性能指标时,具体用于:
23.采用长短期记忆人工神经网络方法,从系统数据提取关键性能指标的特征。
24.可选的,在上述的智能运维装置中,所述编码单元用于对日志文本数据进行编码时,具体用于:
25.获取日志文本数据;
26.对所述日志文本数据进行文本编码以及知识编码;
27.将进行文本编码后的数据和进行所述知识编码后的数据进行融合。
28.本技术第三方面公开了一种电子设备,包括:
29.一个或多个处理器;
30.存储装置,其上存储有一个或多个程序;
31.当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现本技术第一方面中任一项所述的智能运维方法。
32.本技术第四方面公开了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现本技术第一方面中任一项所述的智能运维方法。
33.从上述技术方案可知,本发明提供的一种智能运维方法,包括:使用时间序列从系统数据实时提取多维度的关键性能指标;对日志文本数据进行编码,其中,编码包括文本编码、知识编码;将关键性能指标的特征以及日志文本数据编码后的特征进行融合,并使用softmax分类器进行故障检测和定位;也即不仅限于简单的、基于人为制定规则的方法,实现大规模实时提醒与告警,从而快速定位到故障原因、提高运维效率。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1是本发明实施例提供的一种智能运维方法的流程图;
36.图2是本发明实施例提供的另一种智能运维方法的流程图;
37.图3是本发明实施例提供的另一种智能运维方法的流程图;
38.图4是本发明实施例提供的一种智能运维装置的示意图;
39.图5是本发明实施例提供的一种电子设备的示意图。
具体实施方式
40.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
41.在本技术中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
42.传统的运维体系将运维人员从产品开发人员中抽离出来,成立单独的运维部门。这种模式使得不同公司能够分享自动化运维的工具和想法,互相借鉴,从而极大地推动了运维的发展。然而,这种人为分割的最大问题是产生了两个对立的团队,即产品开发人员和运维人员。
43.他们的使命从一开始就截然不同:产品开发人员的目标是尽快地实现系统的新功能并进行部署,从而让用户尽快地使用到新版本和新功能。运维人员则希望尽可能少地产生异常和故障。但是经过统计发现,大部分的异常或故障都是由于配置变更或软件升级导致的。因此,运维人员本能地排斥产品开发人员部署配置变更或软件升级。他们之间的目标冲突降低了系统整体的效率。此外,由于运维人员不了解产品的实现细节,因此他们在发现问题后不能很好地定位故障的根本原因。
44.为了解决这一矛盾,devops应运而生。devops最核心的概念是开发运维一体化,即不再硬性地区分开发人员和运维人员。开发人员自己在代码中设置监控点,产生监控数据。系统部署和运行过程中发生的异常由开发人员进行定位和分析。这种组织方式的优势非常明显:能够产生更加有效的监控数据,方便后期运维;同时,运维人员也是开发人员,出现问题之后能够快速地找出根因。
45.但是,随着越来越多的场景表明,简单的、基于人为制定规则的方法并不能够解决大规模运维的问题。
46.基于此,本技术实施例提供了一种智能运维方法,用于解决现有技术中随着越来越多的场景表明,简单的、基于人为制定规则的方法并不能够解决大规模运维的问题。
47.参见图1,该智能运维方法,包括:
48.s101、使用时间序列从系统数据实时提取多维度的关键性能指标。
49.需要说明的是,在系统运行过程中会产生很多数据,每个数据所代表的意义不同,也即其特征不同,因此可以将各个数据作为判断故障和定位的指标。
50.在实际应用中,关键性能指标,包括:系统中业务层、应用层、网络层、系统层、数据层的监控指标。例如时延、交易量、业务成功率、系统成功率等等,监控指标序列化输入数据
为x
《t》
;当然,也可以包括其他指标,此处不再一一赘述,均在本技术的保护范围内。
51.s102、对日志文本数据进行编码。
52.需要说明的是,编码是信息从一种形式或格式转换为另一种形式的过程,也称为计算机编程语言的代码简称编码。用预先规定的方法将文字、数字或其它对象编成数码,或将信息、数据转换成规定的电脉冲信号。编码在电子计算机、电视、遥控和通讯等方面广泛使用。
53.也就是说,将日志文本数据转化为计算机可识别的格式。
54.其中,编码包括文本编码、知识编码。
55.也就是说,分别对日志文本数据进行文本编码和知识编码。
56.文本编码和知识编码的具体过程,此处不再一一赘述,均在本技术的保护范围内。
57.s103、将关键性能指标的特征以及日志文本数据编码后的特征进行融合,并使用softmax分类器进行故障检测和定位。
58.具体的,最后将关键性能指标kpi提取的特征数据和日志文本数据的编码进行合并,生成新的特征e即:
59.e=[e1;e2];
[0060]
其中,e1为关键性能指标的特征,e2为日志文本数据编码后的特征。
[0061]
对融合后的特征使用softmax回归进行分类,最后识别出是否有故障,以及具体的故障类别。
[0062]
在本实施例中,使用时间序列从系统数据实时提取多维度的关键性能指标;对日志文本数据进行编码,其中,编码包括文本编码、知识编码;将所述关键性能指标的特征以及日志文本数据编码后的特征进行融合,并使用softmax分类器进行故障检测和定位;实现实时提醒与告警,从而快速定位到故障原因、提高运维效率。
[0063]
在实际应用中,参见图2,步骤s101、使用时间序列从系统数据实时提取多维度的关键性能指标,包括:
[0064]
s201、采用长短期记忆人工神经网络方法,从系统数据提取关键性能指标的特征。
[0065]
需要说明的是,采用长短期记忆人工神经网络lstm方法进行特征提取,具体如下:
[0066]
(1)计算遗忘门forgetgate:
[0067]f(t)
=σ(wfh
(t-1)
+ufx
t
+bf);
[0068]
(2)计算输入门input gate:
[0069]i(t)
=σ(w
ih(t-1)
+uix
t
+bi);
[0070]
(3)计算输出门output gate:
[0071]o(t)
=σ(w
oh(t-1)
+uox
t
+bo);
[0072]
(4)计算单元内容new cell content:
[0073][0074]
(5)计算单元状态cell state:
[0075][0076]
(6)隐藏门hidden state:
[0077]h(t)
=o
t
tanh(c
(t)
);
[0078]
其中,h
(t-1)
、x
(t)
为各类获取实时的指标数据;wo、uo、wc、uc、wf、wi、uf、ui均是通过lstm自动学习得到的权重矩阵;bo、bi、bf、bc是偏移量;o
t
是是计算输出门;最后计算得出的h
(t)
即为提取到的特征,用e1表示;σ为softmax函数。
[0079]
在实际应用中,参见图3,步骤s102、对日志文本数据进行编码包括:
[0080]
s301、获取日志文本数据。
[0081]
需要说明的是,可以是通过输入层获取到该日志文本数据。
[0082]
具体的,该输入层包含两部分:长度为n的文本序列和长度为m的实体序列;使用的向量包括:字符向量(character embedding)、词向量(word embedding)和概念向量(concept embedding);字符级别用的是cnn卷积神经网络,词语和概念级别用的是预训练词向量。
[0083]
其具体工作过程,本技术实施例不再一一赘述,视实际情况而定即可,均在本技术的保护范围内。
[0084]
s302、对日志文本数据进行文本编码以及知识编码。
[0085]
具体的,下边分别对文本编码和知识编码进行说明:
[0086]
(1)文本编码textencoding。
[0087]
其主要是计算文本x=(x1,x2,

,xn)的句子表示q。
[0088]
具体的,在使用注意力机制之前,添加bilstm来转换底层的输入;注意力机制使用加权和来生成输出矢量,因此其表示能力受到限制;同时,bilstm擅长捕获序列的上下文信息,可以进一步提高注意力网络的表达能力。
[0089]
bilstm输出之后,经过一个自注意力机制self-attention,注意力机制使用缩放点积注意力机制scaled dot-product attention。
[0090][0091]
其中,同时在一组query上计算得attention函数,将他们打包在一起形成矩阵q,样本数据中key和value也一起打包成矩阵k和v。
[0092]
自注意力机制输出的矩阵表示为a,然后使用一层max pooling最大池化去获取句子的表示q,目的是在向量的每个维度上选择最大值以捕获最重要的特征。
[0093]
(2)知识编码knowledge encoding。
[0094]
给定大小为m的概念集c,其表示为c1,c2,

,cm;其中ci是第i个概念向量,需要得到其向量表示p。使用c-st(concept towards short text)、c-cs(concepttowards concept set)这两种注意力机制结合使用以更多地关注重要的概念。
[0095]
c-st(concepttowards short text)用于计算文本和对应的概念集合的语义相关性,减少由于实体的歧义或kb(knowledge retrieve,知识检索)噪声而引入的一些不正确概念的不良影响。
[0096][0097]
其中,αi代表第i个概念ci对文本的注意力机制attention的权重,αi越大说明这个概念和文本的语义越相关。f(
·
)是一种非线性激活函数,例如双曲线正切变换tanh、softmax用于归一化每个概念的注意力权重。w1是权重矩阵,w1是权重矢量,w
t1
是w1的转置矩阵;b1是偏移量。需要说明的是,f(
·
)代表的是f(w1[ci;q]+b1)。
[0098]
c-cs(concept towards concept set)用于计算概念集合中的每一个概念的重要性。
[0099][0100]
其中,βi代表第i个概念ci在整个概念集合的注意力权重,w2是权重矩阵,w2是权重矢量,w
t2
是w2的转置矩阵;b2是偏移量。c-cs注意力的效果类似于特征选择的效果。这是一个“软”特征选择,它将较大的权重分配给重要的概念,将较小的权重(接近零)分配给普通的概念。
[0101]
αi和βi的结合如下:
[0102][0103]
其中,αi代表第i个概念对于文本的最终的注意力权重,γ∈{0,1}是用于调节αi和βi两者权重的“软开关”,γ的值的设置方法有两种:把γ当做超参数,人工调整以达到最优;γ参与神经网络的训练,自动调节。
[0104]
目前采用了第二种方法,γ的计算方法为:
[0105]
γ=σ(w
t
[α;β]+b)
[0106]
其中,w和b是需要学习的参数,σ为sigmoid函数。
[0107]
最后,计算概念向量的加权和,从而得到表示概念的语义向量p:
[0108][0109]
其中,ci代表第i个概念,m代表共有m个概念。
[0110]
s303、将进行文本编码后的数据和进行知识编码后的数据进行融合。
[0111]
具体的,将文本编码和知识编码合并,生成新的编码e2,即:
[0112]
e2=[p;q];
[0113]
其中,p为进行文本编码后的数据;q为进行知识编码后的数据。
[0114]
需要说明的是,与自动化运维依赖人工生成规则不同,智能运维强调由机器学习算法自动地从海量运维数据(包括事件本身以及运维人员的人工处理日志)中不断地学习,不断地提炼并总结规则。换句话说,智能运维在自动化运维的基础上增加了一个基于机器学习的大脑,指挥着监测系统采集大脑决策所需的数据,做出分析、决策并指挥自动化脚本去执行大脑的决策,从而达到运维系统的整体目标。目前智能运维的异常检测、故障定位还仍处于单一的模式,即异常检测、故障定位是独立进行的,还没有一体化实现。
[0115]
而本实施例中,关键性能指标kpi特征提取,该模块主要使用时间序列方法对实时的多维度的指标数据进行特征提取;日志文本数据编码,该模块包括文本编码、知识编码以及融合文本编码知识编码等过程;融合kpi提取的特征、日志文本编码后的特征,使用softmax分类器进行故障识别;实现实时提醒与告警,从而快速定位到故障原因、提高运维效率,故障检测和定位一体化。
[0116]
在本技术另一实施例提供了一种智能运维装置。
[0117]
参见图4,该智能运维装置,包括:
[0118]
提取单元101,用于使用时间序列从系统数据实时提取多维度的关键性能指标。
[0119]
编码单元102,用于对日志文本数据进行编码,其中,编码包括文本编码、知识编
码。
[0120]
检测定位单元103,用于将关键性能指标的特征以及日志文本数据编码后的特征进行融合,并使用softmax分类器进行故障检测和定位。
[0121]
各个单元的具体工作过程和原理,详情参见上述实施例提供的一种智能运维方法,此处不再一一赘述,均在本技术的保护范围内。
[0122]
在本实施例中,提取单元101使用时间序列从系统数据实时提取多维度的关键性能指标;编码单元102对日志文本数据进行编码,其中,编码包括文本编码、知识编码;检测定位单元103将所述关键性能指标的特征以及日志文本数据编码后的特征进行融合,并使用softmax分类器进行故障检测和定位;实现实时提醒与告警,从而快速定位到故障原因、提高运维效率。
[0123]
在实际应用中,关键性能指标,包括:系统中业务层、应用层、网络层、系统层、数据层的监控指标。
[0124]
在实际应用中,提取单元101用于使用时间序列从系统数据实时提取多维度的关键性能指标时,具体用于:
[0125]
采用长短期记忆人工神经网络方法,从系统数据提取关键性能指标的特征。
[0126]
该提取单元101的具体工作过程和原理,详情参见上述实施例提供的一种智能运维方法,此处不再一一赘述,均在本技术的保护范围内。
[0127]
在实际应用中,编码单元102用于对日志文本数据进行编码时,具体用于:
[0128]
(1)获取日志文本数据。
[0129]
(2)对日志文本数据进行文本编码以及知识编码。
[0130]
(3)将进行文本编码后的数据和进行知识编码后的数据进行融合。
[0131]
该编码单元102的具体工作过程和原理,详情参见上述实施例提供的一种智能运维方法,此处不再一一赘述,均在本技术的保护范围内。
[0132]
本技术另一实施例提供了一种计算机存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如上述实施例中任意一项的智能运维方法。
[0133]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0134]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、
或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0135]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
[0136]
本发明另一实施例提供了一种电子设备,如图5所示,包括:
[0137]
一个或多个处理器601。
[0138]
存储装置602,其上存储有一个或多个程序。
[0139]
当一个或多个程序被一个或多个处理器601执行时,使得一个或多个处理器601实现如上述实施例中任意一项的智能运维方法。
[0140]
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。
[0141]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
[0142]
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0143]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0144]
本说明书中的各个实施例中记载的特征可以相互替换或者组合,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0145]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0146]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1