本技术涉及网络运维,具体涉及一种网络故障监测方法、装置及电子设备。
背景技术:
1、随着5g、网络功能虚拟化(network functions virtualization,nfv)等网络通信技术的发展,通信网元从依靠告警进行网络监控运维的通信技术(communicationstechnology,ct)网络转变成了基于云化技术的信息技术(information technology,it)网络。网络日志是记录网络运行状况的重要部分,基于云化技术的it网络下的云化网络设备众多,产生的网络日志数量庞大,可以达到太字节(tb)数量级,从这些海量的网络日志中快速分析并定位出故障对网络运维发挥着重要的作用。
2、目前,对网络的故障监测和定位主要使用预设的人工智能算法对收集到的网络设备的应用日志信息进行处理得到。但这种方法仅考虑了应用日志信息,而没有考虑通信网络中其他可能导致网络故障的因素,因而无法实现网络故障的全方位监测。
技术实现思路
1、本技术实施例提供一种网络故障监测方法、装置及电子设备,用以解决现有技术中无法全方位监测网络故障的技术问题。
2、第一方面,本技术实施例提供一种网络故障监测方法,包括:
3、获取待分析网络日志;
4、对所述待分析网络日志进行拓扑拍照,得到网络拓扑关系图;
5、对所述待分析网络日志进行异常点分析,得到异常定位信息;
6、从所述待分析网络日志中提取关键语句;
7、基于所述网络拓扑关系图、所述异常定位信息和所述关键语句生成网络故障定位信息;
8、输出所述网络故障定位信息。
9、在一个实施例中,所述获取待分析网络日志包括:
10、从网关设备获取原始网络日志;
11、根据目标查询信息从所述原始网络日志中筛选出符合所述目标查询信息的网络日志,得到所述待分析网络日志,所述目标查询信息中包括目标时间点、目标网络节点和目标事件类型。
12、在一个实施例中,所述对所述待分析网络日志进行拓扑拍照,得到网络拓扑关系图包括:
13、对所述待分析网络日志中涉及网元的部分进行拓扑拍照,得到网元三层对应关系,所述网元三层对应关系包括物理主机、虚拟机和虚拟网络功能vnf的对应关系;
14、获取所述网元之间的物理资源数据;
15、将所述网元三层对应关系和所述物理资源数据进行关联,得到网络拓扑关系图。
16、在一个实施例中,所述对所述待分析网络日志进行异常点分析,得到异常定位信息包括:
17、按照时间粒度对所述待分析网络日志进行日志量统计,得到每个网元的网络日志量变化趋势;
18、对于每个网元,根据所述每个网元的网络日志量变化趋势获取网络日志量波动超过设定阈值的时间点及所述时间点对应的网元信息和网络日志波动量,得到异常定位信息。
19、在一个实施例中,所述从所述待分析网络日志中提取关键语句包括:
20、基于人工智能语义分析模型从所述待分析网络日志中提取关键语句;所述人工智能语义分析模型为基于样本网络日志和对所述样本网络日志进行关键语句标注得到的标注数据对基础语义模型进行训练得到的模型。
21、在一个实施例中,在所述基于人工智能语义分析模型从所述待分析网络日志中提取关键语句之前,所述网络故障监测方法还包括:
22、获取所述样本网络日志;
23、对所述样本网络日志进行清洗和关键语句标注,得到训练样本集;
24、建立所述样本网络日志的专属词库;
25、基于所述训练样本集和所述专属词库对所述基础语义模型进行训练,得到所述人工智能语义分析模型。
26、在一个实施例中,所述基于所述训练样本集和所述专属词库对所述基础语义模型进行训练包括:
27、将所述训练样本集导入所述基础语义模型,获取所述训练样本集中的样本网络日志的文本长度,得到待处理文本长度;
28、响应于所述待处理文本长度大于文本长度阈值,基于文本长度置信度条件对所述训练样本集中的样本网络日志进行拆分处理,得到待训练样本网络日志;所述文本长度阈值为所述基础语义模型可识别的最大文本长度,所述文本长度置信度条件包括拆分后的样本网络日志的长度大于最小阈值且小于所述文本长度阈值的置信度等于设定置信度,所述最小阈值为0.5倍所述文本长度阈值减去交叉日志文本长度的值;
29、以所述待训练样本网络日志为所述基础语义模型的输入,以对所述样本网络日志进行关键语句标注得到的标注数据为所述基础语义模型的目标输出,利用训练参数集对所述基础语义模型进行训练并在训练过程中调用所述专属词库辅助识别关键语句。
30、在一个实施例中,在所述利用训练参数集对所述基础语义模型进行训练之后,所述基于所述训练样本集和所述专属词库对所述基础语义模型进行训练还包括:
31、获取验证数据集;
32、将所述验证数据集输入关键语句提取模型进行关键语句提取,得到关键语句提取结果,所述关键语句提取模型为利用所述训练参数集对所述基础语义模型进行训练后得到的模型;
33、根据所述关键语句提取结果计算整体提取准确率和细分提取准确率;
34、响应于所述整体提取准确率小于第一设定准确率阈值,在所述训练样本集中新增第一样本网络日志,所述第一样本网络日志为对导致所述整体提取准确率小于所述第一设定准确率阈值的关键语句中非日志产生原因的关键语句进行标注的样本网络日志;
35、响应于所述细分提取准确率中目标日志类型对应的细分提取准确率小于第二设定准确率阈值,增加所述训练样本集中第二样本网络日志的数量,所述第二样本网络日志为所述目标日志类型对应的网络日志;
36、基于更新后的训练样本集对所述关键语句提取模型继续进行训练。
37、在一个实施例中,在所述基于更新后的训练样本集对所述关键语句提取模型继续进行训练之后,所述基于所述训练样本集和所述专属词库对所述基础语义模型进行训练还包括:
38、对所述关键语句提取模型训练之后得到的模型进行轻量化处理。
39、在一个实施例中,所述基于所述网络拓扑关系图、所述异常定位信息和所述关键语句生成网络故障定位信息包括:
40、基于所述网络拓扑关系图查询网络告警信息和网络割接信息;
41、根据网络告警信息查询结果确定第一网络故障监测信息和第一监测阈值;
42、根据网络割接信息查询结果确定第二网络故障监测信息和第二监测阈值;
43、获取所述关键语句中各关键语句的占比,并根据所述占比和所述异常定位信息确定第三网络故障监测信息和第三监测阈值;
44、根据所述关键语句和关键语句与关键语句级别的对应关系确定第四网络故障监测信息和第四监测阈值;
45、基于所述第一网络故障监测信息、所述第一监测阈值、所述第二网络故障监测信息、所述第二监测阈值、所述第三网络故障监测信息、所述第三监测阈值、所述第四网络故障监测信息和所述第四监测阈值生成网络故障定位信息。
46、在一个实施例中,所述根据网络告警信息查询结果确定第一网络故障监测信息和第一监测阈值包括:
47、响应于查询到网络告警信息,确定所述第一网络故障监测信息为网络存在部分异常,且确定所述第一监测阈值为第一阈值;
48、响应于未查询到网络告警信息,确定所述第一网络故障监测信息为网络正常,且确定所述第一监测阈值为第二阈值。
49、在一个实施例中,所述根据网络割接信息查询结果确定第二网络故障监测信息和第二监测阈值包括:
50、响应于在第一设定时间段查询到网络割接报备,确定所述第二网络故障监测信息为夜间网络割接操作,且确定所述第二监测阈值为第一阈值;
51、响应于在第二设定时间段查询到网络割接报备,确定所述第二网络故障监测信息为日间网络割接操作,且确定所述第二监测阈值为第三阈值。
52、在一个实施例中,所述获取所述关键语句中每个关键语句的占比,并根据所述每个关键语句的占比和所述异常定位信息确定第三网络故障监测信息和第三监测阈值包括:
53、响应于第一目标网元的所述异常定位信息指示网络日志量波动超过设定阈值,将所述异常定位信息作为第一异常评估信息并生成第一评估阈值,所述第一目标网元为单网元;
54、响应于第二目标网元的第一目标关键语句的占比大于占比阈值,生成第二异常评估信息和第二评估阈值,所述第二目标网元为单网元,所述第一目标关键语句为所述关键语句中的一个关键语句,所述第二异常评估信息指示所述第二目标网元的包含所述第一目标关键语句的网络日志偏多;
55、响应于第三目标网元的网络日志量在目标时间点偏离目标日志量均值,生成第三异常评估信息和第三评估阈值,所述第三目标网元为多网元中的一个网元,所述目标日志量均值为所述多网元在所述目标时间点的网络日志量的平均值,所述第三异常评估信息指示所述第三目标网元在所述目标时间点的网络日志量较高;
56、响应于第四目标网元的第二目标关键语句的占比偏离占比阈值,生成第四异常评估信息和第四评估阈值,所述第四目标网元为多网元中的一个网元,所述第二目标关键语句为所述关键语句中的一个关键语句,所述第四异常评估信息指示所述第四目标网元的包含所述第二目标关键语句的网络日志占比存在异常;
57、响应于所述第一评估阈值、所述第二评估阈值、所述第三评估阈值和所述第四评估阈值中有至少两个评估阈值为第一阈值,确定所述第三监测阈值为第三阈值,且将所述至少两个评估阈值为第一阈值的评估阈值对应的异常评估信息生成为所述第三网络故障监测信息。
58、在一个实施例中,所述基于所述第一网络故障监测信息、所述第一监测阈值、所述第二网络故障监测信息、所述第二监测阈值、所述第三网络故障监测信息、所述第三监测阈值、所述第四网络故障监测信息和所述第四监测阈值生成网络故障定位信息包括:
59、获取所述第一监测阈值、所述第二监测阈值、所述第三监测阈值和所述第四监测阈值中的最大监测阈值;
60、获取与所述最大监测阈值匹配的网络故障监测信息;
61、基于所述最大监测阈值和所述与所述最大监测阈值匹配的网络故障监测信息生成网络故障定位信息。
62、第二方面,本技术实施例提供一种网络故障监测装置,包括:
63、第一获取模块,用于获取待分析网络日志;
64、第二获取模块,用于对所述待分析网络日志进行拓扑拍照,得到网络拓扑关系图;
65、分析模块,用于对所述待分析网络日志进行异常点分析,得到异常定位信息;
66、提取模块,用于从所述待分析网络日志中提取关键语句;
67、生成模块,用于基于所述网络拓扑关系图、所述异常定位信息和所述关键语句生成网络故障定位信息;
68、输出模块,用于输出所述网络故障定位信息。
69、第三方面,本技术实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的网络故障监测方法的步骤。
70、第四方面,本技术实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的网络故障监测方法的步骤。
71、本技术实施例提供的网络故障监测方法、装置及电子设备,可以对获取的待分析网络日志进行拓扑拍照和异常点分析,得到网络拓扑关系图和异常定位信息,通过网络拓扑关系图可以获得网络设备的多层组网关系和告警信息,同时从待分析网络日志中提取关键语句,基于关键语句可以定位异常网络日志,然后基于网络拓扑关系图、异常定位信息和关键语句生成网络故障定位信息,在网络故障监测过程中综合考虑了网络日志、网络拓扑及关键语句等多个维度中可能导致网络故障的因素,能够对网络故障进行多方位的监测。