5G告警数据挖掘方法及装置与流程

文档序号:31994029发布日期:2022-11-02 00:35阅读:350来源:国知局
5G告警数据挖掘方法及装置与流程
5g告警数据挖掘方法及装置
技术领域
1.本发明涉及计算机技术领域,尤其涉及一种5g告警数据的挖掘方法及装置。


背景技术:

2.第五代移动通信(the 5
th generation,5g)作为一种新型的网络架构,具备告警数据量大和告警根因更难定位的特点。
3.传统第四代移动通信(the 4
th generation,4g)告警根因的挖掘方法,采集大量的4g告警数据,通过人工专家规则知识库或关联规则的相关算法进行告警根因的挖掘。5g告警根因的挖掘亟待解决。


技术实现要素:

4.本发明提供一种5g告警数据挖掘方法及装置,用以解决5g告警根因的挖掘的问题。
5.第一方面,本发明提供一种5g告警数据挖掘方法,包括:
6.基于操作维护中心omc系统获取第五代移动通信5g告警数据,基于spark框架对所述5g告警数据进行筛选处理,得到5g原始告警数据,将所述5g原始告警数据存入hadoop集群;
7.对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据;
8.基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集;
9.基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集;
10.基于多粒度编码器对所述标注后的频繁项集进行编码处理,得到编码后的频繁项集;
11.将所述编码后的频繁项集输入至预先训练好的多任务深度神经网络模型中,输出目标结果,所述多任务深度神经网络模型包括第一级分类模型和第二级分类模型;
12.其中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到。
13.在一个实施例中,所述基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集,具体包括:
14.基于预设大小和步长的滑动时间窗口对所述处理后的5g原始告警数据进行划分,得到与滑动时间窗口内的5g原始告警数据对应的事务;
15.基于spark框架计算所述事务中的告警类型的支持度;
16.基于预设最小支持度阈值对所述事务中的告警类型进行过滤处理,得到过滤后的事务;
17.对所述过滤后的事务进行预剪枝操作,生成频繁项集;
18.基于5g告警的时间序列和网元拓扑双相关因素算法对所述频繁项集进行剪枝,得到剪枝后的频繁项集;
19.基于所述剪枝后的频繁项集构建频繁模式fp树,对所述fp树进行遍历,得到剪枝后的告警类型频繁项集。
20.在一个实施例中,所述基于5g告警的时间序列和网元拓扑双相关因素算法对所述频繁项集进行剪枝,具体包括:
21.基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率;
22.若所述错误率大于预设阈值,对所述频繁项集进行剪枝。
23.在一个实施例中,所述基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率,具体包括:
24.利用公式(1)和(2),计算所述频繁项集不在相同网元拓扑结构中的错误率:
[0025][0026][0027]
其中,e(q)表示在节点q下的样本误判个数,c(t,r)q表示在所述节点q下的样本的时空相关系数,s(q)表示在节点q下的样本总数,t表示时间参数,r表示网元拓扑结构参数,α表示样本误判个数所占的权重,β表示时空相关系数所占的权重,max(y
tm-y
tn
)表示频繁项集中两个样本对应的时间序列间隔最大值,y
tm
和y
tn
表示频繁项集中样本对应的时间序列值,cr(y
ri
,y
ri+1
)表示频繁项集中两个样本之间的网元拓扑结构相关系数,y
ri
和y
ri+1
表示频繁项集中与样本对应的网元拓扑结构参数,q表示与所述滑动时间窗口对应的频繁项集,样本表示频繁项集中的5g告警数据。
[0028]
在一个实施例中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到,具体包括:
[0029]
将已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本输入至第一级分类模型,输出第一目标结果,将所述已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本输入至第二级分类模型,输出第二目标结果;
[0030]
基于所述第一目标结果和所述5g原始告警数据样本对应的第一类故障类型,计算第一损失函数值,基于所述第二目标结果和所述5g原始告警数据样本对应的第二类故障类型,计算第二损失函数值;
[0031]
通过反向传播算法,从所述第一级分类模型的输出层开始调整所述第一级分类模型的各个参数,以使所述第一损失函数值朝最小化方向移动,从所述第二级分类模型输出层开始调整所述第二级分类模型的各个参数,以使所述第二损失函数值朝最小化方向移动;
[0032]
判断是否达到训练结束条件,若是,则保存当前迭代所述第一级分类模型和第二
级分类模型的参数,获得训练好的多任务深度神经网络模型。
[0033]
在一个实施例中,所述基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集,具体包括:
[0034]
基于告警类型对所述剪枝后的告警类型频繁项集进行多粒度标注和归并标注,得到标注后的频繁项集。
[0035]
在一个实施例中,所述对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据,具体包括:
[0036]
对所述5g原始告警数据进行数据补全处理,得到第一预处理数据;
[0037]
对所述第一预处理数据进行去除冗余处理,得到第二预处理数据;
[0038]
对所述第二预处理数据进行信息完整性处理,得到处理后的5g原始告警数据。
[0039]
第二方面,本发明提供一种5g告警数据挖掘装置,包括:
[0040]
数据筛选单元,用于基于操作维护中心omc系统获取第五代移动通信5g告警数据,基于spark框架对所述5g告警数据进行筛选处理,得到5g原始告警数据,将所述5g原始告警数据存入hadoop集群;
[0041]
数据清洗单元,用于对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据;
[0042]
数据压缩单元,用于基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集;
[0043]
数据标注单元,用于基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集;
[0044]
数据编码单元,用于基于多粒度编码器对所述标注后的频繁项集进行编码处理,得到编码后的频繁项集;
[0045]
输出单元,用于将所述编码后的频繁项集输入至预先训练好的多任务深度神经网络模型中,输出目标结果,所述多任务深度神经网络模型包括第一级分类模型和第二级分类模型;其中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到。
[0046]
第三方面,本发明提供一种电子设备,包括存储器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述5g告警数据挖掘方法的步骤。
[0047]
第四方面,本发明提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行第一方面所述5g告警数据挖掘方法的步骤。
[0048]
本发明提供的5g告警数据挖掘方法及装置,通过操作维护中心omc系统采集5g告警数据,对所述5g告警数据进行筛选处理,得到5g原始告警数据,对5g原始告警数据进行数据清洗处理,提高5g原始告警数据的质量,基于分布式fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,对hadoop集群节点间的性能差异进行负载均衡,对剪枝后的告警类型频繁项集进行数据标注及编码,将编码结果输入至预先训练好的多任务深度神经网络模型,有效提高5g告警数据的故障根因定位的准确性和效率。
附图说明
[0049]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]
图1是本发明提供的5g告警数据挖掘方法的流程示意图;
[0051]
图2是本发明提供的5g原始告警数据的采集方法的框架示意图;
[0052]
图3是本发明提供的多任务深度神经网络模型训练过程的框架示意图;
[0053]
图4是本发明提供的基于多任务深度神经网络模型的5g原始告警数据的根因定位的框架示意图;
[0054]
图5是本发明提供的5g告警数据挖掘装置的结构示意图;
[0055]
图6是本发明提供的电子设备的结构示意图。
具体实施方式
[0056]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0057]
为了解决5g告警根因的挖掘的问题,本发明提供一种5g告警数据挖掘方法,图1是本发明实施例提供的5g告警数据挖掘方法的流程示意图,如图1所示,本发明提供的5g告警数据挖掘方法,该方法包括:
[0058]
步骤100、基于操作维护中心omc系统获取第五代移动通信5g告警数据,基于spark框架对所述5g告警数据进行筛选处理,得到5g原始告警数据,将所述5g原始告警数据存入hadoop集群。
[0059]
5g告警数据用于指示5g网络通信设备出现故障等异常情况下产生的警报数据,常见的5g告警数据有无线设备故障告警、动环设备故障告警、核心网设备故障告警、数据网设备故障告警以及传输设备故障告警等。5g告警数据的内容如表格1所示。
[0060]
表1 5g告警数据的内容
[0061][0062]
操作维护中心(operation maintenance center,omc)系统表示操作维护中心系统,用于收集核心网和无线网等5g网络通信设备中各网元的5g告警数据。
[0063]
spark框架表示大数据技术中的计算引擎框架,用于对socket通信接口获取的5g告警数据进行筛选。
[0064]
hadoop集群表示大数据技术中的hadoop集群服务器,用于存储数据。
[0065]
5g网络通信设备将5g告警数据上报至omc系统,电子设备通过socket通信接口获取omc系统中已采集的5g告警数据,基于spark技术对socket通信接口获取的5g告警数据进行筛选,得到5g原始告警数据,通过消息队列的方式将5g原始告警数据存储至hadoop集群
中。
[0066]
一种实施方式中,采用网络管理系统(network management system,nms)对socket通信接口获取的5g告警数据的进程进行监控和重连,进而保证5g告警数据的实时及全量采集。
[0067]
一种实施方式中,对hadoop集群的工作状态进行自动巡检,实时获取工作状态处于异常的服务器,进而保证hadoop集群中各个服务器的稳定运行。
[0068]
步骤101、对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据。
[0069]
数据清洗处理包括去除/补全缺失数据、修改格式和内容错误的数据、去除逻辑错误的数据以及去除冗余数据等。
[0070]
电子设备对5g原始告警数据进行数据清洗处理,依次进行补全缺失数据处理、去除冗余数据处理和信息完整性处理,最终得到处理后的5g原始告警数据。
[0071]
步骤102、基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集。
[0072]
为了从海量的5g原始告警数据中挖掘有价值的数据信息,电子设备基于分布式频繁模式增长(frequent-pattern-growth,fp-growth)算法对处理后的5g原始告警数据进行相关性分析,生成关联规则,基于关联规则对处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集。
[0073]
进一步地,基于专家验证的方式对剪枝后的告警类型频繁项集的分布情况进行验证,避免数据分布不均匀的情况,评估数据的合理性。
[0074]
关联规则用于指示电子设备从一个数据集发现关联关系或相关关系,即从数据集中识别出频繁出现的属性值集,也称为频繁项集,然后利用这些频繁项集创建描述关联关系的规则的过程。
[0075]
频繁项集用于指示数据项集的支持度超过预设阈值时,该数据项集称为频繁项集。
[0076]
支持度用于指示数据项在同一数据集中出现的频繁程度。
[0077]
数据项用于指示数据类型。
[0078]
步骤103、基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集。
[0079]
可选地,数据标注包括多粒度标注和归并标注。
[0080]
多粒度标注用于指示对剪枝后的告警类型频繁项集进行大类故障类型标注和小类故障类型标注。
[0081]
归并标注用于指示对单一标注小类故障类型且包含不同5g原始告警数据的剪枝后的告警类型频繁项集进行归并处理。
[0082]
步骤104、基于多粒度编码器对所述标注后的频繁项集进行编码处理,得到编码后的频繁项集。
[0083]
一种实施方式中,编码处理采用二进制编码方式,电子设备基于与标注后的频繁项集对应的告警类型a,对于标注后的频繁项集中每一项5g原始告警数据进行判断,若该5g原始告警数据的告警类型为a,则将该5g原始告警数据编码为1,若该5g原始告警数据的告
警类型不为a,确认将该5g原始告警数据编码为0,对标注后的频繁项集内的所有5g原始告警数据进行编码后,得到一条二进制序列。
[0084]
步骤105、将所述编码后的频繁项集输入至预先训练好的多任务深度神经网络模型中,输出目标结果,所述多任务深度神经网络模型包括第一级分类模型和第二级分类模型;其中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到。
[0085]
需要说明的是,目标结果是与编码后的频繁项集对应的输出结果,包括第一级分类模型的输出结果和第二级分类模型的输出结果。
[0086]
一种实施方式中,对于一个时间窗口内的频繁项集,将编码后的频繁项集输入至第一级分类模型,得到第一级分类模型的输出结果,将编码后的频繁项集输入至第二级分类模型,得到第二级分类模型的输出结果,从第一级分类模型的输出结果中获取置信度为top-1的输出结果a,将输出结果a与第二级分类模型的全部输出结果进行关联,筛选出输出结果b,其中,输出结果b表示属于输出结果a内的第二级分类模型的输出结果。
[0087]
进一步地,从输出结果b中获取置信度为top-3的数据作为第二级分类模型有效的输出结果。
[0088]
进一步地,基于预先训练好的多任务深度神经网络模型,统计该频繁项集对应的全部有效的输出结果,对于该全部有效的输出结果,利用投票选举的思想计算该时间窗口内触发频次最高且置信度为top-3的输出结果作为目标结果;若该频繁项集对应的所有输出结果的数量小于3,则所有输出结果作为目标结果。
[0089]
需要说明的是,第一级分类模型的输出结果为编码后的频繁项集对应的大类故障类型,第二级分类模型的输出结果为编码后的频繁项集对应的小类故障类型。
[0090]
本发明提供的5g告警数据挖掘方法,通过操作维护中心omc系统采集5g告警数据,对所述5g告警数据进行筛选处理,得到5g原始告警数据,对5g原始告警数据进行数据清洗处理,提高5g原始告警数据的质量,基于分布式fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,对hadoop集群节点间的性能差异进行负载均衡,对剪枝后的告警类型频繁项集进行数据标注及编码,将编码结果输入至预先训练好的多任务深度神经网络模型,有效提高5g告警数据的故障根因定位的准确性和效率。
[0091]
结合图2说明5g原始告警数据的采集原理。图2是本发明实施例提供的5g原始告警数据的采集方法的框架示意图。
[0092]
如图2所示,ne表示5g基站,用于产生5g告警数据,omc系统表示操作维护中心系统,用于收集核心网和无线网等5g网络通信设备中各网元的5g告警数据,nms网管系统表示网络管理系统,用于对通过socket通信接口获取5g告警数据的进程进行监控和socket通信接口重连,hadoop集群表示集群服务器,用于存储数据。
[0093]
其中,ne设备将5g告警数据上报至omc系统,socket通信接口从omc系统中获取已采集的5g告警数据,基于spark技术对socket接口中获取的5g告警数据进行筛选,得到5g原始告警数据,将5g原始告警数据按照消息队列的方式存储至hadoop集群中。
[0094]
一种实施方式中,动环设备、核心网设备、数据网设备以及传输设备将5g告警数据上报至omc系统,socket通信接口从omc系统中获取已采集的5g告警数据,基于spark技术对
socket接口中获取的5g告警数据进行筛选,得到5g原始告警数据,将5g原始告警数据按照消息队列的方式存储至hadoop集群中。
[0095]
进一步地,为了保证5g告警数据的实时及全量采集,nms网管系统对通过socket通信接口获取5g告警数据的进程进行实时监控,并对socket通信接口进行重连。
[0096]
进一步地,为了保证hadoop集群中各个服务器的稳定运行,对hadoop集群的工作状态进行自动巡检,实时获取工作状态处于异常的服务器。
[0097]
基于上述任一实施例,所述基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集,具体包括:
[0098]
基于预设大小和步长的滑动时间窗口对所述处理后的5g原始告警数据进行划分,得到与滑动时间窗口内的5g原始告警数据对应的事务;
[0099]
基于spark框架计算所述事务中的告警类型的支持度;
[0100]
基于预设最小支持度阈值对所述事务中的告警类型进行过滤处理,得到过滤后的事务;
[0101]
对所述过滤后的事务进行预剪枝操作,生成频繁项集;
[0102]
基于5g告警的时间序列和网元拓扑双相关因素算法对所述频繁项集进行剪枝,得到剪枝后的频繁项集;
[0103]
基于所述剪枝后的频繁项集构建频繁模式fp树,对所述fp树进行遍历,得到剪枝后的告警类型频繁项集。
[0104]
一种实施方式中,设置滑动时间窗口的大小为180s,步长为60s,一个滑动时间窗口内的全部5g原始告警数据作为一个事务,滑动时间窗口用于对所有处理后的5g原始告警数据进行划分。
[0105]
具体地,电子设备采用滑动时间窗口对所有处理后的5g原始告警数据进行划分,得到与滑动时间窗口内的全部5g原始告警数据对应的事务。
[0106]
进一步地,对于每个事务,基于该事务内出现的告警类型,对该事务内的全部5g原始告警数据进一步进行划分,通过spark框架计算每个告警类型出现的频次,作为与频次对应的告警类型的支持度,基于预设的最小支持度阈值,对该事务内的告警类型进行过滤处理,得到满足预设条件的告警类型。
[0107]
一种实施方式中,对于每个事务,基于告警类型的支持度对满足预设条件的告警类型进行从大到小的排序,选出排序在前80%的告警类型的集合作为过滤后的事务。
[0108]
需要说明的是,对于每个事务内的全部5g原始告警数据,每个5g原始告警数据与告警类型一一对应,每个告警类型与至少一个5g原始告警数据相对应。
[0109]
进一步地,电子设备对每个过滤后的事务进行预剪枝操作,生成频繁项集,基于5g告警的时间序列和网元拓扑的双相关因素算法对每个频繁项集进行剪枝操作,得到剪枝后的频繁项集,对剪枝后的频繁项集构建频繁模式(frequent-pattern,fp)树,对fp树进行遍历,得到剪枝后的告警类型频繁项集。对fp树进行遍历操作,能够有效提高读取5g告警数据的效率。
[0110]
一种实施方式中,通过专家验证的方式验证5g原始告警数据的分布,能够有效避免数据分布不均匀的情况,提高数据质量。
[0111]
本发明实施例提供的5g告警数据挖掘方法,基于滑动时间窗口对所有的5g原始告
警数据进行划分,利用spark框架及预设条件对于每个滑动时间窗口对应的事务进行过滤处理,对事务集进行预剪枝,基于5g告警的时间序列和网元拓扑双相关因素算法对所述频繁项集进行剪枝,对剪枝后的频繁项集构建fp树,进而生成关联规则,利用关联规则对5g原始告警数据进行压缩处理和验证操作,得到剪枝后的告警类型频繁项集,有效避免数据分布不均匀的情况,提高5g告警数据的质量。
[0112]
基于上述任一实施例,所述基于5g告警的时间序列和网元拓扑双相关因素算法对所述频繁项集进行剪枝,具体包括:
[0113]
基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率;
[0114]
若所述错误率大于预设阈值,对所述频繁项集进行剪枝。
[0115]
5g告警的时间序列和网元拓扑双相关因素算法包括时间序列和网元拓扑两个维度,分别计算频繁项集中任意两个5g原始告警数据的时间序列间隔值和网元拓扑结构相关系数,进而计算得到频繁项集不属于相同网元拓扑结构中的错误率。
[0116]
进一步地,判断频繁项集不属于相同网元拓扑结构中的错误率是否满足预设条件,若满足,对频繁项集进行剪枝操作。
[0117]
其中,预设条件为频繁项集不属于相同网元拓扑结构中的错误率大于预设阈值。
[0118]
本发明实施例提供的5g告警数据挖掘方法,基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率,在频繁项集不属于相同网元拓扑结构中的错误率满足预设条件的情况下,对频繁项集进行剪枝,有效提高5g告警数据的质量,进而提高5g告警数据的故障根因定位的准确性和效率。
[0119]
基于上述任一实施例,所述基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率,具体包括:
[0120]
利用公式(1)和(2),计算所述频繁项集不在相同网元拓扑结构中的错误率:
[0121][0122][0123]
其中,e(q)表示在节点q下的样本误判个数,c(t,r)q表示在所述节点q下的样本的时空相关系数,s(q)表示在节点q下的样本总数,t表示时间参数,r表示网元拓扑结构参数,α表示样本误判个数所占的权重,β表示时空相关系数所占的权重,max(y
tm-y
tn
)表示频繁项集中两个样本对应的时间序列间隔最大值,y
tm
和y
tn
表示频繁项集中样本对应的时间序列值,cr(y
ri
,y
ri+1
)表示频繁项集中两个样本之间的网元拓扑结构相关系数,y
ri
和y
ri+1
表示频繁项集中与样本对应的网元拓扑结构参数,q表示与所述滑动时间窗口对应的频繁项集,样本表示频繁项集中的5g告警数据。
[0124]
具体地,剪枝条件为f(q)≥f(q'),f(q')表示预设阈值,在节点q不在相同网元拓扑结构中的错误率大于预设阈值的条件下,对节点q进行剪枝操作,使得剪枝后的节点q中的样本误差和空间相关指数加权之后更低。
[0125]
需要说明的是,若频繁项集中的各样本之间时间序列间隔较小,且属于相同网元
拓扑结构,该频繁项集中的样本的时空相关系数较高;相反地,若频繁项集中的各样本之间时间序列间隔较大,或属于不同网元拓扑结构,则该频繁项集中的样本的时空相关系数较低,其中,频繁项集中的样本属于滑动时间窗边缘,且属于不同网元拓扑结构,则该频繁项集中的时空相关系数最低。
[0126]
本发明实施例提供的5g告警数据挖掘方法,基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率,在频繁项集不属于相同网元拓扑结构中的错误率满足预设条件的情况下,对频繁项集进行剪枝,有效提高5g告警数据的质量,进而提高5g告警数据的故障根因定位的准确性和效率。
[0127]
基于上述任一实施例,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到,具体包括:
[0128]
将已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本输入至第一级分类模型,输出第一目标结果,将所述已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本输入至第二级分类模型,输出第二目标结果;
[0129]
基于所述第一目标结果和所述5g原始告警数据样本对应的第一类故障类型,计算第一损失函数值,基于所述第二目标结果和所述5g原始告警数据样本对应的第二类故障类型,计算第二损失函数值;
[0130]
通过反向传播算法,从所述第一级分类模型的输出层开始调整所述第一级分类模型的各个参数,以使所述第一损失函数值朝最小化方向移动,从所述第二级分类模型输出层开始调整所述第二级分类模型的各个参数,以使所述第二损失函数值朝最小化方向移动;
[0131]
判断是否达到训练结束条件,若是,则保存当前迭代所述第一级分类模型和第二级分类模型的参数,获得训练好的多任务深度神经网络模型。
[0132]
第一目标结果为5g原始告警数据样本对应的数据结果,第二目标结果为5g原始告警数据样本对应的数据结果。
[0133]
一种实施方式中,第一类故障类型为大类故障类型,第二类故障类型为小类故障类型。
[0134]
具体地,已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签对多任务深度神经网络模型进行训练,根据5g原始告警数据样本以及5g原始告警数据样本对应的故障类型样本标签确定多任务深度神经网络模型的输入和输出神经元个数,通过经验法则、穷举搜索等方法确定隐藏层的层数和神经元的个数。
[0135]
一种实施方式中,若已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本的特征点数量为20,5g原始告警数据样本对应的第一类故障类型的特征点数量为5,则在第一级分类模型中输入层的节点数量为20,第一级分类模型中输出层的神经元节点数量为5,隐藏层的层数为2,隐藏层各层节点数量为8。
[0136]
一种实施方式中,通过xavier初始化或he初始化等方法进行权重初始化。
[0137]
一种实施方式中,分别使用tanh激活函数、relu激活函数和sigmoid激活函数对多任务深度神经网络模型进行训练,根据训练结果可得出,relu激活函数能够解决正区间内
梯度消失问题,同时使得部分神经元为0,进而导致多任务深度神经网络模型的稀疏性,且减少了多任务深度神经网络模型中各参数之间的相互依赖关系,缓解了过拟合问题,其计算速度与收敛速度比tanh激活函数和sigmoid激活函数更快,因此,采用relu激活函数对多任务深度神经网络模型进行训练。
[0138]
一种实施方式中,采用dropout策略对多任务深度神经网络模型进行训练,以一定的概率对少部分神经元进行屏蔽处理,避免过拟合情况的发生,增强模型的鲁棒性。
[0139]
需要说明的是,已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据为样本,以5g原始告警数据为样本对应的第一类故障类型为样本标签对第一级分类模型进行训练;已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据为样本,以5g原始告警数据为样本对应的第二类故障类型为样本标签对第二级分类模型进行训练,对两个模型的训练过程可以同时进行,也可以分开进行,不分先后顺序。
[0140]
本发明实施例提供的5g告警数据挖掘方法,已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签对多任务深度神经网络模型进行训练,得到训练好的任务深度神经网络模型,有效提高5g告警数据的故障根因定位的准确性和效率。
[0141]
结合图3说明多任务深度神经网络模型的训练过程。图3是本发明实施例提供的多任务深度神经网络模型训练过程的框架示意图。
[0142]
如图3所示,将5g原始告警数据样本经过数据清洗处理、关联规则处理以及编码器编码处理,得到预处理后的5g原始告警数据样本,将预处理后的5g原始告警数据样本输入至多任务深度神经网络模型的输入层,得到输出结果,基于输出层的输出结果和5g原始告警数据样本对应的故障类型样本标签,采用dropout策略对多任务深度神经网络模型进行训练,得到训练好的多任务深度神经网络模型。
[0143]
结合图4说明基于多任务深度神经网络模型实现5g原始告警数据的根因定位。图4是本发明实施例提供的基于多任务深度神经网络模型的5g原始告警数据的根因定位的框架示意图。
[0144]
如图4所示,模型1表示第一级分类模型,模型2表示第二级分类模型。
[0145]
将告警事务编码数据输入第一级分类模型,输出多个与告警事务编码数据对应的大类故障类型,依次为故障大类1、故障大类2、
……
和故障大类a;将告警事务编码数据输入第二级分类模型,输出多个与告警事务编码数据对应的小类故障类型,依次为故障小类1、故障小类2、故障小类3、故障小类4、
……
和故障小类b。
[0146]
根据与告警事务编码数据对应的大类故障类型和与告警事务编码数据对应的小类故障类型,确定5g原始告警数据的根因定位。
[0147]
基于上述任一实施例,所述基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集,具体包括:
[0148]
基于告警类型对所述剪枝后的告警类型频繁项集进行多粒度标注和归并标注,得到标注后的频繁项集。
[0149]
多粒度标注用于指示基于告警类型对剪枝后的告警类型频繁项集进行大类故障类型标注和小类故障类型标注。
[0150]
一种实施方式中,对于剪枝后的告警类型频繁项集a,标注所属的大类故障类型为
1,标注所属的小类故障类型为1-1,对于剪枝后的告警类型频繁项集b,标注所属的大类故障类型为1,标注所属的小类故障类型为1-2,对于剪枝后的告警类型频繁项集c,标注所属的大类故障类型为2,标注所属的小类故障类型为2-1,对于剪枝后的告警类型频繁项集d,标注所属的大类故障类型为2,标注所属的小类故障类型为2-2,则a、b、c和d为第一个粒度的数据集p,a和b为第二个粒度中第一个数据子集q1,c和d为第二个粒度中第二个数据子集q2,其中,第一个粒度为大类故障类型,第二个粒度为小类故障类型。
[0151]
一种实施方式中,对与无线设备故障对应的剪枝后的告警类型频繁项集标注所属的大类故障类型为1,与动环设备故障对应的剪枝后的告警类型频繁项集标注所属的大类故障类型为2,与核心网设备故障对应的剪枝后的告警类型频繁项集标注所属的大类故障类型为3,与数据网设备故障对应的剪枝后的告警类型频繁项集标注所属的大类故障类型为4,与传输设备故障对应的剪枝后的告警类型频繁项集标注所属的大类故障类型为5。
[0152]
一种实施方式中,无线设备故障包括时钟类故障、license类故障、射频拉远单元(remote radio unit,rru)类故障、基带处理单元(building baseband unit,bbu)类故障以及网管脱管类故障,其中,与时钟类故障对应的剪枝后的告警类型频繁项集标注所属的小类故障类型为1-1,与license类故障对应的剪枝后的告警类型频繁项集标注所属的小类故障类型为1-2,与rru类故障对应的剪枝后的告警类型频繁项集标注所属的小类故障类型为1-3,与bbu类故障对应的剪枝后的告警类型频繁项集标注所属的小类故障类型为1-4,与网管脱管类故障对应的剪枝后的告警类型频繁项集标注所属的小类故障类型为1-5。
[0153]
归并标注用于指示对可以单一标注小类故障类型,但包含不同5g原始告警数据的剪枝后的告警类型频繁项集进行归并处理。
[0154]
一种实施方式中,剪枝后的告警类型频繁项集a为{a,b},剪枝后的告警类型频繁项集b为{a,b,c},a和b所属的小类故障类型标签为1-1,则a∩b={a,b},其中a∩b用于指示a和b的归并处理。
[0155]
需要说明的是,基于告警类型可对剪枝后的告警类型频繁项集进行大类故障类型的标注,基于大类故障类型可对剪枝后的告警类型频繁项集进一步进行小类故障类型的标注。
[0156]
需要说明的是,对所有剪枝后的告警类型频繁项集进行多粒度标注,对部分符合归并标注条件的剪枝后的告警类型频繁项集进行归并标注。
[0157]
本发明实施例提供的5g告警数据挖掘方法,基于告警类型对所述剪枝后的告警类型频繁项集进行多粒度标注和归并标注,可有效提高多任务深度神经网络模型的可靠性,进一步提高5g告警数据的故障根因定位的准确性和效率。
[0158]
基于上述任一实施例,所述对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据,具体包括:
[0159]
对所述5g原始告警数据进行数据补全处理,得到第一预处理数据;
[0160]
对所述第一预处理数据进行去除冗余处理,得到第二预处理数据;
[0161]
对所述第二预处理数据进行信息完整性处理,得到处理后的5g原始告警数据。
[0162]
电子设备从hadoop集群中获取已存储的5g原始告警数据,对5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据。
[0163]
一种实施方式中,对5g原始告警数据进行数据补全处理,对于经过后校验的5g原
始告警数据中的每个缺失数据,通过socket通信接口向omc系统发送文件同步请求,获取omc反馈的文件,基于反馈的文件获取与缺失数据的告警id对应的告警内容,根据告警内容对缺失数据进行补全,得到第一预处理数据。
[0164]
一种实施方式中,对第一预处理数据进行去除冗余处理,去除冗余处理用于指示对第一预处理数据中告警级别较低、对实际业务没有影响或影响较小的数据不写入hadoop集群,得到第二预处理数据。
[0165]
去除冗余处理的方式可以保证写入hadoop集群中的第二预处理数据属于与故障发生相关性较高的数据,进而避免相关性较低的冗余数据影响基于5g原始告警数据进行关联规则操作和神经网络训练。
[0166]
一种实施方式中,对第二预处理数据进行信息完整性处理,信息完整性处理用于指示对于第二预处理数据中缺失重要字段信息的数据不写入hadoop集群,若缺失重要字段信息的数据属于告警级别较高的数据,则对该数据进行数据补全处理,并对该数据进行重复采集,得到处理后的5g原始告警数据。
[0167]
信息完整性处理可以有效保证5g原始告警数据信息的完整性,避免不完整信息影响基于5g原始告警数据进行关联规则操作和神经网络训练。
[0168]
本发明实施例提供的5g告警数据挖掘方法,对5g原始告警数据依次进行数据补全处理、去除冗余处理和信息完整性处理,得到处理后的5g原始告警数据,提高了5g原始告警数据的完整性和有效性。
[0169]
下面对本发明提供的5g告警数据挖掘装置进行描述,下文描述的5g告警数据挖掘装置与上文描述的5g告警数据挖掘方法可相互对应参照。
[0170]
图5是本发明实施例提供的5g告警数据挖掘装置示意图,如图5所示,该5g告警数据挖掘装置包括:数据筛选单元500、数据清洗单元501、数据压缩单元502、数据标注单元503、数据编码单元504和输出单元505,其中:
[0171]
数据筛选单元500,用于基于操作维护中心omc系统获取第五代移动通信5g告警数据,基于spark框架对所述5g告警数据进行筛选处理,得到5g原始告警数据,将所述5g原始告警数据存入hadoop集群;
[0172]
数据清洗单元501,用于对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据;
[0173]
数据压缩单元502,用于基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集;
[0174]
数据标注单元503,用于基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集;
[0175]
数据编码单元504,用于基于多粒度编码器对所述标注后的频繁项集进行编码处理,得到编码后的频繁项集;
[0176]
输出单元505,用于将所述编码后的频繁项集输入至预先训练好的多任务深度神经网络模型中,输出目标结果,所述多任务深度神经网络模型包括第一级分类模型和第二级分类模型;其中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到。
[0177]
本发明提供的5g告警数据挖掘装置,通过操作维护中心omc系统采集5g告警数据,对所述5g告警数据进行筛选处理,得到5g原始告警数据,对5g原始告警数据进行数据清洗处理,提高5g原始告警数据的质量,基于分布式fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,对hadoop集群节点间的性能差异进行负载均衡,对剪枝后的告警类型频繁项集进行数据标注及编码,将编码结果输入至预先训练好的多任务深度神经网络模型,有效提高5g告警数据的故障根因定位的准确性和效率。
[0178]
可选地,数据压缩单元502,还用于:
[0179]
基于预设大小和步长的滑动时间窗口对所述处理后的5g原始告警数据进行划分,得到与滑动时间窗口内的5g原始告警数据对应的事务;
[0180]
基于spark框架计算所述事务中的告警类型的支持度;
[0181]
基于预设最小支持度阈值对所述事务中的告警类型进行过滤处理,得到过滤后的事务;
[0182]
对所述过滤后的事务进行预剪枝操作,生成频繁项集;
[0183]
基于5g告警的时间序列和网元拓扑双相关因素算法对所述频繁项集进行剪枝,得到剪枝后的频繁项集;
[0184]
基于所述剪枝后的频繁项集构建频繁模式fp树,对所述fp树进行遍历,得到剪枝后的告警类型频繁项集。
[0185]
可选地,所述基于5g告警的时间序列和网元拓扑双相关因素算法对所述频繁项集进行剪枝,具体包括:
[0186]
基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率;
[0187]
若所述错误率大于预设阈值,对所述频繁项集进行剪枝。
[0188]
可选地,所述基于5g告警的时间序列和网元拓扑双相关因素算法计算所述频繁项集不属于相同网元拓扑结构中的错误率,具体包括:
[0189]
利用公式(1)和(2),计算所述频繁项集不在相同网元拓扑结构中的错误率:
[0190][0191][0192]
其中,e(q)表示在节点q下的样本误判个数,c(t,r)q表示在所述节点q下的样本的时空相关系数,s(q)表示在节点q下的样本总数,t表示时间参数,r表示网元拓扑结构参数,α表示样本误判个数所占的权重,β表示时空相关系数所占的权重,max(y
tm-y
tn
)表示频繁项集中两个样本对应的时间序列间隔最大值,y
tm
和y
tn
表示频繁项集中样本对应的时间序列值,cr(y
ri
,y
ri+1
)表示频繁项集中两个样本之间的网元拓扑结构相关系数,y
ri
和y
ri+1
表示频繁项集中与样本对应的网元拓扑结构参数,q表示与所述滑动时间窗口对应的频繁项集,样本表示频繁项集中的5g告警数据。
[0193]
可选地,输出单元505,还用于:
[0194]
将已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样
本输入至第一级分类模型,输出第一目标结果,将所述已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本输入至第二级分类模型,输出第二目标结果;
[0195]
基于所述第一目标结果和所述5g原始告警数据样本对应的第一类故障类型,计算第一损失函数值,基于所述第二目标结果和所述5g原始告警数据样本对应的第二类故障类型,计算第二损失函数值;
[0196]
通过反向传播算法,从所述第一级分类模型的输出层开始调整所述第一级分类模型的各个参数,以使所述第一损失函数值朝最小化方向移动,从所述第二级分类模型输出层开始调整所述第二级分类模型的各个参数,以使所述第二损失函数值朝最小化方向移动;
[0197]
判断是否达到训练结束条件,若是,则保存当前迭代所述第一级分类模型和第二级分类模型的参数,获得训练好的多任务深度神经网络模型。
[0198]
可选地,数据标注单元503,还用于:
[0199]
基于告警类型对所述剪枝后的告警类型频繁项集进行多粒度标注和归并标注,得到标注后的频繁项集。
[0200]
可选地,数据清洗单元501,还用于:
[0201]
对所述5g原始告警数据进行数据补全处理,得到第一预处理数据;
[0202]
对所述第一预处理数据进行去除冗余处理,得到第二预处理数据;
[0203]
对所述第二预处理数据进行信息完整性处理,得到处理后的5g原始告警数据。
[0204]
本发明提供的5g告警数据挖掘装置能够实现图1的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
[0205]
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communication interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的计算机程序,以执行5g告警数据挖掘方法的步骤,例如包括:
[0206]
基于操作维护中心omc系统获取第五代移动通信5g告警数据,基于spark框架对所述5g告警数据进行筛选处理,得到5g原始告警数据,将所述5g原始告警数据存入hadoop集群;
[0207]
对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据;
[0208]
基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集;
[0209]
基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集;
[0210]
基于多粒度编码器对所述标注后的频繁项集进行编码处理,得到编码后的频繁项集;
[0211]
将所述编码后的频繁项集输入至预先训练好的多任务深度神经网络模型中,输出目标结果,所述多任务深度神经网络模型包括第一级分类模型和第二级分类模型;
[0212]
其中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型
为样本标签进行训练得到。
[0213]
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0214]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的5g告警数据挖掘方法,该方法包括:
[0215]
基于操作维护中心omc系统获取第五代移动通信5g告警数据,基于spark框架对所述5g告警数据进行筛选处理,得到5g原始告警数据,将所述5g原始告警数据存入hadoop集群;
[0216]
对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据;
[0217]
基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集;
[0218]
基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集;
[0219]
基于多粒度编码器对所述标注后的频繁项集进行编码处理,得到编码后的频繁项集;
[0220]
将所述编码后的频繁项集输入至预先训练好的多任务深度神经网络模型中,输出目标结果,所述多任务深度神经网络模型包括第一级分类模型和第二级分类模型;
[0221]
其中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到。
[0222]
另一方面,本技术实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使所述处理器执行上述各实施例提供的方法,例如包括:
[0223]
基于操作维护中心omc系统获取第五代移动通信5g告警数据,基于spark框架对所述5g告警数据进行筛选处理,得到5g原始告警数据,将所述5g原始告警数据存入hadoop集群;
[0224]
对所述5g原始告警数据进行数据清洗处理,得到处理后的5g原始告警数据;
[0225]
基于分布式频繁模式增长fp-growth算法对所述处理后的5g原始告警数据进行压缩处理,得到剪枝后的告警类型频繁项集;
[0226]
基于告警类型对所述剪枝后的告警类型频繁项集进行数据标注,得到标注后的频繁项集;
[0227]
基于多粒度编码器对所述标注后的频繁项集进行编码处理,得到编码后的频繁项集;
[0228]
将所述编码后的频繁项集输入至预先训练好的多任务深度神经网络模型中,输出目标结果,所述多任务深度神经网络模型包括第一级分类模型和第二级分类模型;
[0229]
其中,所述多任务深度神经网络模型为已经过数据清洗处理、压缩处理、数据标注以及编码处理的5g原始告警数据样本为输入,以所述5g原始告警数据样本对应的故障类型为样本标签进行训练得到。
[0230]
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nand flash)、固态硬盘(ssd))等。
[0231]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0232]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0233]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1