一种异构网络环境下的基于深度学习的网络故障诊断方法与流程

文档序号:15455077发布日期:2018-09-15 00:53阅读:177来源:国知局

本发明涉及一种异构网络环境下的基于深度学习的网络故障诊断方法,属于异构网络环境中的故障诊断技术领域。



背景技术:

分层异构网络(heterogeneousnetwork,hetnet)概念的提出,改变了以往传统蜂窝网络的基站类型单一,结构僵化,集中管理的特点,新型的网络结构基站元素多样化,控制分布式化,管理智能化。hetnet由覆盖范围较大的宏小区(macrocell)和在宏小区覆盖范围下重叠覆盖的小小区(smallcell)组成。小小区具有部署灵活,成本较低的特点,弥补了宏基站的部署困难,成本高昂的不足,而且小小区的部署也增加了宏小区的网络容量,能够基于业务分布灵活、合理分配网络数据流量,降低宏蜂窝负载,帮助网络运营商降低了运营成本,同时提高了用户业务体验。因此,异构网络的出现是技术演进,用户业务变化和市场需求增长的必然结果,是未来5g网络发展的必然趋势。

但是在异构网络环境下,基站部署密集,网络环境干扰复杂,网络拓扑复杂,网络需求多种多样,如果网络发生故障,不仅会造成端对端的服务性能的下降,也可能影响到间接相关的服务节点的性能,导致故障传播,如果不能够及时处理这种故障问题,很有可能使得网络瘫痪。此外,在庞大的网络架构下,如果仅仅通过人力去寻找故障位置和故障起因,这将耗费大量人力物力,造成运营成本升高。



技术实现要素:

为解决现有技术的不足,本发明的目的在于提供一种异构网络环境下的基于深度学习的网络故障诊断方法,结合异构网络的部署密集和弱规划特性以及网络拓扑结构,建立了异构网络环境下基于深度学习的网络故障诊断模型,应用于异构网络环境中的故障诊断。

为了实现上述目标,本发明采用如下的技术方案:

一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,

首先通过分析异构网络故障场景,确定监测阶段和故障诊断阶段将要使用的特征;

然后利用最小冗余最大相关性算法选取监测阶段最优特征子集,对其进行权重预处理后与网络数据库中的故障特征进行匹配,若匹配度大于阈值时,触发故障诊断阶段,采集异构网络全部状态数据,经过数据预处理后,利用卷积神经网络对处理后的数据进行训练,同时引入交叉熵损失函数,通过反向传播算法完成模型参数调整;

最后根据得到的最优模型,对异构网络进行故障定位和诊断。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,包括如下步骤:

1)分析异构网络环境特征参数,利用mrmr算法选取最优特征集kpis;

2)采集最优kpis网络数据,并进行权重预处理;

3)定义数据分布相似度因子α,当线上kpis参数分布和数据库中故障状态下参数分布的质心距离dis<α,则转到步骤4),否则转到步骤2);

4)采集网络全部数据,并对样本完成数据预处理;

5)建立卷积神经网络cnn模型,并随机初始化网络各层的参数;

6)引入交叉熵损失函数,基于反向传播算法更新网络权重和偏置量;

7)根据6)得到的cnn模型对网络故障进行诊断。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,所述步骤1)中异构网络环境特征为无线网络信号干扰、小区基站负载不均衡和小区中断三类网络故障的特征。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,所述步骤1)利用mrmr算法选取最优特征集kpis具体内容为:利用mrmr算法遍历不同类型的网络节点,基于特征和分类变量相关度的最大化准则做优化,即选择和分类变量之间拥有最高相关度的前k个变量,从而得到最优网络参数子集。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,所述步骤2)具体内容为:

利用归一化权重公式计算最优特征参数基于时间窗口的分布权重向量,再利用earthmover’sdistance的改进算法计算线上kpis参数分布和数据库中故障状态下参数分布的质心距离dis,即相似度。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,所述步骤4)具体内容为:

对网络中的数据每隔一个预设的时间间隔采集一次,采集的数据包括网络组件的上报数据,收集到的网络组件的本地软件错误日志文件信息;

在网络数据集合中对故障的部分采用过采样的方法,对正常数据部分采用欠采样的方法。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,所述步骤5)中随机初始化具体采用服从高斯分布的随机初始化方法初始化cnn模型的权重和偏置量。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,所述步骤6)具体内容为:

根据输入的预处理后的参数向量矩阵和随机得到的初始权重,利用时间反向传播算法,最小化损失函数,更新神经网络权重值;

在最后一层采用softmax多分类器,输入故障标签进行有监督训练,实现对以上各个层的网络参数的微调更新,最终得到最优的网络故障诊断模型。

前述的一种异构网络环境下的基于深度学习的网络故障诊断方法,其特征是,所述步骤7)具体内容为:

根据步骤6)得到的最佳网络参数生成的网络模型,将新检测得到的网络数据作为输入向量输入到模型中,最终输出发生故障的网络组件。

本发明所达到的有益效果:本方法基于深度学习理论的视角,通过对异构网络环境下网络结构和故障参数剖析,综合考虑故障发生的概率统计特性,建立了一种异构网络环境下基于深度学习的网络故障诊断模型,应用于异构网络环境中的故障诊断。

附图说明

图1是异构网络环境下网络故障诊断框图;

图2是异构网络环境下网络故障诊断流程图;

图3是卷积神经网络的卷积层结构图;

图4是卷积操作示例;

图5是基于卷积神经网络的故障诊断模型示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。

本发明基于深度学习理论的视角,通过对异构网络环境下网络结构和故障参数剖析,综合考虑故障发生的概率统计特性,建立了一种异构网络环境下基于深度学习的网络故障诊断模型,应用于异构网络环境中的故障诊断。

本方案中所涉及的异构网络故障场景的特征参数如下表所示:

表1网络参数

参数选择阶段:

图3所示是异构网络的场景图,其主要由多个宏基站和高密度部署的低功率基站组成。其中网络故障一般有如下体现:

(1)无线网络环境信号干扰引起的服务性能下降

异构网络中的干扰一般有同层网络干扰和跨层网络干扰。跨层网络干扰发生在功率较大的宏基站和低功率基站之间。低功率基站具有密集部署的特点,在一个宏蜂窝内,可能会有上百个家庭蜂窝的部署,而且由于部署的弱规划性,过多的低功率基站的部署可能会使得宏基站用户囊括在低功率基站的覆盖范围内。一方面处于宏基站服务中的用户的上行信号会影响低功率基站性能;另外一方面,低功率基站的下行信号也会干扰到宏基站中的用户体验。同层干扰主要体现在低功率基站之间,低功率基站的分布空间特征具有多样性,导致干扰环境更加复杂。由于部署的弱规划性,会产生重叠覆盖的情况,使得干扰无处不在,小区中心的用户也可能受到影响;而且,干扰可能会引起信令传输不稳定,分层异构网络将面临更加复杂的小区间协调,自组织以及同步的性能降低的情况。复杂的干扰环境是降低无线网络系统的性能的主要因素,不仅降低网络吞吐量,限制网络频谱利用率,也影响无线链路稳定性,引发用户频繁掉线。

(2)小区基站负载不均衡引起的性能下降

在分层的异构网络中,由于低功率传输基站传输功率较低,用户一般会选择宏基站接入网络,而且,如果网络中小基站的传输功率过小,那么很可能导致小小区内的用户群体链接宏基站,这样容易造成网络负载不均衡,基站负载过重会引起服务性能下降。其次,由于家庭蜂窝的覆盖范围小,有周边的家庭蜂窝的横向支撑,还有覆盖方位更广的宏基站的垂直支撑,当一个家庭基站发生了故障,基站用户可以进行水平切换,连接到邻近覆盖的基站,仅仅从用户信息的角度分析会忽略了当前家庭蜂窝故障,因此,虽然用户接入信息能够从一个角度体现基站负载情况,但是并不能表征由于基站故障用户切换的信息,而且,低功率基站的负载都是相对较小的,邻居基站用户的接入也可能会导致邻居基站的负载过重,再次影响到邻居基站的性能。针对故障基站造成的用户全体切换问题,需要更全面的基站信息来表征,能够在基站二次性能污染的之前快速发现原始基站的故障。

(3)小区服务中断故障引起的服务丢失和网络服务中断

小区服务中断是在传统的网络中也会存在的故障,小区发生服务中断故障,那么这个小区就无法正常工作,造成小区服务中断的主要原因有运维管理中心的参数配置错误,核心性能指标(keyperformanceindicator,kpi)数据优化失败等引起的软件故障;硬件错误,时钟不同步等引起的硬件故障;电力问题的外部因素故障。

通过对异构网络故障情况的分析,本发明选取了表1中的网络参数来表征网络系统性能。

rsrp是lte网络中表示无线信号强度的核心参数,代表了信号的某个符号内承载信号的所有资源块的上的附着的信号功率强度的均值,体现了基站的覆盖程度的好坏。基于该值的强度的不同,一般把信号覆盖分成6级,在不同的覆盖状态下,网络能够提供的业务服务不同,当rsrp强度较低的时候,会导致较高的掉话率;当rsrp值较高的时候,链路能够提供较高速率的各种业务。因此,在网络故障诊断中,基站会收集终端的rsrp值,作为故障参考值,来分析网络状态。

rsrq是网络lte网络中衡量参考信号接收质量的重要指标,主要功能是基于该指标的强度大小,对候选基站排序,作为小区重新选择和切换的输入。rsrp的表达式如公式(1):

其中,n是lte的载波接收信号强度指示的测量带宽的资源块(resourceblock,rb)的个数。rssi(receivedsignalstrengthindication,接收信号强度指示)是无线网络发送层的可选参数,主要功能是判断链接质量,是一种决定是否增大无线网络广播发送强度的标准。网络发生异常,例如外界干扰,设备故障和工程质量问题等会导致rssi异常,rssr的异常值一般被分为3种情况:过低,过高和分级差值过大(本章不考虑由于设备制造商的原因导致的指标不同),因此,rssi值具有一定的故障参考价值。根据公式可以发现,rsrq实际上是从干扰和信号强度的两个方面来进行的计算,因此无论是表征网络干扰还是基站本身的性能特征都具有一定的价值。

urttd是网络中ue端接收到所测量的下行链路dpch帧和发送上行dpcch/dpdch帧之间的时间差,主要是为了防止下发时刻偏差超过门限,影响到功率控制。一般在用户软切换的时候,utran都会在分配新的小区专用信道的时候让新的小区的系统帧号(systemframenumber,sfn)尽量与当前服务小区接近,使得时间差尽量满足需求。因此,如果一个小区发生了故障,那么系统会尽量使得用户切换到时延相近的基站上,那么,基于切换前后urttd和切换用户量可以组合得到一种和故障标签之间的映射关系。

bs发射功率是最直接的体现基站本身性能和特征的参数。当基站的功率较低的时候,具有较低的覆盖范围,那么相应的就会在距离基站比较近的基站的用户具有较低的rsrp值,功率增大,这种距离就会变大,用户群体就会不同,因此,当基站发生故障或者配置参数发生错误的时候,影响到基站的发射功率,用户群体的rsrp就会发生较大变化,这种rsrp和基站功率的某种组合模式可能会对网络故障有一定的反映。

rip和tnp都是对当前基站网络环境下噪声分布的一种统计规律的表征。通过这种噪声功率的参考,找到在不同的噪声功率情况下的网络运行状态,增强训练数据的表现性能。

prbu作为3gpp中对物理层数据重要测量量,是对基站的资源利用率的统计,展示出当前基站的资源利用情况。如果基站的资源利用率已达到较高值,那么该基站可能会发生比较拥堵的情况,因此,prbu和基站本身的状态有一定的表征意义。

pd,pl是对网络稳定行的衡量,包括了网络无线链路数据传输的稳定度,网络处理节点的数据转发的稳定度的表征;sipt,dv是对网络流量性能的检测,表征网络业务量;noues是基于基站对用户行为的表征。

监测阶段:

监测阶段包括了两个操作步骤:特征选择和异常症状诊断。该部分的特征选择是基于节点特征,使用mrmr算法选择适合节点的最优特征组合,减少在进行异常症状诊断时相似性计算使用的计算资源,加速计算速度,完成粗略的故障定位。异常症状诊断阶段是使用earthmover’sdistance的简化计算方法分析时序数据分布的相似度。基于相似度因子阈值粗略判断网络运行状态,过滤很多正常状态的症状,减少向故障诊断模型发起的请求故障确认请求。

本发明利用mrmr算法在考虑了最小化特征之间的关联度的情况下,最大化分类标签和数据特征之间的关联度来做优化选择特征。避免了因特征之间存在较高的相关性而造成特征的冗余性。这一思想是基于有限的维度,最大化特征的表现度,有助于在资源珍贵的无线网络环境下,充分利用强特征组合,完成故障监测的工作。

在本发明提出的参数中有相关性计算:其中,xi为第i个特征,c为类别变量,s为特征集合,d(s,c)为s与c的相关程度,|s|为特征的个数,i(xi;c)为xi与c的互信息。

最小冗余度的计算方法为:其中,在参数列表中,存在连续参数和离散参数变量,离散的参数变量对应的互信息计算采用:其中,p(x,y)是随机变量x,y的联合概率分布函数,p(x),p(y)分别是随机变量x和y边缘概率分布函数。

针对参数中连续变量,有互信息量计算公式:其中,由于连续型的随机变量难以求出对应的概率密度函数,所以基于parzenwindows方法估算互信息量i(x;y)。

整合最小冗余度和最大相关性,优化下面的公式:maxφ(d,r)=max(d-r),d为上文计算的相关性值,r为上文计算的冗余度值。

求解的过程基于增量搜索方法,将求解出的大小为k的参数集合结果作为异常症状诊断阶段分布相似度计算的时候使用的参数。针对网络中的每个节点,计算对应的最优特征参数集合。为了降低该阶段的计算量,本发明特征组合的特征数目k是4,即基于上述方法从表1中选择出4个特征参数。

基于mrmr算法的参数选择,针对每个节点得到k个最优特征参数,然后对其进行分布权重预处理。在时间t,k个参数形成的参数集合如式(7),下面均以kpi(keyperformanceindicator)表示上文提到的k个参数:其中,表示在时间t,第i个kpi的值。

假设数据采集时间窗口长度是t,那么在t时刻,基于最优参数集合形成的时间窗参数矩阵的分布x如下:

在时刻j的第i个参数在时间窗口内的归一化权重值为:

在时刻j的kpi集合分布权重为:

那么,基于时间窗口的分布权重向量为:

至此,已经得到了线上数据的时间序列的kpi参数分布矩阵x和时间窗内每个时刻的分布权重向量w。假设对历史的故障数据使用上述的算法计算得到的kpi参数分布矩阵是每个时刻的分布权重向量为那么线上kpi参数分布和数据库中故障状态下参数分布的质心距离(centroiddistance)为:

上面式子计算出的距离是一种对线上数据分布的时间变化特征和历史数据中故障数据的变化特征之间相似度的表征。可以定义数据分布相似度因子α,当dis<α就可以认为是一种疑似故障症状,向进行诊断的机器学习模型发送启动诊断的命令。

诊断阶段:

诊断阶段包括两部分:基站选择和故障诊断。基站选择主要是增加数据特征维度,提高输入的信息量,来改善诊断精度。故障诊断模型会在第一阶段的监测阶段检测到可疑的数据变化趋势的时候触发。触发后,该程序会向oam发送诊断数据请求。oam会向数据库请求详细的节点的网络kpis,如表1,并做邻居基站信息的选择,增加模型特征的纬度,提供更加全面的诊断信息。所有的信息经过数据预处理,会输入到卷积神经网络中,完成疑似故障信息分类。

基于rsrp和rsrq分别选择rsrp信号最强的邻居基站集合bsrsrp和rsrq质量最好的邻居基站bsrsrq。在每个基站集合中均选择三个基站:

bsrsrp={bsrsrp1,bsrsrp2,bsrsrp3}(13)

bsrsrq={bsrsrq1,bsrsrq2,bsrsrq3}(14)

在做基站选择的时候会出现重复基站,需要对两个集合取并集:

bsneighbours=bsrsrp∪bsrsrq(15)

为了保证数据格式的一致性,即对每一条数据均有6个邻居基站的存在,我们对不满足6个基站数据样本填充0,这样可以避免基站部署稀疏的情况下,邻居基站数目缺失情况的产生。

经过检测阶段,已经发现了网络中的可疑症状,下面系统将会收集最近的时间端内的所有的相关网络参数,包括当前基站的参数集合和邻居基站的参数集合作为特征数据。本阶段基于上面得到的参数作为卷积神经网络输入做故障分类。

在收集到的数据输入网络之前,首先要对特征做如下的数据维度变换,对于每个基站,在时刻t,有参数集合如下:

其中,公式(16)中代表当前基站在表1中的第一个参数,即rsrp,并以此类推对应关系。在参数邻居基站选择完成后,在时刻t的网络特征如公式(17)。其中,表示当前基站的第i个核心参数,xi(t)表示当前基站的第i个邻居基站。由于本发明考虑到网络故障参数变化是在时间序列上变化的,因此,对式子的数据加上是时间变化特征,取在一个时间段内的输入参数变化情况,因此模型的输入是:

input=[x(t-n+1),x(t-n+2),...,x(t)](18)

其中,n是时间跨度的长度。

至此,已经完成对网络故障数据的预处理部分,得到异构网络的参数矩阵。

卷积神经网络是一种专门用来处理具有像网格形状的数据结构的神经网络,其模型建立如下,通过卷积层的卷积(convolution)操作,汇聚(pooling)和非线性激活函数(non-linearactivationfunction)映射的操作将输入异构网络参数数据层层变换,使得高层的数据信息逐层从原始数据中抽取出来,不断的抽象,完成前馈运算。

卷积层一般结构如图3,在卷积神经网络中,使用的卷积运算方法是数学上的离散卷积。第l层的离散卷积公式(19):

其中,fi,j是在位置(i,j)上的卷积元素,f是卷积核,h是卷积核(convolutionkernel)的行数,w是卷积核的列数,是指第l层卷积层上的网络故障参数矩阵(il+1+i,jl+1+j)处的参数元素,而是指第l+1层卷积层上的网络故障参数矩阵(il+1,jl+1)处的参数元素,hl是第l层卷积层上的网络故障参数矩阵行数,wl是第l层卷积层上的网络故障参数矩阵列数,且:

0≤il+1≤hl-h+1=hl+1(20)

0≤jl+1≤wl-w+1=wl+1(21)

例如,如图4左边是3×4的二维数据,右边是2×2的卷积核,同时,每当完成一次卷积运算,卷积步长(stride)为1的卷积核会移动一个坐标位置。那么第一次卷积的时候,开始的位置是矩阵中的(0,0),依次移动,得到卷积结果。

在卷积操作的过程中,fi,j可以看作是学习得到的权重值。从上面的操作可以看到,卷积操作是对参数数据矩阵的局部操作,通过一定大小的卷积核,作用于局部数据矩阵区域可以得到数据的局部信息,完成卷积后实现了多个局部特征的组合。卷积神经网络中的卷积核中每个位置的权重是通过数据训练的反馈得到的。

非线性映射操作主要是利用激活函数增加网络的表达能力,即给网络加入非线性操作。否则,无法转化成复杂的表达函数,因为各个线性网络层的简单堆积只能产生线性的特征变化。经常使用的激活函数主要有sigmoid和relu函数。本发明中,将结合下面两种激活函数的使用。

relu函数的表达式:relu(x)=max{0,x}(22)。

汇合操作,又称池化操作,可以被认为是一种p-范数非线性映射的卷积操作。汇合操作具有特征不变性,该操作更关注某些特征本身而不是具体的特征位置,是一种强先验操作,容忍了一些特征变换中的微小偏移,增加了特征映射变化过程中的自由度和鲁棒性。同时,具有降低特征纬度的作用,一个具体的汇合结果对应了原来特征的一个子区域,在纬度上实现了约减,保证了模型可以抽取更广范围的特征,减小了参数个数和计算量。而且,实验证明,汇合操作弱化了噪声在数据矩阵中的影响度,该方法还具有防止过拟合的作用。

在前向传播的时候,还有一个重要的网络层是全连接层(fullyconnectedlayers),在卷积神经网络中起到分类器的作用。前文的卷积层实现的是将原始数据向隐藏层特征空间的映射,全连接层实现的是将隐藏层的特征向样本标记空间的映射。全连接层一般被看作是1×1的卷积核的卷积层。

在本发明中,针对分类问题使用的是交叉熵损失函数:z=l(x,y)=∑iyilog(pi)(23),其中,c是分类任务类别个数。

至此,异构网络的参数矩阵完成了在卷积神经网络中的第一次前馈操作,卷积神经网络的参数更新将借助反向传播算法更新网络的参数。

本发明提出的基于卷积神经网络的异构网络故障诊断模型如图5,输入的网络参数是完成上述数据预处理变换后的数据矩阵,通过cnn的卷积层,进行局部特征变换,通过池化层,实现特征的非线性映射。经过若干次的网络特征变换,最终的特征汇聚到全连接层,最终分类输出。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1