基于多特征时间序列与自编码器的移动网络质量评估方法与流程

文档序号:17845876发布日期:2019-06-11 21:43阅读:221来源:国知局

本发明涉及一种基于多特征时间序列与自编码器的移动网络质量评估方法,属于移动网络质量评估的技术领域。



背景技术:

首先介绍本发明中涉及的若干专业术语的定义如下:

关键性能指标kpi(keyperformanceindicator),是在移动网络质量评估中对网络质量进行监控和评估的重要参数,也是移动网络质量性能的最直观反映。通常来说,移动网络质量kpi主要包括以下几类:接入性指标、移动性指标、业务量指标、产品运行类指标、系统可用性指标和网络资源利用率指标。

全球小区识别号cgi(cellglobalidentifier)基站,是移动网络质量性能指标的数据采集点,由移动国家码、移动网络码、位置区号码、小区标识码和移动基站标识码组成,用来区分不同地区的采集点。

数据的特征,是描述数据的特点与性能,通常来说,每个数据都包含有多维特征。在移动网络质量评估中,数据的特征是指关键性能指标kpi。

数据的标签,是标记数据属性的数据,用于区分不同数据的类别或性质。在移动网络质量评估中,数据的标签是指数据的质量等级或者评分。

机器学习,是通过学习历史数据、从而获得处理新数据功能的技术,属于人工智能的一个分支。主要分为两种:(1)有监督学习:从带有标签的数据中学习一个拟合函数,当新的数据到来时,可以根据该拟合函数来预测未来结果。(2)无监督学习:从没有标签的数据中学习的一种模式,当新的数据到来时,可以对新数据进行模式识别。

多特征时间序列,是具有多维性能特征的时间序列数据。时间序列是指一组按照时间先后顺序排列的性能测试的数据点序列,而带有多维性能特征的时间序列数据能够从不同维度对时间序列进行相应的描述,故蕴含有更多的信息。

时间序列的相似度,是两个时间序列数据之间的相似度,可以衡量两个不定长的时间序列数据变化程度的一致性。

快速动态时间规整算法fastdtw(fastdynamictimewarping),是一种基于dtw的改进算法。dtw是采用动态规划计算两个时间序列数据的相似度,算法复杂度为o(n2);而fastdtw算法是在可容忍的精确度范围内,将其算法复杂度降为o(n)。

自编码器,是一种包含编码器和解码器的数据压缩算法,能够将多维数据自动压缩至设定的性能维度。其中,编码器将输入的数据压缩为潜在空间表示,解码器则重构来自潜在空间表示的输入数据。通过反复运行的迭代计算,可以使输入和输出之间的数据差异最小化,从而得到输入数据的潜在空间表示,即将多维数据压缩至设定维度的数据。

聚类,是对统计数据进行分析的一门技术,属于机器学习中无监督学习的一种算法:通过把相似的对象采用静态分类方法分成不同的组别或更多的子集,让在同一个组别或子集中的成员对象都拥有某些相似的属性。

k-medoids算法,是一种用于数据挖掘的聚类算法,能够识别数据的分布模式,并通过聚类簇及其中心点的形式表现出来。

当前,移动网络的用户数量不断增加,这个发展态势既是运营商面临的机遇,同时也是一种挑战。为了提高客户的忠诚度,运营商需要对其所提供的移动网络服务进行不断地改进与提高。具体来说,首先需要对移动网络质量进行全面、快速且有效的评估,然后依据移动网络质量的评估结果,针对性地加强移动网络的优化建设。其中,采用不同的移动网络质量评估方法或手段得到的评估结果是各不相同的。

目前,主流的移动网络质量评估方法是通过建立一套kpi评估指标体系,对移动网络的各个方面的性能表现进行评估。具体来说,kpi评估体系法是对移动网络表现的多个性能维度的质量优劣进行逐一评估,从而得到影响评估效果的几个关键因素,然后再对这些关键因素进行量化计算后得到的数据。例如,依据实际数据与专家意见,从移动网络质量的覆盖、保持、干扰、下载速率和呼叫成功率等多个维度对移动网络质量进行量化描述,即建立对应的评估标准。然后,可分别从不同角度、即多维度对移动网络的质量性能表现给出分析总结。

随着机器学习在各个领域的不断深入,移动网络质量的评估也开始涉及到机器学习领域。为了实现评估的目的,选择合适的机器学习模型训练数据,然后对新数据进行评估已经成为当前移动网络质量评估的研究与发展的新趋势。通常情况下,以用户的打分情况作为标签,不同维度的指标作为特征,建立有监督的机器学习模型。然后,基于该机器学习模型预测新数据的用户打分情况,作为对移动网络质量的评估。

目前对移动网络质量评估方法的研究主要仍然是通过建立一套评估体系入手,现在还无法对移动网络的总体运行的质量状况进行评估。如果希望建立基于有监督的机器学习算法的评估模型来衡量移动网络质量的综合性能,则数据标签必不可少。然而,在多数情况下,结合数据来看,运营商监测、采集到的网络质量性能指标的实际数据往往是缺乏标签的。因此,如何在数据标签缺失的情况下,综合评估移动网络的总体运行质量状况就成为业内科技人员关注的焦点课题。



技术实现要素:

有鉴于此,本发明的目的是提供一种基于多特征时间序列与自编码器的移动网络质量评估方法,本发明方法是一种能够从总体上把握不同地区、不同时间段的情况下的移动网络性能状态,也是一种能够在缺失数据标签的情况下,综合考虑移动网络不同性能的评估方法。本发明方法是采用等级制表示不同地区不同时间段下的总体移动网络质量。评估方法的结果能够为运营商判断移动网络质量及其地域和时间差异提供数据支撑,便于其针对移动网络的弱点进行改进,以提升用户体验。

为了达到上述目的,本发明提供了一种基于多特征时间序列与自编码器的移动网络质量评估方法,其特征在于:所述方法包括下列操作步骤:

步骤1,对不同全球小区识别号cgi(cellglobalidentifier)基站的移动网络质量指标中的多个性能维度数据按照时间段进行划分与整理,生成时间序列数据;再基于快速动态时间规整算法fastdtw(fastdynamictimewarping)计算该时间序列中任意两个数据之间的相似度,得到相似度结果矩阵;

步骤2,使用分别控制自编码器中的编码器和解码器参数的方法,对每个小区移动网络质量指标中的多个性能维度数据相似度结果矩阵进行降至1维的融合处理:将多个性能维度数据的相似度结果矩阵转换为一个综合距离向量;

步骤3,使用k-medoids算法对所述综合距离向量执行聚类,得到k个聚类簇结果;再将该k个聚类簇结果与运营商提供的关键性能指标kpi(keyperformanceindicator)标准进行比较,判定该k个聚类簇分别对应的移动网络质量等级,得到移动网络质量评估结果。

本发明基于多特征时间序列与自编码器的移动网络质量评估方法的创新关键技术是:

在移动网络的质量评估中,采用自编码器对多种性能维度测试数据的移动网络质量相似度向量进行降维。即通过设置自编码器的编码维度内部参数为1维,得到综合相似度向量。

在移动网络的质量评估方法中,在缺失数据标签时,利用计算时间序列中各个数据之间的相似度结果,再采用k-medoids聚类算法对该相似度结果进行聚类处理,得到时间序列性能数据的聚类结果。最后,通过将不同聚类簇中的数据点均值与移动网络性能指标标准进行对照后,得到移动网络综合质量的等级评估结果。

本发明移动网络质量评估方法的特点是:该方法同样采用机器学习的相关算法建立计算模型,然后对聚类结果数据进行评估。但是,本发明创新特点是:采用了基于自编码器的无监督机器学习算法,不依赖于数据标签;但是其能够对移动网络的综合质量进行评估。考虑到实际运行的移动网络中测试的真实性能数据经常会出现标签缺失,即缺少用户打分数据的情况,难以通过建立有监督机器学习模型的方法来预测并评估网络质量性能数据,所以本发明采用无监督的聚类方法对移动网络质量等级进行划分。

此外,为了给出一个综合的移动网络质量评估结果,本发明采用了基于自编码器的降维融合技术,使得最终的聚类评估结果能够兼顾移动网络中的各个性能维度测试数据,还降低了计算复杂度,操作步骤简单易行,具有较好的推广应用前景。

附图说明

图1是基于多特征时间序列与自编码器的移动网络质量评估方法的操作步骤流程方框图。

图2是本发明实施例的测试结果:无线掉线率指标下的各聚类中心点分布与标准的对照图。

图3是本发明实施例的测试结果:采样后的时间序列聚类分布图。

图4(a)是本发明实施例测试结果:采样后的时间序列聚类分布图(5:00–6:00)。

图4(b)是本发明实施例测试结果:采样后的时间序列聚类分布图(23:00–24:00)。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明作进一步的详细描述。

参见图1,介绍本发明基于多特征时间序列与自编码器的移动网络质量评估方法的具体操作步骤:

步骤1,对不同全球小区识别号cgi基站的移动网络质量指标中的多个性能维度数据按照时间段进行划分与整理,生成时间序列数据;再基于快速动态时间规整算法fastdtw计算该时间序列中任意两个数据之间的相似度,得到相似度结果矩阵。该步骤1包括下列操作内容:

(11)首先采集待测的移动网络质量性能原始数据、即该移动网络中带有时间戳和地域范围的不同性能维度的评估质量指标数据;假设该待测地区的移动网络共有j个不同全球小区识别号cgi基站,且每个cgi基站在设定时间段t=[a,b]内收集有多个性能维度为m的移动网络质量性能测试数据组成时间序列,式中,a和b分别是测试的初始时间和终止时间。

(12)为考核不同cgi基站在不同时间段的移动网络质量性能,先将该时间段t=[a,b]按照设定时间间隔δt划分为满足公式的多个时间段序列,式中,时间段tn中的自然数下标n是该时间段的顺序号,n的最大数为n,即tn是第n个测试时间点,设定时间段t被分割为n个等长的时间间隔序列;然后,对每个cgi基站测试的、由多个性能维度为m的移动网络质量指标数据的时间序列按照上述时间段的划分方法进行划分,则第j个cgi基站的时间序列数据集合为:其中,自然数下标j是cgi基站的序列号,其最大值是j,xj(tn)是第j个cgi基站测试的所有性能维度数据的时间段序列集合;如此得到全部共j个cgi基站测试的所有共m个性能维度数据的时间序列集合,再将每个cgi基站测试的时间段序列集合都按照性能维度进行分类后,得到待测移动网络全部基站测试的m个性能维度的时间序列集合

(13)利用快速动态时间规整算法fastdtw(fastdynamictimewarping),分别计算步骤(12)得到的m个不同性能维度的时间序列数据中任意两个数据之间的相似度,得到m个相似度结果矩阵,即m个对角线为0的n×j阶对称矩阵:用于表示该设定时间段内第i个性能维度时间序列中任意两个数据,即两个cgi基站附近移动网络质量的相似度;式中,该第n×j阶对称矩阵中的第x行第y列元素ax,y,表示任意两个时间序列数据x和y之间的相似度,且满足ax,y=ay,x,两个自然数x和y分别是时间序列数据中的不同时间段顺序号;自然数i是不同维度的序列号,其最大值是m。

步骤2,使用分别控制自编码器中的编码器和解码器参数的方法,对每个小区移动网络质量指标中的多个性能维度数据相似度结果矩阵进行降至1维的融合处理:将多个性能维度数据的相似度结果矩阵转换为一个综合距离向量。该步骤2包括下列操作内容:

(21)先将每个性能维度数据相似度结果的对称矩阵进行向量化处理,转换为一个相似度向量式中的向量是第i个性能维度数据相似度结果矩阵中的第x行第y列的相似度数值,它是由所有m个相似度结果对称矩阵中的各个下三角同一位置的数据所组成;该相似度向量vx,y又称综合距离向量。

(22)为删除冗余数据和减轻计算负担,按照步骤(21)的方法,分别对m个性能维度数据相似度结果矩阵中的对应元素都执行向量化转换处理,籍此得到m个相似度向量,组成综合距离向量集合{vx,y,x,y∈{1,2,...,n×j},y<x};该向量集合{vx,y}中的每个向量数值的涵义仍然表示设定时间段内任意两个cgi基站附近移动网络质量的相似程度。

(23)使用自编码器对移动网络m个不同性能维度数据的相似度向量进行数据降维的融合处理,得到能够用于直接衡量移动网络综合性能的1维综合距离向量;所述自编码器设有一个编码器和一个解码器,故数据降维融合过程包括编码、解码和平方差之和的最小化共三个步骤。这三个步骤的操作内容如下:

(231)将步骤(22)得到的所有m个相似度向量集合{vx,y,x,y∈{1,2,...,n×j},y<x}输入到编码器进行编码处理,通过控制编码器中编码结果的维度等于1,从而将m维的相似度向量数据降至1维。

(232)将该1维的编码结果数据输入到解码器进行解码处理,通过控制解码器中解码结果的维度等于m,从而得到的解码数据是将原来输入的1维编码结果数据还原至步骤(231)的m维性能数据。

(233)计算步骤(231)输入的原始数据、即m个相似度向量集合{vx,y,x,y∈{1,2,...,n×j},y<x}与步骤(232)得到的解码结果、即还原数据的平方差之和,作为最小化的目标函数;该平方差之和越小,说明步骤(231)输出的编码结果越具有价值,能有效保留原始性能数据的重要特性。

(234)为实现目标函数的最小化,利用机器学习的反向传播算法优化上述平方差之和的结果数值:利用反向传播过程中,不断自适应调整编码器和解码器设置的内部参数,并使之结果数值达到稳定时,才以该自编码器中的编码器输出的1维编码结果作为降维后的数据,表示该设定时间段内任意两个cgi基站附近移动网络质量的综合相似程度。

步骤3,使用k-medoids算法对所述综合距离向量执行聚类,得到k个聚类簇结果;再将该k个聚类簇结果与运营商提供的关键性能指标kpi标准进行比较,判定该k个聚类簇分别对应的移动网络质量等级,得到移动网络质量评估结果。该步骤3包括下列操作内容:

(31)先将步骤2计算得到的移动网络综合性能的1维综合相似度向量{vx,y,x,y∈{1,2,...,n×i},y<x}执行数学转换,得到任意两个数据点之间的“距离”向量:

(32)利用数据挖掘的k-medoids算法对所述任意两个数据点之间的“距离”向量进行聚类处理,以使其中相似度高的性能维度测试数据点被划分到同一个聚类簇中;所述k-medoids聚类算法是将多个数据点划分为k个数据簇,以使每个数据簇内任意两个数据点之间的距离之和最小。该步骤(32)包括下列操作内容:

(321)在1维综合相似度向量中随机选取k个数据点作为中心点;

(322)将其余的所有数据点都分别按照“两者之间的距离最近”的原则划分给各个中心点,形成k个聚类簇;

(323)分别在每个聚类簇中,选取其中一个数据点作为中心点,以使该聚类簇中的其余数据点到该中心点的距离之和为最小;

(324)重复执行步骤(322)和(323)的操作内容,直到选取的中心点位置不再改变。

(33)得到满足条件的k个聚类簇的划分结果和各聚类簇中心点,再将该k个聚类簇结果与运营商提供的关键性能指标kpi标准进行比较,判定该k个聚类簇分别对应的移动网络质量等级,得到移动网络质量评估结果。

本发明已经进行了一段时间的实施试验,下面具体介绍实施例的试验情况:

本发明实施例收集的试验数据集是由某网络运营商在4月5日至11日期间进行的测试采集得到的。共有j=563个cgi基站,每个cgi基站采集数据的时间频率是15分钟/次,每个数据点包含m=27个性能维度特征。这些性能维度包括:volte语音连接成功率和volte下行链路时延等等。整个数据集包含有大约400万条数据。

参见图2,说明本发明实施例中许多性能维度特征的实验结果之一:

在“无线掉线率”的性能维度特征指标下,纵坐标是运营商提供的对应指标值的分布区间,横坐标是移动网络质量等级的对应关系标准。图中的虚线表示三个移动网络质量等级的取值标准,盒分布图是表示从“无线掉线率”的指标来看,三个聚类簇中心的数值分布情况,盒中间的水平线对应的数值是表示聚类中心点在“无线掉线率”的指标下的均值。

根据测试得到原始数据和采用本发明方法进行聚类后的数据间对应关系,首先寻找到原始数据中分别被聚类为差、良、优的三个数据集。因为原始数据具有多个性能维度特征,其中有一维性能特征是“无线掉线率”。图2就是从“无线掉线率”这个性能维度特征的角度来观察时间序列数据的聚类情况。图2中的“差”聚类簇,其对应的原始数据集在“无线掉线率”这个1维性能特征中的数值分布就是图2中的最左侧的箱式图。

为了满足本发明评估方法的有效性要求,发明人对上述图2中的聚类簇的中心点分布与对应的kpi标准进行了分析比较:首先,可以看到,在无线掉线率kpi的性能维度特征条件下,三个聚类簇的分布走势符合kpi的标准,这证明了本发明方法中的聚类操作的有效性。其次,按照移动网络的性能维度指标标准,当无线掉线率大于1.4%时,此时的移动网络质量被认为是差的,说明对应的聚类簇中心参数确实满足移动网络性能质量为“差”的等级。

为了能够更清晰地展示本发明方法的使用效果,本发明的实施例还试验采用无向拓扑图来表示聚类结果,为此通过随机采样抽取100个数据点进行绘图(如图3所示)。

参见图3,图中的每一个点都表示一个时间序列数据,三种大小不同的标记点对应移动网络的差、良、优三种质量等级。图3展示的就是本发明实施例中使用该试验方法的实施结果。

只需经过简单统计就可知悉,三种大小不同的簇的数据点个数比例是1:18:39。而由图2的分析可推测,大中小标记点分别对应了移动网络质量中的差、良、优三个质量等级。也就是说,多特征时间序列聚簇的数量差异较大,符合现在的移动网络质量较高的情况是占多数的现状与常识。另外,从数值角度看,最小尺寸标记点所在的聚类簇接近中等尺寸标记点所在的聚类簇,且远离最大尺寸标记点所在的聚类簇。也就是说,最大尺寸标记点所在簇与其它两个簇的区分得比较明显。所以,如此就能得到另一个结论:现在的移动网络质量优和良的两个等级比较多,也比较接近,且都与移动网络质量较差的等级有较大差异。

为了探讨移动网络质量在不同等级时的数据点个数之比是否会随着时间的不同而发生变化的规律,实施例中分别选取两个特性差异较大的时间周期:5:00-6:00和23:00-24:00作为两个独立的数据集,然后重复执行本发明方法的上述操作步骤,获得两个聚类簇的采样分布图和对应的两个典型时间周期的无向拓扑图。

参见图4(a)和图4(b):图4(a)是上午5:00-6:00的聚类结果,其中的大:中:小(标记点个数)大约是1:21:40,图4(b)是深夜23:00-24:00的聚类结果,其中大:中:小(标记点个数)大约是1:13:31。

分析后的结论是:在不同的时间段内,移动网络质量不同等级对应的数据点个数比例确实是有差异的。具体来说,在图4(a)中,差/良好的比例和差/优秀的比例均低于图4(b),意味着移动网络的整体质量在5:00–6:00时间段的性能高于23:00–24:00。这种现象可以用常识来解释:这个结果的原因是有更多的人选择在23:00–24:00而不是5:00–6:00使用运营商提供的移动网络服务。这个结果也从侧面证明了本发明方法的有效性。

总之,经过多次实施试验,本发明基于多特征时间序列与自编码器的移动网络质量评估方法是成功的,实现了发明目的,有望得到推广应用。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1