一种基于无线网络话务特征的小区聚类方法和系统的制作方法

文档序号:8946300阅读:266来源:国知局
一种基于无线网络话务特征的小区聚类方法和系统的制作方法
【技术领域】
[0001] 本发明涉及移动通信领域尤其涉及一种基于无线网络话务特征的小区聚类方法。
【背景技术】
[0002] 移动通信技术是一个不断演进的过程,随着4G网络大规模的建设,目前在2/3/4G 混合组网的情况下,网络复杂性也在进一步提高,因此,为了适应这样的变革,移动运营商 在考虑潜在的4G需求时,应该分析当前不同小区的无线网络话务特征,借以高效低能耗的 对网络话务特征的聚类算法,整理出无线网络话务特征相似的小区,从而为运营商提供一 种新的网络优化方式基于批处理方式的实现成为可能。
[0003] 在数据处理过程中,将物理或抽象对象的集合分成由类似的对象组成的多个类的 过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对 象彼此相似,与其他簇中的对象相异。在对大数据量的小区话务信息进行识别时,对其进行 聚类计算,即是根据不同的阈值将不同的小区分成不同的类,以便获取哪些小区属于同一 个类别,并最终实现相似小区的聚类。
[0004] 现有的聚类算法不论在适用范围上还是聚类效果上均会存在一些限制和缺陷。如 经典的k-means聚类算法,其结果好坏依赖于对初始聚类中心的选择,并且存在对异常数 据较为敏感、只能处理数值属性的数据、聚类结构可能不平衡等问题。而层次聚类也会出现 计算复杂度太高、奇异值也能产生很大影响以及算法很可能聚类成链状等问题。因此如何 规避现有算法的缺点,减少聚类误差,提高聚类准确性是目前亟需解决的问题。
[0005] 基于以上原因,为了精确地规划、设计不同小区的2G/3G/4GLTE网络,直观的发现 话务数据类似的小区,为不同类型的小区提供有针对性优化方案,本文将提供涉及移动通 信领域尤其涉及一种话务量小区级的聚类方法和系统。此方法中的数据来源是基于小区级 的话务量。本专利通过聚类得到话务数据类似的小区,为移动运营商提供了一个评估和规 划网络容量的辅助方案,此方案不依赖于任何厂商。

【发明内容】

[0006] 本发明所解决的技术问题是:采用数据挖掘技术从源数据中挖掘出有用的信息对 数据进行聚类,特别是针对移动通讯领域中的小区实现准确的聚类,利用选取的最优K值 运用五种聚类算法对待处理数据进行聚类整合,规避现有算法聚类误差大的缺陷;也为移 动运营商提供一个评估、规划和设计网络时的参考依据。
[0007] 为解决以上技术问题,本发明提供了一种基于无线网络话务特征的小区聚类方 法,包括如下步骤:Sl选择待处理数据;S2提取每个待处理数据的"特征参数";S3对待处理 数据进行聚类最优K值选取;S4利用选取的最优K值运用五种聚类算法对待处理数据进行 聚类整合;S5将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结 果。
[0008] 步骤Sl中所述待处理数据为有关小区话务在一段时间范围内建立的RSCP和Ec/ Io两个关键指标的小区级秒粒度话务统计信息表和对该段时间范围采用时间序列拟合算 法建立的小区级秒粒度话务信息时间序列。
[0009] 步骤S2中所述的特征参数是指对小区话务的两个关键指标RSCP和Ec/Io的话务 特征分别提取的最大值、95%分位数、5%分位数、均值、中位数、方差、偏度和峰度、序列关 联性、非线性、频率、稳定性和持续性;以及关于小区级秒粒度话务信息时间序列的趋势、季 节性、序列关联性、非线性、偏度和峰度。
[0010] 步骤S3中所述的最优K值选取的方法是通过计算BWP指标、Calinski-Harabasz 指标和Silhouette指标,选择聚类效果最好的指标所对应的K值为聚类最优K值。
[0011] 步骤S4中所述运用五种聚类算法对待处理数据进行聚类整合是指运用五类聚类 算法对所有小区进行聚类,并将结果向量转化成聚类结果相似矩阵,把五个聚类结果相似 矩阵取均值再根据阈值取值后转回成聚类结果向量,得到此聚类方法的最终结果。
[0012] -种基于无线网络话务特征的小区聚类系统,其特征在于,该系统包括:1)数据 库模块,用于导入待处理数据;2)特征参数提取模块,用于提取每个待处理数据的"特征参 数";3)K值选取模块,通过计算BWP指标、Calinski-Harabasz指标和Silhouette指标三大 指标对数据进行聚类,选择聚类效果最好的指标所对应的K值为聚类最优K值;4)聚类分 析模块,利用选取的最优K值,运用五种聚类算法对待处理数据进行聚类整合;5)可视化模 块,将聚类结果与地理信息系统中的地理信息进行结合,并显示结合后的聚类结果。
[0013] 本发明的上述技术方案具有如下优点:在无线网络测量报告中选取关键性指标, 从大量真实数据样本中剖析出的若干特征值,同时将真实数据进行降粒度分解,从而有利 于提高特征值提取的效率和聚类算法实施过程中的速度。取代了传统的仿真模型,利用大 数据技术,将海量历史数据利用合适的数据挖掘和机器学习算法,挖掘出无线网络质量的 各项特征,从而为小区特征的聚类提供了一套系统化,准确率高的方案系统。传统的电信运 营商,设备商利用简单的时间序列算法等进行网络话务的评估,使用单纯的数学方法往往 脱离实际。本方法有效的将无线网络质量的各项特征融入了数学聚类计算之中,显著的提 高了整套解决方案的可信度、准确率和效度。利用真实的网络大数据,进行大数据的分析处 理,是一种基于真实网络范式的类型聚集过程。在这个过程中我们的方法把每一个小区用 户的多个无线网络质量特征剥离出来,这样有效的将无线网络质量特征在数据模型里真实 的展现出来,使得理论结果产生了实际意义。
【附图说明】
[0014]图1为本发明实施例提供的一种基于无线网络话务特征的小区聚类方法;
[0015] 图2为采用本发明的发法将聚类结果结合地图显示。
【具体实施方式】
[0016] 下面结合附图和具体实施例对本发明作进一步的说明。
[0017] 本发明所介绍的方法可以通过对数据特征的提取,对特征值相似的数据进行聚 类,本发明不仅仅可以针对小区话务量的数据处理,还可以处理对其他事物特征数据的聚 类,如人群特征、收入特征、消费特征等,这里仅以小区的话务量为例进行【具体实施方式】的 介绍。
[0018] SI选择待处理数据;
[0019] 获取1600个小区网络话务量的历史数据,将各小区在时间粒度上两周8个忙时的 两个关键指标(KPI:KeyPerformanceIndicator)抽取进行时间粒度降级,以建立小区级 秒粒度话务统计信息表;其关键指标(KPI)是RSCP和Ec/Io。RSCP(ReceivedSignalCode Power)为接收信号码功率(简称电平值),指的是在DPCH、PRACH或PUSCH等物理信道上收 到的某一个信号码功率。Ec/Io,E是Energy(能量)简称,c是Chip(码片)指平均能量, I是Interfere(干扰)的简称,〇是OtherCell的简称,体现了所接收信号的强度和邻小 区干扰水平的比值。采用时间序列拟合算法选取两周8个忙时的时间范围,建立小区级秒 粒度话务信息时间序列。
[0020] S2提取每个待处理数据的"特征参数";
[0021] 根据小区级秒粒度话务统计信息表和小区级秒粒度话务信息时间序列,计算该 时间段内各个小区19个无线网络话务特征。分别对小区两个KPI进行话务特征抽取,得 到每个小区对应的38个话务特征。特征数据分别是关于小区级秒粒度话务统计信息表的 最大值、95 %分位数(95%percentile)、5 %分位数(5%percentile)、均值(mean)、中位 数(median)、方差(variance)、偏度(skewness)和峰度(kurtosis)、序列关联性(Serial correlation)、非线性(non-linearity)、频率(Frequency)、稳定性(chaotic)和持续性 (selfsimilarity)。以及关于时间序列的趋势(trend)、季节性(seasonality)、序列关联 性(Serialcorrelation)、非线性(non-linearity)、偏度(skewness)和峰度(kurtosis) 从而得到各个小区的38维数据特征值。
[0022] 分别提取小区两个指标KPI的19个话务特征,得到38个话务特征值,具体包括如 下内容: 1) 最大值(max):指在给定情形下可以达到的最大数值。 2) 95%分位数(95%percentile):指连续分布函数中位于95%位置的点。 3) 5%分位数(5%percentile):指连续分布函数中位于5%位置的点。 4) 均值(mean):指一组数据集中趋势的量数,是指在一组数据中所有数据之和再除以 这组数据的个数。 5) 中位数(median):指一个样本、种群或概率分布中的一个数值,其可将数值集合划 分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间 的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。 6) 方差(var
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1