本发明涉及一种影响因素判定方法,特别是涉及一种基于随机森林的mr覆盖率影响因素判定方法,属于大数据处理和机器学习技术领域。
背景技术
mr覆盖率是移动通信网络运营管理中需要关注的一些重点kpi(keyperformanceindicators关键绩效指标),除了日常维护之外,运营商希望能够知道影响mr覆盖率的因素,获得mr覆盖率和网络之间的关联,方便后期网优任务分配及保障;所以需要从网络运行过程中挖掘出影响mr覆盖率的因素,即相关维度。
目前,计算mr覆盖率与各维度之间相关性的方法有很多种,但很多是计算两者之间的线性相关性,准确度不够;部分方法能够计算非线性相关性,但是其准确率无法判断,因此,在应用过程中,其有效性依然存在疑问。
技术实现要素:
本发明的主要目的在于,克服现有技术中的不足,提供一种基于随机森林的mr覆盖率影响因素判定方法,实现准确、稳定地定位出主要的mr覆盖率的影响因素,清晰劣化根因。
为了达到上述目的,本发明所采用的技术方案是:
一种基于随机森林的mr覆盖率影响因素判定方法,包括以下步骤:
1)选取若干个影响mr覆盖率的相关维度;
2)对每个影响mr覆盖率的相关维度的维度数据进行清洗,形成相关维度数据集,并得到清洗后的相关维度;
3)从相关维度数据集中抽取维度数据作为训练样本,将相关维度数据集中剩余的维度数据作为测试样本;
4)以清洗后的相关维度作为特征,根据训练样本来训练随机森林模型;
5)将测试样本输入随机森林模型,得到输出准确率;
6)调整随机森林模型的参数,直至当输出准确率大于设定阈值,则将该输出准确率时的随机森林模型作为mr覆盖率影响因素判定模型;
7)计算每个影响mr覆盖率的相关维度的影响度;
8)根据计算所得的影响度,对若干个影响mr覆盖率的相关维度进行排序;
9)利用mr覆盖率影响因素判定模型定位mr覆盖率的影响因素,清晰劣化根因。
本发明进一步设置为:所述步骤1)中的若干个影响mr覆盖率的相关维度包括工作频段、载频数量、覆盖类型、经度、纬度、最大发射功率、弱覆盖采样点数、总采样点数、弱覆盖率采样点比例、中心载频的信道号、是否为上行干扰小区、是否为上行弱覆盖小区、是否过覆盖小区、站高、小区个体偏移量、频段指示、电子下倾角、机械下倾角、方位角、天线挂高和设备类型。
本发明进一步设置为:所述步骤2)中的对每个影响mr覆盖率的相关维度的维度数据进行清洗,包括维度数据整理和维度名称整理。
本发明进一步设置为:所述维度数据整理,具体为,
删除缺失值超过50%的维度;满足判定需求但存在缺失值的维度,将缺失值用平均值填充;由于机器故障或者人为操作造成的异于正常范围的数据为异常值,当检测出异常值后,将该异常值删除,再用平均值填充。
本发明进一步设置为:所述维度名称整理,具体为,在不同的数据表中,如果同一维度名称存在不同的命名,则需要统一维度名称,使得每个维度名称只有一种命名;
其中,不同的命名包括中文和英文的不同、大写和小写的不同。
本发明进一步设置为:所述步骤4)中的随机森林模型采用若干个基学习器的投票机制来改善决策树而生成,具体包括步骤,
4-1)从样本集中通过bootstraping产生n个样本;
4-2)假设样本特征数目为a个,对n个样本选择a个样本特征中的k个样本特征,用建立决策树的方式获得最佳分割点;
4-3)步骤4-1)至步骤4-2)重复m次,产生m棵决策树;
4-4)采用bagging的策略即多数投票机制来获得分类结果。
本发明进一步设置为:所述步骤6)中的调整随机森林模型的参数,是当输出准确率小于设定阈值时,对随机森林模型的参数进行调整,所需调整的参数包括bagging框架的参数和rf决策树的参数;
其中,bagging框架的参数包括弱学习器的最大迭代次数n_estimators,rf决策树的参数包括最大特征数max_features、决策树最大深度max_depth、内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf;
所述当输出准确率小于设定阈值时,对随机森林模型的参数进行调整,具体为,
6-1)对n_estimators进行网格搜索,得到弱学习器的最大迭代次数的参数值;
6-2)对max_depth和min_samples_split进行网格搜索,得到决策树最大深度与内部节点再划分所需最小样本数的参数值;
6-3)对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参;
6-4)对max_features进行网格搜索,搜索到最大特征数的参数值。
本发明进一步设置为:所述步骤7)中的影响mr覆盖率的相关维度的影响度通过不纯度计算实现,具体为,
构成随机森林模型的决策树中的每一个节点都是关于一个特征的条件,将数据集按照不同的响应变量一分为二,采用方差或者最小二乘拟合,利用不纯度确定节点;训练随机森林模型的决策树的时候,计算出每个特征减少了多少决策树的不纯度,将其平均减少的不纯度作为影响度大小的值。
本发明进一步设置为:所述步骤8)还包括对排序结果进行可视化显示。
与现有技术相比,本发明具有的有益效果是:
将数据分为训练集和测试集,运用随机森林分析法进行自主学习,通过构建、训练并优化mr覆盖率影响因素判定模型,最后用mr覆盖率影响因素判定模型定位mr覆盖率的主要影响因素,清晰劣化根因,精确度高,稳定性强。
上述内容仅是本发明技术方案的概述,为了更清楚的了解本发明的技术手段,下面结合附图对本发明作进一步的描述。
附图说明
图1为本发明基于随机森林的mr覆盖率影响因素判定方法的步骤框图;
图2为本发明基于随机森林的mr覆盖率影响因素判定方法的流程图;
图3为本发明中随机森林模型的生成流程图。
具体实施方式
下面结合说明书附图,对本发明作进一步的说明。
本发明提供一种基于随机森林的mr覆盖率影响因素判定方法,如图1及图2所示,包括以下步骤:
1)选取若干个影响mr覆盖率的相关维度,如表1所示。
若干个影响mr覆盖率的相关维度包括工作频段、载频数量、覆盖类型、经度、纬度、最大发射功率、弱覆盖采样点数、总采样点数、弱覆盖率采样点比例、中心载频的信道号、是否为上行干扰小区、是否为上行弱覆盖小区、是否过覆盖小区、站高、小区个体偏移量、频段指示、电子下倾角、机械下倾角、方位角、天线挂高和设备类型等等相关维度。
表1
2)对每个影响mr覆盖率的相关维度的维度数据进行清洗,形成相关维度数据集,并得到清洗后的相关维度。
对每个影响mr覆盖率的相关维度的维度数据进行清洗,包括维度数据整理和维度名称整理。
所述维度数据整理,具体为,删除缺失值超过50%的维度;满足判定需求但存在缺失值的维度,将缺失值用平均值填充;由于机器故障或者人为操作造成的异于正常范围的数据为异常值,当检测出异常值后,将该异常值删除,再用平均值填充。
所述维度名称整理,具体为,在不同的数据表中,如果同一维度名称存在不同的命名,则需要统一维度名称,使得每个维度名称只有一种命名;其中,不同的命名包括中文和英文的不同、大写和小写的不同。
3)从相关维度数据集中抽取维度数据作为训练样本,将相关维度数据集中剩余的维度数据作为测试样本。
将相关维度数据集的维度数据划分成两部分,一部分是训练样本(30%),一部分是测试样本(70%)。
4)以清洗后的相关维度作为特征,根据训练样本来训练随机森林模型。
随机森林模型采用若干个基学习器的投票机制来改善决策树而生成,如图3所示,具体包括步骤,
4-1)从样本集中通过bootstraping产生n个样本;
4-2)假设样本特征数目为a个,对n个样本选择a个样本特征中的k个样本特征,用建立决策树的方式获得最佳分割点;
4-3)步骤4-1)至步骤4-2)重复m次,产生m棵决策树;
4-4)采用bagging的策略即多数投票机制来获得分类结果。
5)将测试样本输入随机森林模型,得到输出准确率。
6)调整随机森林模型的参数,直至当输出准确率大于设定阈值,则将该输出准确率时的随机森林模型作为mr覆盖率影响因素判定模型。
调整随机森林模型的参数,是当输出准确率小于设定阈值时,对随机森林模型的参数进行调整,所需调整的参数包括bagging框架的参数和rf决策树的参数。
其中,bagging框架的参数包括弱学习器的最大迭代次数n_estimators,rf决策树的参数包括最大特征数max_features、决策树最大深度max_depth、内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf。
一般来说,弱学习器的最大迭代次数n_estimators太小,容易欠拟合,n_estimators太大,又容易过拟合,其默认是100。最大特征数max_features,可以使用很多种类型的值,默认是“none”,意味着划分时考虑所有的特征数。决策树最大深度max_depth,如果模型样本量多,特征也多的情况下,推荐限制这个最大深度,常用的可以取值10-100之间。内部节点再划分所需最小样本数min_samples_split,默认是2;如果样本量不大,不需要管这个值;如果样本量数量级非常大,则推荐增大这个值。叶子节点最少样本数min_samples_leaf,默认是1,可以输入最少的样本数的整数,或者最少样本数占样本总数的百分比,如果样本量数量级非常大,则推荐增大这个值。
所有参数都先使用默认值的情况下拟合数据,得到准确度,方便与调参以后得到的准确度进行对比,凸显调参效果。
当输出准确率小于设定阈值时,对随机森林模型的参数进行调整,具体为,
6-1)对n_estimators进行网格搜索,得到弱学习器的最大迭代次数的参数值;
6-2)对max_depth和min_samples_split进行网格搜索,得到决策树最大深度与内部节点再划分所需最小样本数的参数值;
6-3)对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参;
6-4)对max_features进行网格搜索,搜索到最大特征数的参数值。
7)计算每个影响mr覆盖率的相关维度的影响度。
影响mr覆盖率的相关维度的影响度通过不纯度计算实现,具体为,
构成随机森林模型的决策树中的每一个节点都是关于一个特征的条件,将数据集按照不同的响应变量一分为二,采用方差或者最小二乘拟合,利用不纯度确定节点;训练随机森林模型的决策树的时候,计算出每个特征减少了多少决策树的不纯度,将其平均减少的不纯度作为影响度大小的值。
部分计算结果如表2所示。
表2
8)根据计算所得的影响度,对若干个影响mr覆盖率的相关维度进行排序,并对排序结果进行可视化显示,使结果更加直观。
根据表2所示的部分计算结果,得到的排序部分结果如表3所示。
表3
9)利用mr覆盖率影响因素判定模型定位mr覆盖率的影响因素,清晰劣化根因。
由表3可以得到对mr覆盖率影响度较大的几个因素,根据mr覆盖率与各个维度之间的相关性,协助完成kpi劣化等一系列问题的处理、解决与预防。mr覆盖率影响因素判定模型还具有自学习能力,随着数据量的增加和在实践过程中的应用能够不断对结果实现正向修正。
本发明的创新点在于,通过构建、训练并优化mr覆盖率影响因素判定模型,最后用mr覆盖率影响因素判定模型定位mr覆盖率的主要影响因素,清晰劣化根因,精确度高,稳定性强。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。