基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备与流程

文档序号:20192160发布日期:2020-03-27 19:46阅读:265来源:国知局
基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备与流程

本发明涉及电力领域,具体涉及基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备。



背景技术:

电能替代,是指在能源消费上,以电力能源替代煤炭、石油、天然气等化石能源的直接消费,提高电能在终端能源消费中的比重,改良终端能源结构,实现更加清洁、便捷、安全的能源利用。目前,电能替代工作已进入快速发展阶段,但电能替代工作综合性较强,涉及范围广、环节多,对专业技术水平要求高。电网公司营销专职人员在推进过程中存在对企业用能情况、替代技术、优惠政策不了解的状况,因而难以有效进行潜力测算与项目推进。如何利用大数据手段,精准排查、寻找目标客户成为急需解决的问题。



技术实现要素:

针对现有技术中存在的问题,本发明提出基于随机森林的电能替代潜力预测方法、系统、存储介质及计算机设备,可精准识别电力企业电能替代潜力高的客户,为电力营销和客户服务部门开展精准营销和差异化服务提供数据支撑。

本发明基于随机森林的电能替代潜力预测方法,包括以下步骤:

步骤1、数据采集,得到电能替代潜力预测的数据源;

步骤2、提炼电能替代潜在客户的关键特征,构建电能替代潜力预测模型的指标体系;

步骤3、根据行业领域的特点,分行业领域提取数据,并单独构建预测模型;提取目标客户与非目标客户数据,并按照比例将数据集划分为训练集、验证集和测试集;

步骤4、对数据进行预处理;通过相关性分析、信息值进行特征工程分析,筛选变量;基于最优分组和最优分群算法对筛选出来的变量进行分组,进行woe证据权重转化,筛选建模指标;

步骤5、基于随机森林算法,根据所筛选的建模指标,构建随机森林模型作为电能替代潜力预测模型。

在优选的实施例中,步骤4对筛选出来的变量进行分组时,所遵循的原则为组间差异最大、组内差异最小;最优分组针对分类电量,最优分群针对数值变量;最优分群基于决策树模型的分类找到最优的分组方案,通过合并变量的类别使预测力指标最大化,过程为:

步骤41、首先假设所有类别都属于一个组;

步骤42、基于使某一预测力指标最大的原则找出最优的二元分割点,被选中的分组方案中所有备选分组的预测力指标都能达到最大值;

步骤43、在每个子类别中重复步骤42,当达到最大分组个数时停止继续分割。

在优选的实施例中,步骤5根据所筛选的建模指标,构建随机森林模型,采用oob误分率指标作为随机森林模型的误差估计方法,并根据随机森林模型的误差调整随机森林模型的参数,得到最优参数组合。

本发明基于随机森林的电能替代潜力预测系统,包括:

数据采集模块,用于采集数据,得到电能替代潜力预测的数据源;

指标体系搭建模块,用于提炼电能替代潜在客户的关键特征,构建电能替代潜力预测模型的指标体系;

数据提取模块,用于根据行业领域的特点,分行业领域提取数据,并单独构建预测模型;提取目标客户与非目标客户数据,并按照比例将数据集划分为训练集、验证集和测试集;

数据预处理模块,用于对数据进行预处理;通过相关性分析、信息值进行特征工程分析,筛选变量;基于最优分组和最优分群算法对筛选出来的变量进行分组,进行woe证据权重转化,筛选建模指标;

预测模型构建模块,用于基于随机森林算法,根据所筛选的建模指标,构建随机森林模型作为电能替代潜力预测模型。

本发明的存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现上述电能替代潜力预测方法的步骤。

本发明的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器运行所述计算机程序时,实现上述电能替代潜力预测方法。

与现有技术相比,本发明的有益效果在于:

1、本发明通过构建电能替代储备库,精准识别电力企业电能替代潜力高的客户,实现电能替代潜在项目储备库编制的信息化和自动化,为电力营销和客户服务部门开展精准营销和差异化服务提供数据支撑,辅助提升电能替代潜力市场拓展的工作效率。据此,企业还可进一步制定主动、精准的服务策略,优化提升在电能替代方面的创新和业务成效。

2、本发明将最优分群算法与woe证据权重转化、随机森林算法结合起来,在保证指标预测力情况下极大地增强了模型的运算效率,在面对海量客户数据进行建模时能够极大的缩短结果输出事件,从而更高效响应市场客户需求,进而采取针对性的措施,减少营销成本,提高用户的响应度。

附图说明

图1为本发明基于随机森林的电能替代潜力预测方法的流程图;

图2是随机森林算法的流程图。

具体实施方式

下面结合说明书附图与实施例对本发明做进一步的详细说明,但本发明的实施方式不限于此。

实施例

总的来说,本发明从客户基本信息、用电信息(例如用电特征、用电习惯)、经营状况、缴费信息等多个维度收集建模指标,使用信息值(iv)、相关系数筛选变量,基于最优分组和最优分群算法对筛选出来的变量进行分组,进行woe证据权重转化,运用随机森林算法构建客户电能替代度评价模型,将所构建的模型应用于为实施电能替代的客户,判断其电能替代潜力,从而形成电能替代项目储备库。通过识别潜在电能替代客户,为电力营销和客户服务部门开展精准营销和差异化服务提供数据支撑,从而提高客户整体满意度、提升客户感知、提高营销业务拓展能力。

图1示出了本发明一个实施例中基于随机森林的电能替代潜力预测方法的流程图,该方法主要包括以下步骤:

步骤1、数据采集:采集营销系统数据、用电采集系统数据、pms系统数据、95598客户服务系统数据和电能服务管理平台数据;得到电能替代潜力预测的数据源。

步骤2、搭建指标体系:通过业务调研、专家访谈及历史数据探索,提炼电能替代潜在客户的关键特征,构建电能替代潜力预测模型的指标体系。

本实施方式中,通过业务调研及专家访谈,提炼潜在电能替代客户的关键特征,确定关键维度及相关标签指标体系,从客户基本信息、用电特征、用电习惯、经营状况这四个角度去考虑,进而构建电能替代潜力预测模型的指标体系。客户基本信息是反应客户基本层面的指标,主要包括行业特征、户龄、是否高耗能用户等;用电特征主要包括用电设备、用电时段、用电量、负荷等;经营状况主要包括企业规模、企业景气度等;用电习惯包括用电量、用电量趋势、用电量波动情况,及峰、谷用电量等。

步骤3、数据提取:由于各行业的领域特点以及电能替代工艺技术差异较大,因此需要根据行业领域的特点,分行业领域提取数据,并单独构建预测模型;提取目标客户与非目标客户数据,并按照7:2:1的比例将数据集划分为训练集、验证集和测试集。

本实施方式中所述目标客户是指已实施电能替代的用电客户,将某一时间段内实施电能替代的客户作为目标客户,目标客户以改造前的信息来构建指标;非目标客户以预测时间节点前的信息构建指标。

步骤4、对数据进行预处理,使用固定值替代法(例如拉格朗日插值法)对缺失数据进行填补,采用帽盖法对异常值进行处理;然后通过相关性分析、信息值(iv)等方法进行特征工程分析,分析指标对电能替代的影响,剔除没有影响力的指标,从而筛选变量;基于最优分组和最优分群算法对筛选出来的变量进行分组,进行woe证据权重转化,筛选建模指标。

上述特征工程分析中,针对数据预处理后的数据,采用iv值筛选与目标变量关联性强的分类变量,基于f检验筛选与目标变量相关性强的数值型变量,为接下来的随机森林模型的建立筛选好建模指标。

本步骤对筛选出来的变量进行分组时,所遵循的原则为组间差异最大、组内差异最小,具体的分组过程依据最优分组与最优分群算法。最优分组针对的是分类电量(字符型变量),最优分群针对的是数值变量(连续型变量)。最优分群是基于决策树模型的分类找到最优的分组方案,通过合并变量的类别使预测力指标(基尼方差、熵方差、信息值等)最大化。最优分群的主要思想为:

步骤41、假设所有类别都属于一个组;

步骤42、基于使某一预测力指标最大的原则找出最优的二元分割点,这样被选中的分组方案中所有备选分组的预测力指标都能达到最大值;

步骤43、在每个子类别中重复步骤42,当达到最大分组个数时停止继续分割。由于进行最优分群后的指标都变成了分类变量,不存在数值型变量,woe证据权重转化可以保留指标特征的情况下将所有经过分类的指标转换为数值型,有利于随机森林算法的运算。

步骤5、基于随机森林算法,构建随机森林模型作为电能替代潜力预测模型;

随机森林算法是用随机的方式建立一个森林,是一种基于决策树的组合学习算法。随机森林算法的基本思想是在构造单个树的过程中,随机选取一些变量或特征参与树节点划分,重复多次并保证建立的这些树之间的独立性。对于新样本采用投票原则,哪一类的得票越高就预测为哪一类。

本步骤在上述步骤4的基础上,根据所筛选的建模指标,应用python软件构建随机森林模型,采用oob误分率指标作为随机森林模型的误差估计方法,并根据随机森林模型的误差调整随机森林模型的参数,得到最优参数组合。如图2所示,在随机森林模型的建立过程中,包括以下步骤:

(1)、假设随机森林的规模为ntree,每个树节点中参与划分的特征集的个数为mtry;

(2)、在训练集中采用boostrap采样得到子训练样本集;

(3)、生成树的过程中随机从特征集中选择mtry个特征并以决策树gini系数为标准选取最佳的一个变量进行分支;

(4)、每棵树最大限度地生长,直到每个叶子节点的不纯度达到最小,不做任何裁剪;

重复以上步骤(3)-(4)直到生成ntree个分支,即ntree个树分类器;依据构建好的多个树分类器来预测新样本,未知样本(即新样本)的分类结果按树分类器的投票多少而定。

上述过程中,步骤51依据oob误分率来选择随机森林最优的规模ntree和特征集的个数mtry。由于随机森林中的随机采样机制,oob误分率是随机森林泛化误差的一个无偏估计,它的结果近似于需要大量计算的k折交叉验证。因此无需对它进行交叉验证或者用一个独立的测试集来获得误差的无偏估计。oob误分率,即袋外误差的计算方式如下:

(1)、对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为n,用这n个袋外数据作为输入,依据之前已经生成的随机森林分类器计算它的分类结果;

(2)、以简单多数投票作为样本的分类结果;

(3)、最后统计随机森林分类器分类错误的数目,设为x,用误分个数占样本总数的比率作为随机森林的oob误分率,即oob误分率为x/n。

通过学习曲线来查看随机森林模型的学习效果,从而判断当前模型是否过拟合或欠拟合,再对随机森林模型进行相应的调优。

步骤6、将随机森林模型应用于为实施电能替代的客户,判断其电能替代潜力,从而形成电能替代项目储备库,以采取针对性营销措施。

随机森林模型构建后,必须对模型效果及性能进行评估。采用网格搜索方法确定进入模型的最优参数。而常用的评价方法有洛伦兹曲线、roc曲线、auc统计量、模型学习曲线等。一个模型的好坏,最重要的评价标准是在实践中的应用效果。一般采用时间平移的方式对模型进行验证,即得到模型后预测目标变量未来一个月的发生情况,再与实际情况进行对比。本实施例的验证结果如下:以金属制造行业为例,模型命中率为82%,覆盖率为48%,见,该模型可以很好的应用与全量客户。

本发明电能替代潜力预测系统包括:

数据采集模块,用于实现步骤1,采集数据,得到电能替代潜力预测的数据源;

指标体系搭建模块,用于实现步骤2,提炼电能替代潜在客户的关键特征,构建电能替代潜力预测模型的指标体系;

数据提取模块,用于实现步骤3,根据行业领域的特点,分行业领域提取数据,并单独构建预测模型;提取目标客户与非目标客户数据,并按照比例将数据集划分为训练集、验证集和测试集;

数据预处理模块,用于实现步骤4,对数据进行预处理;通过相关性分析、信息值进行特征工程分析,筛选变量;基于最优分组和最优分群算法对筛选出来的变量进行分组,进行woe证据权重转化,筛选建模指标;以及

预测模型构建模块,用于实现步骤5,基于随机森林算法,根据所筛选的建模指标,构建随机森林模型作为电能替代潜力预测模型。

本发明还提出一种存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时,实现上述电能替代潜力预测方法的步骤。

本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,当处理器运行所述计算机程序时,实现本发明电能替代潜力预测方法。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1