基于用电数据的企业生命周期阶段识别方法及识别系统与流程

文档序号:18398791发布日期:2019-08-09 23:40阅读:271来源:国知局
基于用电数据的企业生命周期阶段识别方法及识别系统与流程

本发明涉及企业运营技术领域,尤其涉及一种基于用电数据的企业生命周期阶段识别方法及识别系统。



背景技术:

企业生命周期理论是企业管理研究的重要理论之一。该理论认为企业的发展过程如同生物体全生命过程一样,存在着从出生、成长、成熟、衰老到死亡的周期性。研究成果达成的一致性观点包括不同的生命周期理论根据划分依据或者判定方法不同给企业划分了不同的发展阶段,处于不同发展阶段的企业可能面临不同的陷阱且有必要据此制定适应性的权变发展策略。如果不能明确地判定企业所处的生命周期发展阶段,则无法准确地为企业把脉,无法采取有效的措施来规避企业可能面临的发展陷阱。因此,站在企业生命周期管理的视角上看,识别企业所处的发展阶段是首要任务。

目前,有关企业生命周期的实证研究还比较少,这主要是因为比较难拿到高质量的企业数据。尤其当研究对象是很少对外披露信息的中小企业时,这个困难尤甚。

因此,急需一种基于用电数据的企业生命周期阶段识别方法及识别系统。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于用电数据的企业生命周期阶段识别方法及识别系统。

本发明的一个方面,提供了一种基于用电数据的企业生命周期阶段识别方法,包括以下步骤:

步骤s1、采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,n为大于等于4的偶数;

步骤s2、将各企业用电数据中的用电量数据与目标行业的用电量数据进行对比,得到各企业的生命周期类型;

步骤s3、根据企业的用电数据构建各企业的企业特征;

步骤s4、根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集;

步骤s5、根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

进一步地,步骤s2具体包括以下步骤:

步骤s21、将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据;

步骤s22、将各企业的用电量数据分别代入公式:

计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,r1为各企业对应于前n/2阶段的用电量平均增长率,r2为各企业对应于后n/2阶段的用电量平均增长率,qn为各企业在第n个季度的用电量;

步骤s23、将目标行业连续n个季度的用电量数据分别代入公式:

计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,an为目标行业在第n个季度的用电量;

步骤s24、将r1与r2与进行对比,若r1大于且r2大于则企业的生命周期类型为成长期;若r1小于且r2大于则企业的生命周期类型为成长期;若r1大于且r2小于则企业的生命周期类型为成熟期;若r1小于且r2小于则企业的生命周期类型为衰退期。

进一步地,步骤s3中采用k-means聚类算法构建各企业的企业特征。

进一步地,步骤s4中采用smote方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。

进一步地,步骤s5中利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

本发明的第二个方面,提供了一种实现上述中所述方法的基于用电数据的企业生命周期阶段识别系统,包括:

用电数据采集模块,用于采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,并发送至生命周期类型确定模块和企业特征构建模块,n为大于等于4的偶数;

生命周期类型确定模块,用于将各企业用电数据中的用电量数据与目标行业的用电数据进行对比,得到各企业的生命周期类型,并发送至企业训练样本集计算模块;

企业特征构建模块,用于根据企业的用电数据构建各企业的企业特征,并发送至企业训练样本集计算模块;

企业训练样本集计算模块,用于根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,将得到的企业训练样本集发送至企业生命周期阶段识别模型计算模块;

企业生命周期阶段识别模型计算模块,用于根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

进一步地,生命周期类型确定模块包括:

用电数据划分单元,用于将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据,发送至企业用电量平均增长率计算单元和目标行业用电量平均增长率计算单元;

企业用电量平均增长率计算单元,用于将各企业的用电量数据分别代入公式:

计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,r1为各企业对应于前n/2阶段的用电量平均增长率,r2为各企业对应于后n/2阶段的用电量平均增长率,qn为各企业在第n个季度的用电量;

目标行业用电量平均增长率计算单元,用于将目标行业连续n个季度的用电量数据分别代入公式

计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,an为目标行业在第n个季度的用电量;

对比单元,用于将r1与r2与进行对比,若r1大于且r2大于则企业的生命周期类型为成长期;若r1小于且r2大于则企业的生命周期类型为成长期;若r1大于且r2小于则企业的生命周期类型为成熟期;若r1小于且r2小于则企业的生命周期类型为衰退期,将各企业的生命周期类型发送至企业训练样本集计算模块。

进一步地,企业特征构建模块采用k-means聚类算法构建各企业的企业特征。

进一步地,企业训练样本集计算模块采用smote方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。

进一步地,企业生命周期阶段识别模型计算模块利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

本发明提供的基于用电数据的企业生命周期阶段识别方法及识别系统,与现有技术相比具有以下进步:本发明以目标行业的用电量数据及企业公开的用电数据为基础,得到企业生命周期阶段识别模型,通过将企业的企业特征输入该模型中,就能得到该企业的生命周期阶段,具有易于实现、系统结构和方法操作简单和准确率高的优点。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明实施例中基于用电数据的企业生命周期阶段识别方法的步骤图;

图2为本发明方法实施例中步骤2具体实施时的步骤图;

图3为本发明实施例中基于用电数据的企业生命周期阶段识别系统的器件连接框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。

本发明实施例提供了一种基于用电数据的企业生命周期阶段识别方法及识别系统。

如图1,本实施例的基于用电数据的企业生命周期阶段识别方法,包括以下步骤:

步骤s1、采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,n为大于等于4的偶数;

步骤s2、将各企业的用电量数据与目标行业用电数据中的用电量数据进行对比,得到各企业的生命周期类型;

步骤s3、根据企业的用电数据构建各企业的企业特征;

步骤s4、根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集;

步骤s5、根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

本发明以目标行业的用电量数据及企业公开的用电数据为基础,得到企业生命周期阶段识别模型,通过将企业的企业特征输入该模型中,就能得到该企业的生命周期阶段,具有方法易于实现、操作步骤简单和企业生命周期阶段识别的优点。

步骤s1中,目标行业连续n个季度的用电量数据以及该目标行业内多个企业的连续n个季度用电数据中的用电量数据均可以通过电网公司每季度都对外公布的,比如冀北地区建筑行业、交通运输行业、黑色金属加工及冶炼行业等行业用电数据获得。其中,用电数据包括用电量数据、负荷曲线数据功率曲线、合同容量数据等。

如图2,具体实施时,步骤s2具体包括以下步骤:

步骤s21、将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据;

步骤s22、将各企业的用电量数据分别代入公式:

计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,r1为各企业对应于前n/2阶段的用电量平均增长率,r2为各企业对应于后n/2阶段的用电量平均增长率,qn为各企业在第n个季度的用电量;

步骤s23、将目标行业连续n个季度的用电量数据分别代入公式:

计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,a.为目标行业在第n个季度的用电量;

步骤s24、将rx与r2与进行对比,若r1大于且r2大于则企业的生命周期类型为成长期;若r1小于且r2大于则企业的生命周期类型为成长期;若r1大于且r2小于则企业的生命周期类型为成熟期;若r1小于且r2小于则企业的生命周期类型为衰退期。该步骤可以用下述表格表示:

企业的生命周期类型判断表格

上述方法步骤的操作比较简单、易于实现,且计算结果准确度较高。

具体实施时,步骤s3中采用k-means聚类算法构建各企业的企业特征。各企业的企业特征分别为开户时长、季度用电量曲线模式、用电行为模式、用电量的季平均变化率、负荷波动的月平均变化率、设备利用小时数的季平均变化率、合同容量的季平均变化率。其中,所用到的企业用电数据包括每15分钟采样一次的准实时的电压、电流和负荷曲线数据,动态的日用电量、运行容量、线路线损水平数据,静态的企业电力档案数据。这些数据主要来自于电网的用电信息采集系统和营销业务应用系统。具体实施时,构建各企业的企业特征还可以使用其他算法,本实施例只是作为举例进行说明。

具体实施时,步骤s4中采用smote方法(syntheticminorityoversamplingtechnique,合成少数类过采样方法)对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。

具体实施时,步骤s5中利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

本实施例的基于用电数据的企业生命周期阶段识别方法的一个工作流程是:根据用电数据计算得到各企业的企业特征为:

(1)开户时长,表征的是企业经营年限。由数据截止时间点减去企业的电网立户日期得到,以月为单位;

(2)季度用电量曲线模式,表征的是企业用电量变化轮廓。基于企业连续n个季度的用电量曲线数据,先根据公式做min-max归一化处理以消除不同规模企业用电量级别不同的影响,再利用k-means聚类方法对曲线数据进行聚类。

其中,代表归一化之后第m个企业第i个季度的用电量,表示第m个企业第i个季度的用电量,分别表示第m个企业对应季度用电量序列中的最小值和最大值。

k-means算法是一种适用于凸分布数据集的基准聚类技术。其用空间点之间的距离作为样本相异性度量,采用期望最大(em)原理迭代优化直至k个簇收敛,过程中控制让簇内的样本点尽量内聚以及簇间尽量分离。在e步,已知簇j的聚类中心坐标μj,根据如下公式更新样本点x(i)所属的簇标c(i)

在m步,已知c(i),依据极大似然估计原理根据如下公式来更新μj,

其中m为样本个数,i{c(i)=j}为判断簇标c(i)是否为j的指示函数,非0即1。

(3)用电行为模式,表征的是企业经营模式。同样利用min-max归一化和k-means聚类技术。针对准实时的负荷曲线数据(每15分钟采样一次),每日形成96点日曲线数据,通过对日曲线数据进行均值化处理得到企业的典型日用电行为曲线。均值化处理,比如观察某个企业365天的用电行为数据,因为每天都有96点数据(15分钟一个点数据,24小时有96个点),总共有365*96个点数据。但是为了刻画该企业的“日”用电行为,所以也最好用i=1,…,96个点的数据qi’刻画“365天的平均效应”,计算qi’的方式就是所谓的“均值化处理”,即把第1天、第2天、…、第365天的共365天对应的当天的第i点数据qi(i=1,2,…,96)累加起来除以365天求平均。

(4)用电量的季平均变化率,就是企业n个季度用电量对应的n-1个变化率的平均值。此特征的引入是为了弥补季度用电量曲线模式特征中k-means聚类技术只能定性刻画轮廓而无法定量描述细节的不足。

(5)负荷波动的月平均变化率,反映了企业用电负荷控制的管理水平,从侧面表征了企业生产管理的规范程度。计算方式为先定义月负荷波动率pi,

其中分别是某企业第i个月内的最大和最小负荷;再计算两两月负荷波动率的变化率的平均值,该变化率的平均值的计算方式同企业用电量平均增长率的计算公式相同,此处不再赘述。

(6)设备利用小时数的季平均变化率,反映了企业生产资料的投产情况,在一定程度上表征了企业生产的景气指数。先得到n个季度的设备平均利用小时数,其等于企业季度用电量除以该季度内的折算运行容量,如某企业在2018年第3季度的前50天的运行容量为d1,后40天的运行容量调整为d2,则该季度的折算运行容量为(d1*50+d2*40)/(50+40);再计算n-1个两两比较的变化率的平均值,该变化率的平均值的计算方式同企业用电量平均增长率的计算公式相同,此处不再赘述。

(7)合同容量的季平均变化率,通过企业用电规模预期的自发调整反映了管理者对企业发展经营态势的展望和信心。从用户用电档案数据中提取n个季度内企业合同容量的调整记录,计算n-1个两两变化率的平均值。该变化率的平均值的计算方式同企业用电量平均增长率的计算公式相同,此处不再赘述。

得到用电数据和企业的企业特征之后,先对m个企业样本进行分层随机抽样得到p个样本作为训练集种子样本;再计算这p个样本对应企业的5项定距特征值、n个季度的用电量曲线数据和日负荷曲线数据,且一并对其进行smote过采样处理,这样形成了类别平衡的q个样本数据;最后基于上步过采样后的季度用电量曲线数据和日负荷曲线数据利用k-means聚类技术完成另外2项定类特征(季度用电量曲线模式和用电行为模式)的生成。

smote过采样算法的执行流程如下:

step1:对于失衡类别样本集中的每一个样本x,以空间欧式距离为度量方式确定x的k近邻;

step2:根据样本类别不平衡情况,确定过采样倍率q,从x的k近邻中随机选择q个近邻;

step3:对于每一个x和xn,根据如下公式线性插值出新样本xnew,

xnew=x+rand(0,1)*(xn-x),n=1,2,...,q,其中rand(0,1)表示0到1之间的随机数。

采用metacost元代价敏感算法对梯度提升决策树模型预测出错的代价矩阵做偏置化处理,即如果把更关心的类别样本预测成其它类别则接受更高的惩罚。metacost算法是基于贝叶斯最优预测理论以较小成本将分类器改造成代价敏感模型的算法。metacost算法的执行流程如下:

step1:用m表示原先使用的分类器模型,针对原训练集以bagging集成学习的方式训练出n个分类器mn,n=1,2,...,n;

step2:针对训练集中的每一个样本x,由n个分类器mn的预测结果计算把x预测成类别j的概率p(j|x),j遍历所有类别;

step3:根据预定义的代价矩阵元素c(i,j),利用如下公式计算把真实类别为j的样本x预测成类别i的条件风险值,

r(i|x)=∑jp(j|x)c(i,j),

并根据贝叶斯理论的最小化原则,如有必要把样本x的类标签修正为i*

step4:依据样本类标签修正后的新训练集,重新训练一个分类器m′,m′即为m的代价敏感改造模型。

分类器m和m′都采用了梯度提升决策树(gbdt)模型框架。

m′模型的最重要调参量为metacost算法中的代价矩阵c|i,j。经网格搜索调参,m′模型的查准率和查全率无法同时达到最优。对于处在成熟期和衰退期的失衡企业样本,当c|i,j为如下公式所示时查准率达到最优的83.3%,

而当c|i,j为如下公式所示时查全率达到最优的88.9%

得到企业生命周期阶段识别模型之后,将属于目标行业的任一企业的7个特征输入该模型,就等得到该企业的生命周期阶段。

如图3,本实施例的实现上述实施例中所述方法的基于用电数据的企业生命周期阶段识别系统,包括:

用电数据采集模块,用于采集目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度的用电数据,并发送至生命周期类型确定模块和企业特征构建模块,n为大于等于4的偶数;

生命周期类型确定模块,用于将各企业用电数据中的用电量数据与目标行业的用电量数据进行对比,得到各企业的生命周期类型,并发送至企业训练样本集计算模块;

企业特征构建模块,用于根据企业的用电数据构建各企业的企业特征,并发送至企业训练样本集计算模块;

企业训练样本集计算模块,用于根据各企业的企业特征,对生命周期类型为成熟期和衰退期的企业进行过采样处理,将得到的企业训练样本集发送至企业生命周期阶段识别模型计算模块;

企业生命周期阶段识别模型计算模块,用于根据企业训练样本集对梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

本发明以目标行业的用电量数据及企业公开的用电数据为基础,得到企业生命周期阶段识别模型,通过将企业的企业特征输入该模型中,就能得到该企业的生命周期阶段,具有系统结构易于实现、系统结构简单和企业生命周期阶段识别准确率高的优点。

如图3,具体实施时,生命周期类型确定模块包括:

用电数据划分单元,用于将目标行业连续n个季度的用电量数据及该目标行业内多个企业的连续n个季度用电数据中的用电量数据分为前n/2、后n/2两个阶段的用电量数据,发送至企业用电量平均增长率计算单元和目标行业用电量平均增长率计算单元;

企业用电量平均增长率计算单元,用于将各企业的用电量数据分别代入公式:

计算得到各企业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,r1为各企业对应于前n/2阶段的用电量平均增长率,r2为各企业对应于后n/2阶段的用电量平均增长率,qn为各企业在第n个季度的用电量;

目标行业用电量平均增长率计算单元,用于将目标行业连续n个季度的用电量数据分别代入公式

计算得到目标行业对应于前n/2、后n/2两个阶段的用电量平均增长率,发送至对比单元,其中,为目标行业对应于前n/2阶段的用电量平均增长率,为目标行业对应于后n/2阶段的用电量平均增长率,an为目标行业在第n个季度的用电量;

对比单元,用于将r1与r2与进行对比,若r1大于且r2大于则企业的生命周期类型为成长期;若r1小于且r2大于则企业的生命周期类型为成长期;若r1大于且r2小于则企业的生命周期类型为成熟期;若r1小于且r2小于则企业的生命周期类型为衰退期,将各企业的生命周期类型发送至企业训练样本集计算模块。

具体实施时,企业特征构建模块采用k-means聚类算法构建各企业的企业特征。

具体实施时,企业训练样本集计算模块采用smote方法对生命周期类型为成熟期和衰退期的企业进行过采样处理,得到企业训练样本集。

具体实施时,企业生命周期阶段识别模型计算模块利用元代价敏感算法将企业训练样本集输入梯度提升决策树模型进行代价敏感改造,得到企业生命周期阶段识别模型。

上述方法实施例改进的内容,也属于系统实施例改进的内容,在系统实施例中不再赘述。

对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1