基于可控费用外生变量空间直和分解的可控费用测算方法与流程

文档序号:18902675发布日期:2019-10-18 22:09阅读:421来源:国知局
基于可控费用外生变量空间直和分解的可控费用测算方法与流程

本发明涉及电网可控费用数据测算与数据处理分析领域,具体涉及一种基于pca(主成分分析)方法的可控费用外生变量空间逐层直和分解方法。



背景技术:

可控费用预算编制是电网公司全面预算管理工作的一部分。分析、测算可控费用的变化规律,并进一步给出科学、合理的预算分盘方案,成为电网公司实现全面预算的首要任务。仅根据可控费用指标的历史数据建立数学模型,能够科学地提取电网公司可控费用多年的内部规律。但可控费用的产生影响的因素,并不仅仅是可控费用自身。电网公司的运营过程中,公司的营业收入、战略发展方向等并不仅仅依赖于电网公司系统内部因素。与电网公司外部因素有着必然的联系。电网公司系统内部运营记录下来的可控费用数据集所构成的子空间,并不能完全覆盖解释可控费用预算的全部变量所在的空间。因此,可控费用的测算应该引入可控费用系统的外生变量。

电网公司的可控费外生变量众多,数据所在空间为高维空间。欲测算外生变量空间对可控费用空间的影响,提取外生变量与可控费用之间的关联规则等,须先将外生变量数据空间分解、降维,压缩至实质维度。进而分类测算。目前数据分析、处理常用数据约减维度的主流方法为pca方法,又称主成分分析。基于此方法,把对前几个主成分贡献较大的指标(变量)聚为一类。应用此方法可将外生变量进行聚类。达到外生变量空间分解、降维的目的。

电网公司可控费用外生变量之间,多存在复杂的关系。因而外生变量数据所在空间的实质维数不高,维度冗余较大。上述数据空间分解、聚类的方法在电网公司可控费用外生变量空间分解、降维的方法并不适用。原因是可控费用外生指标空间的主成分为不可观测的潜变量,不便于直接应用。而据各指标对主成分的贡献率将指标聚类的方法,一是聚类后的每个子空间之间是否相关,无法确认。二是当外生变量空间的前几个主成分未出现有贡献率显著的外生变量时,此方法通常失效。



技术实现要素:

本发明要解决的技术问题是,克服现有技术中的不足,提供一种基于可控费用外生变量空间直和分解的可控费用测算方法。

为解决技术问题,本发明的解决方案是:

提供一种基于可控费用外生变量空间直和分解的可控费用测算方法,包括以下步骤:

(1)从电网公司erp系统中提取指定年度内与可控费用相关的内部外生变量数据,收集和整理指定年度内与电网公司可控费用相关的电网公司系统外部外生变量数据;构建可控费用外生变量空间,进一步构建可控费用外生变量空间数据库与可控费用数据库,并进行合并处理;

(2)数据清洗,对数据进行一致性检查、缺失值进行检查和处理;

(3)数据库预处理,将数据库整理为面板堆栈格式及时期堆栈格式;

(4)采用主成分方法分解可控费用的外生变量空间;

(5)利用分解后的可控费用外生变量空间,分类测算可控费用。

本发明中,所述步骤(1)中,内部外生变量包括:职工人数、营业收入、售电量、成本费用利润率、电力用户数、电能表数量、电网资产原值、房屋资产原值、其它资产原值和设备成新率等;外部外生变量包括地形系数和供电面积等。

本发明中,所述步骤(2)具体包括以下步骤:

(2.1)检查数据有无离群值和异常值;

(2.2)检查数据有无样本缺失值;

(2.3)样本出现缺失值时,以样本中位数填充。

本发明中,所述步骤(3)中,包括以下步骤:

(3.1)将数据库预处理为面板堆栈格式d1和时期堆栈格式d2;

(3.2)选取欲测算可控费用的时长,单位为年;

(3.3)选定测算待用数据库d:选择面板堆栈数据库d=d1,或者选择时期堆栈数据库d=d2;

(3.4)选定测算待用数据库的处理方式为:直接应用待用数据库d;或者加权平均成年份综合数据库。其中,后者通过下述方法实现:为每年的数据赋予权重ω1,ω2,…,ωp,这里ω1为最近一年数据权重,且ω1+ω2+…+ωp=1;计算出综合的待用数据库,仍记为d;

(3.5)将数据库d分解为可控费用数据库dk与可控费用的外生变量数据库dw(本发明中,数据库下标为数据库名字首拼)。

本发明中,所述步骤(4)中,包括以下步骤:

(4.1)设定累计贡献率阈值tg、因子载荷阈值t;

(4.2)计算出可控费用外生变量dw的主成分p1,p2,…,pn;

(4.3)按照累计贡献率≥累计贡献率阈值tg的原则,选出前r个主成分p1,p2,…,pr;

(4.4)计算“割韭菜”矩阵g=(gij)n×n:首先给矩阵g赋值为零矩阵。设可控费用的外生变量yj对主成分pi的因子载荷为pji;若|pji|≥t,则赋予gji=|pji|,i,j=1,2,…,n;此矩阵取名于计算矩阵的思路:高度不低于阈值t的元素全部收割;绝对值低于阈值t矩阵元素弃之不要,赋予零值。

(4.5)设置循环,循环指标为k,k=1,…,r。用来计算dw分解后的直和子空间外生变量子集uk,并设置外生变量子集个数s=0,外生变量子空间个数r1=0;

(4.6)对步骤(4.5)的指标k,设置双层循环。用来筛选进入wk的外生变量:设置外层循环指标i=1,2,…,n,内层循环指标j=1,2,…,n。若对固定的列指标i,gji中有某个元素gji≠0,j=1,2,…,n,则追加考虑gji是否满足gji=max{gji,gj,i+1,gj,i+2,…,gjn};若满足,则将外生变量yj放入外生变量集uk中。然后令gji=0,即把放入外生变量集uk中的外生变量yj所对应的元素赋值为零;若内层循环指标j到达n时,外生变量集u非空,终止双层循环。更新外生变量子集个数s=s+1;否则外层指标i+1,继续内层循环;

(4.7)当指标为i,j,k的循环全部结束时,查看u1是否为空。若u1为空集,给出提示:外生变量空间在(4.1)设定的累计贡献率阈值tg、因子载荷阈值t条件下,无法分解为可观测变量空间;若u1非空,r1=s。执行步骤(4.8);

(4.8)接下来从u1,…,us中剔除变量:分别以uk中的每个变量为被解释变量,uk+1,k=1,2,…,s-1中变量为解释变量建立1至5阶多项式回归模型;在0.05的检验水平下,查看回归模型的系数t检验是否通过,查看回归模型的f检验是否通过;若有一项通过,从u中将此外生变量删除;外生变量子集剔除变量完成后,若某个uk变成空集,则删除uk,并将uk+1,…,us的下标减1,更新为uk,…,us-1,同时更新外生变量子空间个数r1=r1-1;

(4.9)令wk=span{uk},k=1,2,…r1;u=u1∪u2∪…∪us,dw=dw-u;

(4.10)令至此,在(4.1)设定的累计贡献率阈值tg、因子载荷阈值t条件下,外生变量空间分解为

本发明中,所述步骤(5)中,包括以下步骤:

(5.1)挖掘外生变量子空间wi与可控费用空间之间存在的关联关系:设定关联规则置信度tc、支持度ts;

(5.2)挖掘外生变量子空间wi中变量为条件,可控费用空间中变量为结果的关联规则;

(5.3)根据步骤(5.2)中挖掘到的外生变量子空间wi中变量与可控费用中变量的强关联规则,以可控费用为被解释变量,外生变量子空间wi中变量为解释变量,建立5阶以下近似多项式逼近模型。做多项式模型的t检验、f检验,选取通过检验后的最优模型;

(5.4)若步骤(5.2)中挖掘到的外生变量子空间wi中变量与可控费用中变量的交叉关联规则,建立以可控费用为被解释变量,外生变量子空间wi中变量为解释变量,建立2阶带交叉项的近似多项式逼近模型;做多项式模型的t检验、f检验,选取通过检验后的最优模型;

(5.5)若步骤(5.2)中挖掘到分属不同外生变量子空间中的外生变量,与可控费用中变量的存在强交叉关联规则,据此建立2阶带交叉项的近似多项式逼近模型;以可控费用为被解释变量,以引强交叉关联规则中变量为解释变量。做多项式模型的t检验、f检验,选取通过检验后的最优模型用于进行可控费用测算。

本发明进一步提供了一种基于可控费用外生变量空间直和分解的可控费用测算装置,包括:

内部外生变量数据数据库、可控费用外生变量空间数据库和可控费用数据库;

数据清洗模块,用于对数据进行一致性检查、缺失值进行检查和处理;

数据库预处理模块,用于将数据库整理为面板堆栈格式及时期堆栈格式;

外生变量空间分解模块,用于以主成分方法分解可控费用的外生变量空间;

可控费用分类测算模块,用于利用分解后的可控费用外生变量空间,分类测算可控费用。

本发明还提供了一种基于可控费用外生变量空间直和分解的可控费用测算装置,包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,能够实现如前所述的基于可控费用外生变量空间直和分解的可控费用测算方法。

本发明还提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,能够实现如前所述的基于可控费用外生变量空间直和分解的可控费用测算方法。

发明原理描述:

本发明通过对给定可控费用外生变量空间进行直和分解,得到可控费用外生变量的无关分类;并测算每一类外生变量对可控费用变量的影响:弱关联关系给出关联规则;强关联关系建立近似逼近多项式模型。进一步针对出每一外生变量空间的无关类内部强交叉关联规则建立近似逼近模型;针对分属不同外生变量空间的强交叉关联规则建立近似逼近模型,完成外生变量空间对可控费用空间影响的测算。

与现有技术相比,本发明有益效果是:

1、现有的可控费用测算仅能实现电网公司系统内部的各指标对可控费用影响的测算。本发明提出了一套普适的方法,能够将电网公司erp系统导出的可控费用外生变量与收集整理的电网系统外的外生变量数据集合并后,自动地在给定的累计贡献率阈值tg、因子载荷阈值t的条件下,将外生变量空间的主要部分分解为一些外生变量子空间直和。从而解决了引入的电网系统外部外生变量无关性分类问题,并能测算出电网系统外部外生变量各类别对可控费用的影响关系。

2、与传统的测算方法不同的是,本发明在对可控费用影响关系方面不仅测算强函数关系,同时也测算关联关系。

3、本发明通过对外生变量空间分解,能够达到以下效果:

(1)将可控费用外生变量空间的主要部分分类,类与类之间近似无关(不仅仅是线性无关);

(2)分类测算外生变量对可控费用的影响。若可控费用外生变量空间的主要部分与可控费用间存在函数关系,则建立此函数关系的近似逼近模型;若可控费用外生变量空间的主要部分与可控费用间函数关系不强,则挖掘出可控费用外生变量对可控费用影响的关联规则。

(3)进一步测算外生变量无关类之中无关类内部变量间、不同无关类中变量间存在的对可控费用的交叉关联关系:强函数关系建立近似逼近模型,否则挖掘出交叉关联规则。

附图说明

图1为本发明的处理流程示意图。

图2为本发明的算法流程示意图。

具体实施方式

首先需要说明的是,本发明涉及数据库技术,是计算机技术在电网可控费用数据测算与数据处理分析领域的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。前述软件功能模块包括但不限于:内部外生变量数据数据库、可控费用外生变量空间数据库和可控费用数据库、数据清洗模块、数据库预处理模块、外生变量空间分解模块、可控费用分类测算模块等,凡本发明申请文件提及的均属此范畴,申请人不再一一列举。

下面通过具体示例,对本发明中基于可控费用外生变量空间直和分解的可控费用测算方法的实现步骤进行详细描述。

(1)构建电网公司的可控费用系统内部的外生变量子空间:通过梳理可控费用中对可控费用产生影响的因素,形成电网公司系统内部的外生变量空间yd=span{y1,y2,…,ys};

(2)构建电网公司的可控费用系统外部的外生变量子空间:通过梳理可控费用电网系统外部对可控费用产生影响的因素,形成电网公司系统外部的外生变量空间ye=span{ys+1,ys+2,…,yn}

(3)构建电网公司的可控费用外生变量空间:合并可控费用系统内部的外生变量子空间及可控费用系统外部的外生变量子空间,得到电网公司的可控费用的外生变量空间。y=span{y1,y2,…,ys,ys+1,…,yn}

(3)构建可控费用外生变量空间数据库:从电网公司erp系统中导出近几年的可控费用系统内部外生变量;收集、整理可控费用电网系统外部外生变量近几年数据。形成电网公司可控费用外生变量空间数据库。例,2018年份数据格式合并各年度数据集,形成电网公司可控费用外生变量数据库y′。数据按面板格式堆栈。

(4)构建可控费用数据库:从电网公司erp系统中导出近几年的年度可控费用数据。例,2018年份数据格式合并各年度数据集,形成电网公司可控费用数据库x′。数据按面板数据面板格式堆栈。

(5)合并数据库:将可控费用数据库x′与可控费用外生变量数据库y′合并。形成测算可控费用适用的一个新数据库d1=x′∪y′,数据按面板格式堆栈。

(6)数据清洗:对数据进行一致性检查(有无离群值和异常值)、有无样本缺失值,样本出现缺失值时,以样本中位数填充。

(7)数据库预处理:重新整理数据库d1,将数据按照面板数据时期堆栈格式重新存放。形成时期格式堆栈数据库d2。

(8)选定欲测算时长p(单位:年)。

(9)选定测算待用数据库:面板数据堆栈d1,或者,时期堆栈数据d2

(10)选定测算待用数据处理方式:直接应用d=d1;或者加权平均成年份综合数据。加权平均方法:为每年数据赋予权重ω1,ω2,…,ωp,其中ω1为最近一年数据权重,且ω1+ω2+…+ωp=1。计算出综合数据库d。

(11)将d分解为可控费用数据库dk与可控费用的外生变量数据库dw

(12)主成分分析(pca):计算出可控费用外生变量的主成分p1,p2,…,pn。设定贡献率阈值tg,根据特征值大于1或者累计贡献率大于贡献率阈值tg,选出外生变量主成分p1,p2,…,pr;

(13)计算“割韭菜”矩阵g=(gij)n×n:首先给矩阵g赋值为零矩阵:设可控费用的外生变量yj对主成分pi的因子载荷为pji,若|pji|≥t,则赋予gji=|pji|,i,j=1,2,…,n;此矩阵取名于计算矩阵的思路:高度不低于阈值t的元素全部收割;绝对值低于阈值t矩阵元素弃之不要,赋予零值;

(14)设置循环,循环指标为k,k=1,…,r,用来计算dw分解后的直和子空间外生变量子集uk,并设置外生变量子集个数s=0,外生变量子空间个数r1=0;

(15)对步骤(14)的指标k,设置双层循环,用来筛选进入wk的外生变量:设置外层循环指标i=1,2,…,n,内层循环指标j=1,2,…,n;若对固定的列指标i,gji中有某个元素gji≠0,j=1,2,…,n,则追加考虑gji是否满足gji=max{gji,gj,i+1,gj,i+2,…,gjn};若满足,则将外生变量yj放入外生变量集uk中;然后令gji=0,即把放入外生变量集uk中的外生变量yj所对应的元素赋值为零;若内层循环指标j到达n时,外生变量集u非空,终止双层循环;更新外生变量子集个数s=s+1;否则外层指标i+1,继续内层循环:

(16)当指标为i,j,k的循环全部结束时,查看u1是否为空;若u1为空集,给出提示:外生变量空间在(4.1)设定的累计贡献率阈值tg、因子载荷阈值t条件下,无法分解为可观测变量空间;若u1非空,r1=s,执行步骤(17);

(17)接下来从u1,…,us中剔除变量:分别以uk中的每个变量为被解释变量,uk+1,k=1,2,…,s-1中变量为解释变量建立1至5阶多项式回归模型;在0.05的检验水平下,查看回归模型的系数t检验是否通过,查看回归模型的f检验是否通过;若有一项通过,从u中将此外生变量删除;外生变量子集剔除变量完成后,若某个uk变成空集,则删除uk,并将uk+1,…,us的下标减1,更新为uk,…,us-1,同时更新外生变量子空间个数r1=r1-1;

(18)令wk=span{uk},k=1,2,…r1;u=u1∪u2∪…∪us,dw=dw-u;

(19)令至此,在(4.1)设定的累计贡献率阈值tg、因子载荷阈值t条件下,外生变量空间分解为

(20)挖掘外生变量子空间wi与可控费用空间之间存在的关联关系:设定关联规则置信度tc、支持度ts;

(21)挖掘外生变量子空间wi中变量为条件,可控费用空间中变量为结果的关联规则;

(22)根据步骤(21)中挖掘到的外生变量子空间wi中变量与可控费用中变量的强关联规则,以可控费用为被解释变量,外生变量子空间wi中变量为解释变量,建立5阶以下近似多项式逼近模型。做多项式模型的t检验、f检验,选取通过检验后的最优模型;

(23)若步骤(21)中挖掘到的外生变量子空间wi中变量与可控费用中变量的交叉关联规则,建立以可控费用为被解释变量,外生变量子空间wi中变量为解释变量,建立2阶带交叉项的近似多项式逼近模型。做多项式模型的t检验、f检验,选取通过检验后的最优模型;

(24)若步骤(21)中挖掘到分属不同外生变量子空间中的外生变量,与可控费用中变量的存在强交叉关联规则,据此建立2阶带交叉项的近似多项式逼近模型。以可控费用为被解释变量,以引强交叉关联规则中变量为解释变量。做多项式模型的t检验、f检验,选取通过检验后的最优模型;

下面是本发明的一个具体应用示例:

(1)构建电网公司可控费用的系统内部的外生变量子空间:通过梳理电网公司可控费用中对运维检修费用,营销费用和其他运营费用产生影响的因素,形成电网公司系统内部的外生变量空间yd=span{y1,y2,…,y10}=span{职工人数,营业收入,售电量,成本费用利润率,电力用户数,电能表数量,电网资产原值,房屋资产原值,其他资产,设备成新率}

(2)构建电网公司的可控费用系统外部的外生变量子空间:通过梳理可控费用中对运维检修费用,营销费用和其他运营费用产生影响的因素,形成电网公司系统外部的外生变量空间ye=span{y11,y12}=span{地形系数、供电面积}

(3)构建电网公司的可控费用外生变量空间:合并可控费用系统内部的外生变量子空间及可控费用系统外部的外生变量子空间,得到电网公司的可控费用的外生变量空间。y=span{y1,y2,…,y12}=span{职工人数,营业收入,售电量,成本费用利润率,电力用户数,电能表数量,电网资产原值,房屋资产原值,其他资产,设备成新率,地形系数、供电面积}

(3)建立可控费用外生变量空间数据库:从电网公司erp系统中导出2012-2018年数据的可控费用系统内部外生变量;收集、整理可控费用外生变量2012-2018年数据。形成电网公司可控费用外生变量空间数据集y′。数据按面板格式堆栈。

(4)构建可控费用数据库:从电网公司erp系统中导出2012-2017年的年度可控费用。此实施例选入的可控费用有:运维检修费用、营销费用和其他运营费用三个指标。合并各年度数据集,形成电网公司可控费用数据库x′。数据格式采用面板数据面板格式堆栈。

(5)合并数据库:将可控费用数据库x′与可控费用外生变量数据库y′合并。形成测算可控费用适用的一个新数据库d1=x′∪y,数据按面板格式堆栈。

(6)数据清洗:对数据进行一致性检查、缺失值检查及处理。

(7)数据库预处理:重新整理数据库d1,将数据按照面板数据时期堆栈格式重新存放。形成时期格式堆栈数据库d2。

(8)选取欲测算时长p=1年。

(9)选定测算待用数据库:面板数据堆栈d1;

(10)设置综合数据库d:2017年数据权重设置为0.6,2017年数据权重设置为0.4,其它年份数据权重设置为0。

(11)将d分解为可控费用数据库dk与可控费用的外生变量数据库dw

(12)外生变量数据库应用主成分分析(pca):计算出可控费用外生变量的主成分p1,p2,…,p12。设定累计贡献率阈值tg=0.85,根据累计贡献率大于贡献率阈值tg,选出外生变量主成分p1,p2,p3共3个主成分

(13)遴选外生变量:给定因子载荷阈值t=0.71。给定一个12×12维的零矩阵g用来存放外生变量。设可控费用外生变量yj对主成分pi的贡献为pij。若|pij|>t,则赋予gij=|pij|;

(14)遴选外生变量子空间w1中变量:对双指标:i=1,2,3,j=1,2,…,12,w1入选原则为,若对指标i=1时g1j,j=1,2,…,12中有某个元素|gij<t|,则追加考虑是否满足g1j=max{g1j,g2j,g3j}。若满足,将外生变量yj放入集合u1中。外生变量子空间中。如此遍历i,j后,集合u1为空。

考虑指标i=2,重复上述过程。集合u1为空。

考虑指标i=3,重复上述过程。返回集合u1={供电面积}。令外生变量子空间w1=span{u1}=span{供电面积}

(15)令w1′=y-w1

(16)对外生变量子空间w1′重复步骤(12)-(14),得外生变量子空间w2=span{地形系数}。

(17)建立变量“地形系数”与变量“供电面积”的1至5阶回归模型。在0.05的检验水平下,回归系数的t检验均未通过。此二变量无显著的相关关系。

(18)令w2′=w1′-w2

(19)对外生变量子空间w2′重复步骤(12)-(14),得外生变量子空间w3=span{成本费用率}。

(20)建立变量“成本费用率”与变量“供电面积”的1至5阶回归模型。在0.05的检验水平下,回归系数的t检验均未通过。此二变量无显著的相关关系。

(21)建立变量“成本费用率”与变量“地形系数”的1至5阶回归模型。在0.05的检验水平下,回归系数的t检验均未通过。此二变量无显著的相关关系。

(22)令w4=w2′-w3.

(23)挖掘外生变量子空间wi与可控费用空间之间存在的关联关系:设定关联规则置信度tc=0.9、支持度ts=0.6;

(24)挖掘外生变量子空间wi中变量为条件,可控费用空间中变量为结果的关联规则;

(25)根据步骤(24)中挖掘到的外生变量子空间wi中变量与可控费用中变量的强关联规则,以可控费用为被解释变量,外生变量子空间wi中变量为解释变量,建立5阶以下近似多项式逼近模型。做多项式模型的t检验、f检验,选取通过检验后的最优模型;

(26)若步骤(24)中挖掘到的外生变量子空间wi中变量与可控费用中变量的交叉关联规则,建立以可控费用为被解释变量,外生变量子空间wi中变量为解释变量,建立2阶带交叉项的近似多项式逼近模型。做多项式模型的t检验、f检验,选取通过检验后的最优模型;

(27)若步骤(24)中挖掘到分属不同外生变量子空间中的外生变量,与可控费用中变量的存在强交叉关联规则,据此建立2阶带交叉项的近似多项式逼近模型。以可控费用为被解释变量,以引强交叉关联规则中变量为解释变量。做多项式模型的t检验、f检验,选取通过检验后的最优模型用于进行可控费用测算。

最后,需要注意的是,以上列举的仅是本发明的一个具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1