一种基于用电特性聚类的线性回归电量预测方法及系统与流程

文档序号:18902297发布日期:2019-10-18 22:06阅读:288来源:国知局
一种基于用电特性聚类的线性回归电量预测方法及系统与流程
本公开涉及电力系统供配电相关
技术领域
,具体的说,是涉及一种基于用电特性聚类的线性回归电量预测方法及系统。
背景技术
:本部分的陈述仅仅是提供了与本公开相关的
背景技术
信息,并不必然构成在先技术。随着国家经济与能源产业的快速发展,电力用户对电能的需求越来越大,对于供电企业而言,用户用电量的预测显得尤为重要,用电量的预测不仅能够帮助电力公司更好地了解和服务用户,为电网的发展制定相应的规划,具体可以进行配电电量的调度,同时也能帮助政府相关政策的制定,如电力系统的建设规划布局。随着时间的推移以及经济的不断发展,可以预见我国对电力的依赖程度也将越来越高。用户的用电行为具有差异性,即使是同一行业的用户,随着时间的推移,这种差异也会日趋明显,现有的用电预测大多数通过行业特性来进行模式识别,并不能很好的挖掘用户的信息。用户的用电特性不仅与本行业的相关因素有关,还与其他社会经济因素有关,不同区域用户的用电特性和不同行业的用电特性变化趋势相似,用户用电特性呈现多样化,这对相关电量预测方法形成了挑战。随着科技的发展,特别是智能技术的不断进步,各种智能电网技术层出不穷,电网的建设方面也有了很大的提高,现有的电力大数据足以为用户用电特性的量化以及相关预测提供数据支撑,建立有针对性的预测模型不仅能够提高用电量预测精度,同时也能够帮助企业认识用户及其群体效应。技术实现要素:本公开为了解决上述问题,提出了一种基于用电特性聚类的线性回归电量预测方法及系统,在积累的多类型、海量客户用电信息的基础上,根据用户用电特性评价指标进行子空间聚类,获取多种类别,进而形成多种用户用电模式,根据用电模式的不同,对用户进行群体划分,对不同的群体用户利用互信息矩阵判断其强关联因素,进而采用多元线性回归算法进行用电量的预测,针对每一用户群体数据建立多个线性回归模型进行预测,预测结果更加准确,预测效果更好。为了实现上述目的,本公开采用如下技术方案:一个或多个实施例提供了一种基于用电特性聚类的线性回归电量预测方法,包括如下步骤:对用电客户数据在多个维度上分别进行聚类,得到多种聚类结果;将聚类结果任意组合得到不同的用户用电模式,将用电客户按照用电模式的不同进行分类,获得不同的用户群体;针对不同的用户群体,采用互信息理论确定影响每个用电群体用电行为的强关联因素;根据群体的用户用电数据和影响本群体用电的强关联因素,分别针对每个的用户群体建立对应的多元线性回归模型,根据建立的多元线性回归模型建立用电预测模型;采集每个用户群体的强关联因素数据输入对应的线性回归模型,对各用户群体的用电数据进行预测。一个或多个实施例提供了一种基于用电特性聚类的线性回归电量预测系统,包括:聚类模块:用于对用电客户数据在多个维度上分别采用ap自动聚类算法进行聚类,得到多种聚类结果;用户分类模块:用于将聚类结果任意组合得到不同的用户用电模式,将用电客户按照用电模式的不同进行分类,获得不同的用户群体;强关联因素确定模块:用于针对不同的用户群体,采用互信息理论确定影响每个用电群体用电行为的强关联因素;用电预测模型构建模块:用于根据群体的用户用电数据和影响本群体用电的强关联因素,分别针对每个的用户群体建立对应的多元线性回归模型,根据建立的多元线性回归模型建立用电预测模型;预测模块:用于采集每个用户群体的强关联因素数据输入对应的多元线性回归模型,对各用户群体的用电数据进行预测。一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述方法所述的步骤。一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。本公开根据用户用电特性评价指标进行子空间聚类,获取多种类别,进而形成多种用户用电模式,根据用电模式的不同,对用户进行群体划分,对不同的群体用户利用互信息矩阵判断其强关联因素,进而采用多元线性回归算法进行用电量的预测,针对每一用户群体数据建立多个线性回归模型进行预测,预测结果更加准确,预测效果更好。与现有技术相比,本公开的有益效果为:(1)本公开提出的一种基于ap聚类算法和多元线性回归的用户电量预测方法,不仅能够根据用户用电特性进行自动聚类,还能够有效识别不同用户群体的用电相关联因素,通过聚类,可以得到多种用户用电模式,从而得到不同的用户群体,通过计算互信息可以得到不同用户群体的强关联因素,在此基础上采用多元线性回归算法进行拟合,得到预测结果,本公开对用户的分类趋于精细化,提高了预测效果。(2)本公开采用的ap自动聚类算法,无需人工设置聚类的数目,在多个维度如四个维度上进行聚类,所获得的用户群体数目更多,分类也更加精细,分类越多预测结果越准确,为电力公司的输配电调度提供准确的数据依据。(3)本公开采用互信息方法来确定不同用户群体用电最相关因素并将之应用到电量预测模型中,使得预测方法有理有据。附图说明构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的限定。图1是本公开实施例1的用电预测方法流程图;图2是本公开实施例1的用电预测模型建模过程图;图3(a)-图3(c)是本公开实施例1的示例中用户年用电量聚类结果图;图4(a)-图4(d)是本公开实施例1的示例中用户月用电量聚类结果图;图5(a)-图5(d)是本公开实施例1的示例中综合日负曲线聚类图;图6本公开实施例1的示例中不同回归模型数的预测误差图;图7本公开的方法与对比算法预测效果对比图。具体实施方式:下面结合附图与实施例对本公开作进一步说明。应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属
技术领域
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是,在不冲突的情况下,本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。在一个或多个实施方式中公开的技术方案中,如图1所示,一种基于用电特性聚类的线性回归电量预测方法,包括如下步骤:步骤1、对用电客户数据在多个维度上进行聚类,得到多种聚类结果;步骤2、将聚类结果任意组合得到不同的用户用电模式,将用电客户按照用电模式的不同进行分类,获得不同的用户群体;步骤3、针对不同的用户群体,采用互信息理论确定影响每个用电群体用电行为的强关联因素;步骤4、根据群体的用户用电数据和影响本群体用电的强关联因素,分别针对每个的用户群体建立对应的线性回归模型,根据建立的线性回归模型建立用电预测模型;步骤5、采集每个用户群体的强关联因素数据输入对应的线性回归模型,对各用户群体的用电数据进行预测。所述步骤1,对用电客户数据在多个维度上分别采用ap自动聚类算法进行聚类,得到多种聚类结果,步骤具体为:步骤11、采集用电数据,构建用户用电特性数据集vd;用电数据可以采用相关电力企业积累的用电客户的数据,可以包括时序和非时序的评价指标数据,其中时序评价指标包括用户年用电量数据、月用电量数据以及日负荷数据,非时序评价指标包括负荷密度、日平均负荷率、季不平衡系数、最大负荷利用小时数等指标。构建的用户用电特性数据集vd可以如下:vi={αt1,αt2,…,αtu;βt1,βt2,…,βtv;δ1,δ2,…,δk;γ1,γ2,…,γw}∈vd(1)上式中i=1,2,…,m表示用户。αt1,αt2,…,αtu和βt1,βt2,…,βtv是具有时序特征的向量,分别表示用户年用电量数据和月用电量数据;δ1,δ2,δ3,…,δk表示一段时间内平均日负荷数据,具体内容可以包含48点(δ1,…,δ48)日平均负荷数据。γ1,γ2,…,γw是非时序的特征向量,具体内容可以包括负荷密度γ1,日平均负荷率γ2,季不平衡系数γ3,最大负荷利用小时数γ4等负荷指标。步骤12、将数据集vd划分多个不同的子空间,对每一个子空间的数据分别采用ap自动聚类算法进行聚类,得到对应每个子空间数据的子空间聚类结果;子空间的数量即为维度,本实施例可以在4个维度上进行聚类,将数据集vd划分为4个不同的子空间l1~l4,在年用电量序列、月用电量序列、日负荷数据以及负荷特性数据四个维度上进行ap聚类,通过聚类可以得到对应的r,s,k和t个簇,并求取样本数据点对于子空间各个簇的隶属度,可以通过如下公式表示:上式满足和并且uα,j,uβ,j,uδ,j,uγ,j∈[0,1],uα,j、uβ,j、uδ,j、uγ,j分别表示用户u对于四个子空间聚类结果r,s,k和t个簇中不同簇的隶属度。所述步骤2中,将聚类结果任意组合得到不同的用户用电模式,将用电客户按照用电模式的不同进行分类,获得不同的用户群体;所述任意组合可以为将聚类结果进行排列组合,在各个子空间或每个维度上聚类得到的簇中分别抽取一个簇进行组合,从而确定一种用户用电模式,在所得的簇中,用户用电模式总数量为各聚类结果中簇的数量的乘积。本实施在4个维度上聚类可以得到对应的r,s,k和t个簇,用户用电模式总数量n=r×s×k×t。将用电客户按照用电模式的不同进行分类,获得不同的用户群体的方法可以具体为,通过计算每个样本点即用电客户的用电数据对不同群组的隶属度,将用电客户划分到对应隶属度最大的用户群体。根据公式(3)将用户划分到不同用户群体,具体的计算公式如下:上式中,uα,max、uβ,max、uδ,max、uγ,max分别表示用户u在四个子空间中对应不同簇隶属度的最大值。所述步骤3、针对不同的用户群体,采用互信息理论确定影响每个用电群体用电行为的强关联因素。针对不同的用户群体,采用互信息理论对用户用电量数据与潜在关联因素进行关联分析,确定与用户用电行为相关的强关联因素,具体步骤可以如下:步骤31:计算用户的用电数据x与潜在关联因素y之间的互信息来获得两者之间的关联程度,互信息计算公式如下所示:其中,m表示x与y所有取值的个数和;ni表示x的区间数量;mi表示为x落在第i个区间的数值个数;nj表示y的区间数量,p(yu)表示y落在第u个区间的概率;muv表示y落在第u个区间时,x恰好落在第v个区间的数值个数。关联因素y是影响用户用电行为的潜在关联因素,用户主要分为居民和非居民用户两种,非居民用户涵盖工业、餐饮、交通运输等行业,分为非制造业和制造业用户,对于非制造业用户,选取该地区的行业总产值、固定资产投资、行业景气指数、主要产品出厂价格指数、产品库存量等多种因素作为潜在的关联因素,对于制造业用户选取产品产量、原材料价格指数、产品库存量等等因素作为关联因素,在地域方面,考虑总体gdp、第一、二、三产业gdp、固定资产投资额等因素。步骤32、根据计算用户群体中各个用户用电量与潜在关联因素之间的互信息数据建立互信息矩阵,可以如下所示:其中,{x1,x2,…,xp}表示p个用户用电量数据序列构成的数据集,{y1,y2,…,yl}表示潜在关联因素构成的数据集。步骤33、针对每个关联因素,计算每个关联因素与用户的用电数据之间的平均互信息,得到不同群体用户与各关联因素的平均互信息。即计算上述矩阵中关联因素yj与x1,x2,…,xp之间的平均互信息,可以通过公式(6)来进行计算:其中,{x1,x2,…,xp}表示p个用户用电量数据序列构成的数据集,{y1,y2,…,yl}表示潜在关联因素构成的数据集。步骤34:选择平均互信息数值大于零所代表的关联因素,并按照互信息数值大小将选取的关联因素进行排序,得到排序后的关联因素列表,选取互信息数值较大的关联因素,作为强关联因素。如果是按照互信息数值由大到小排列,选取靠前的关联因素,具体选取多少个可以进行设定。强关联因素与用户用电数据一起构建训练样本集sk(k=1,…,n),并结合不同的用户群体gk(k=1,…,n)进行用电量的预测。所述步骤4、根据群体的用户用电数据和影响本群体用电的强关联因素,采用多元线性回归算法,分别针对每个的用户群体建立对应的多个线性回归模型。针对每个用户群体建立一个线性回归模型,最终是建立了多个线性回归模型。所述步骤4采用多元线性回归算法建立回归模型,可以借鉴随机森林算法,针对不同的用户群体gk从原始训练样本集sk中随机获取多个训练样本,对每个样本进行建模,然后使用测试集对各个模型进行测试,最终得到电量预测模型。如图2所示,步骤可以具体为:步骤41、根据强关联因素对应的数据和每个用户群体的用电数据,建立每个用户群体的数据样本集sk;步骤42、从sk中随机抽取w个训练样本(s1,s2,…,skw),可以采用bootstrap抽样方法,将抽取的训练样以强关联因素对应的数据为输入,对应用户群体的用电数据为输出训练构建w个多元线性回归模型。对同一群体建立多个线性回归模型来预测结果,预测准确度更高。步骤43、将数据样本集sk未被抽取的数据作为测试集,输入构建的w个多元线性回归模型进行测试。训练样本子集抽取过程采用的是有放回的抽样法,部分样本不会出现在采集的样本集合中,称之为“袋外数据”,以袋外数据作为测试集进行测试。测试误差在一定的范围内的模型为合格模型。步骤44、对所有线性回归预测模型进行线性组合获得全体用户的用电预测模型。原始训练数据集sk中有两类数据构成,分别是用户用电量数据以及与之对应的m种关联因素数据。模型输入是m种关联因素数据,输出是用户用电量的时序数据。建立w个多元线性回归模型,通过测试集进行仿真测试,将与用电量数据yk相关的关联因素数据xk作为输入,得到预测结果采用公式(7)进行计算:所述步骤c4中,hk是对应gk的电量预测模型,fki是单个线性回归预测模型,将fk进行线性组合,即可得到全体用户的用电预测模型。步骤5、采集每个用户群体的强关联因素数据输入对应的线性回归模型,对各用户群体的用电数据进行预测。采集用户强关联因素对应的数据,输入到对应用户群体建立的线性回归模型,输出用户的用电预测值。下面以具体的示例进行说明:选取东部沿海某省份某区域内7832名典型用户在2014~2017年间的用电量、日负荷曲线等数据来计算相应的用户最大负荷利用小时数γ1,负荷密度γ2,峰谷电量比γ3,季不平衡系数γ4,日平均负荷率γ5等负荷特性指标数据,并与用户用电量时序数据结合,构建用户用电特性数据集vd。用户主要分为居民和非居民用户两种,非居民用户涵盖工业、餐饮、交通运输等行业,对于非制造业用户,选取该地区的行业总产值、固定资产投资、行业景气指数、主要产品出厂价格指数、产品库存量等40种因素作为潜在的关联因素,对于制造业用户选取产品产量、原材料价格指数、产品库存量等78种因素作为关联因素,在地域方面,考虑总体gdp、第一、二、三产业gdp、固定资产投资额等20种因素。共计138种因素作为用户用电关联因素,通过这些因素数据构建潜在的关联因素数据集yd,并对用户用电数据和yd进行归一化处理,详见表1。表1用电量数据和关联因素数据的归一化vd包括用户年度用电量时序数据、用电用户各月份的月度用电量、日负荷数据(选用2014年~2017年7、8月份的日负荷数据)以及负荷特性数据。在这四类数据的基础上分别进行ap聚类,聚类的结果如下:如图3(a)-图3(c)所示,展现的是用户年用电量的聚类结果,分为三类:稳定型、波动型以及增长型,图3(a)为波动型,具体为波动增长型,图3(b)为稳定型,图3(c)为增长性,稳定型包含三类用户:缓慢增长、缓慢下降以及平稳型三类用电客户;波动性包含的是受商业环境影响较大的客户,快速增长型包含的是发展态势良好的用户。图4(a)-图4(d)展现的是用户月份用电量的聚类结果,主要有四类:稳定型、单峰型、双峰型以及多峰型。图4(a)为稳定型,图4(b)为双峰型,图4(c)为单峰型,图4(d)为多峰型。稳定型主要包括制造业等用电连续性比较强的用户,单峰型包括的是一年中用电高峰出现在5~10月份的客户,双峰型包含的是受季节因素影响比较重的客户,多峰型包含的是受多重因素例如节假日、生产周期等等因素影响的客户。图5(a)-图5(d)展现的是不同行业的综合日负荷曲线,根据相关研究资料可以判断出图5(a)表示的是市政生活类的用电负荷曲线,图5(b)表示的是第三产业的综合日负荷曲线,图5(c)和图5(d)分别表示重工业和轻工业的综合日负荷曲线。表2展现的是不同负荷特性指标的聚类结果,类一中含有较小的季不平衡系数,说明该类用户对季节因素比较敏感,主要包含一些轻工业用户;类二中类平均负荷率较小,说明该类用户主要指的是公共事业单位等低能耗用户;类三用电模式中负荷利用小时数和负荷密度比较大,主要指的是重工业等高能耗用户。表2负荷特性指标聚类结果通过在子空间上的聚类,用户的用电模式总共可以分为3×4×4×3=144种,并将所有用户划分为144个群体,实际中划分的群体主要有50个,含有96%的用户,原因在于通过日负荷曲线划分得到的不同行业群体与月用电聚类划分得到的不同用户群体具有重叠性,从而导致用电模式减少,例如通过日负荷曲线聚类得到的重工业分类,该类的月负荷曲线是稳定型的,出现在双峰型和多峰型的分类中的样例极少,因此可以忽略。在此基础上,通过各个群体用户的关联因素平均互信息,并选取排名前15的关联因素,将这15种关联因素数据的月数据作为输入,月用电量作为输出,建立样本集,通过bootstrap方法从数据集中选取m个训练样本子集,分别构建成多元线性回归模型,剩余的数据作为测试集对该预测模型进行误差测试,图6展示的是综合不同用电模式下不同数目回归模型的预测误差,采用mape值进行衡量,多元回归模型越多预测误差越小。通过回归模型进行预测可以得到月度用电量预测值,为比较本实施例提出的电量预测算法的预测效果,在同样的训练数据上与支持向量机预测模型(svm)和随机森林算法(rf)进行比较,结果如表3所示,展现的随机抽取的一个用户群体中在6个月中预测值与真实值的平均绝对误差值,可以明显的看出,本实施例所提出的算法的绝对百分误差以及平均绝对误差均优于所对比的算法,说明本实施例所提算法具有更高的精度。表3预测结果对比分组svm(%)rf(%)本文算法(%)12.382.262.1723.592.492.3235.522.972.6844.321.821.1652.772.321.6364.163.673.59mape(%)3.792.582.26为进一步验证本文算法的有效性,对50个用户群体进行预测建模,效果对比如图7所示,本文算法的整体效果优于所对比的算法,原因在于通过子空间上的聚类使用户群体划分更加细化,不同群体用户的关联因素选取更加准确,从而提升了算法的预测效果。实施例2本实施例提供一种基于用电特性聚类的线性回归电量预测系统,包括:聚类模块:用于对用电客户数据在多个维度上分别采用ap自动聚类算法进行聚类,得到多种聚类结果;用户分类模块:用于将聚类结果任意组合得到不同的用户用电模式,将用电客户按照用电模式的不同进行分类,获得不同的用户群体;强关联因素确定模块:用于针对不同的用户群体,采用互信息理论确定影响每个用电群体用电行为的强关联因素;用电预测模型构建模块:用于根据群体的用户用电数据和影响本群体用电的强关联因素,分别针对每个的用户群体建立对应的多元线性回归模型,根据建立的多元线性回归模型建立用电预测模型;预测模块:用于采集每个用户群体的强关联因素数据输入对应的多元线性回归模型,对各用户群体的用电数据进行预测。实施例3本实施例提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1方法所述的步骤。实施例4本实施例提供一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1方法所述的步骤。以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1