一种基于自编码器的用户用电行为分类分析方法与流程

文档序号:32702378发布日期:2022-12-27 23:03阅读:21来源:国知局
一种基于自编码器的用户用电行为分类分析方法与流程

1.本发明属于用户用电行为分析技术领域,涉及一种用户用电行为分类分析方法,尤其是一种基于自编码器的用户用电行为分类分析方法。


背景技术:

2.近年来,随着智能电网的快速发展与信息化水平的不断提高,用户用电信息采集系统的建设趋于完善。智能电表是用电信息采集系统的基本量测设备之一,承担着电力数据的采集、计量和传输任务,同时具备简单的数据分析功能。智能电表的普及为电力公司带来海量用电数据,在此基础上对居民用电行为进行分类分析,有助于掌握更加精细化的用户用电特征,充分挖掘需求响应潜力。
3.目前,国内外学者已对用户用电行为分类分析方法开展了很多研究。例如,通过利用奇异值分解技术进行用户日负荷曲线分类的方法,具有运行时间短、鲁棒性好的优点;利用类间优化与类内优化增强了负荷数据的可分性,且具备一定的自愈优化能力;针对海量且分散性高的用户负荷数据,实现一种分布式聚类算法,显著提高了负荷曲线聚类的有效性和鲁棒性;基于模糊聚类算法与曲线相似度对负荷用户进行分类与识别,为供电公司精准服务提供依据;考虑负荷纵向随机性的基于emd的负荷聚类分析方法,从横向和纵向两个角度全面表征用户的用电行为;采用基于信息熵分段聚合近似和谱聚类的负荷分类方法,获得了良好的负荷聚类效果;利用用户用电模式数提高了短期负荷预测的准确度,为电力营销需求响应业务的快速发展提供技术支撑;采用一种特征优选策略,使用极限学习机对居民用电行为进行分类分析,并对网络参数进行优选,提高了检测的正确率。以上研究在用户用电行为分类分析方面取得了很好的效果,但并未充分考虑其方法在特定应用场景中的适用性。
4.从实际应用的角度考虑,若能将用户用电行为分类分析功能集成在智能电表中,不仅可以充分利用智能电表的数据处理能力,增加电表的智能性,还能有效提高调度人员的数据分析效率,降低人工成本。然而,受目前智能电表硬件条件的限制,高级功能集成需要考虑数据容量与计算效率。因此,在保证算法准确率的前提下,研究降低数据量并提升计算效率的用户用电行为分类分析方法,是将该功能在智能电表中进行实际应用的必要条件。
5.经检索,未发现与本发明相同或相似的已公开的专利文献。


技术实现要素:

6.本发明的目的在于克服现有技术的不足,提出一种基于自编码器的用户用电行为分类分析方法,有够有效提升分类的准确率且计算效率更高。
7.本发明解决其现实问题是采取以下技术方案实现的:
8.一种基于自编码器的用户用电行为分类分析方法,包括以下步骤:
9.s1、通过智能电表获取用户历史用电数据,进行数据清洗;
10.s2、构建基于欠完备自编码器的特征提取模型,采用迭代方式选择合适的编码比率β,采用非线性手段对步骤s1得到的智能电表数据进行编码,得到编码特征,实现对原始数据的特征抽取;
11.s3、构建特征优选评价指标,采用启发式搜索方法得到最佳的用户用电特征集合;
12.s4、构建基于bp神经网络的用户用电行为分类模型,将编码特征和最佳用电特征作为bp神经网络的训练特征,将用户实际用电类型作为训练标签,对bp神经网络进行训练;
13.s5、将待分类用户的编码特征和最佳用电特征输入到训练好的bp神经网络中,得到用户用电行为分类结果。
14.而且,所述步骤s1中的智能电表用户历史用电数据维度为48维,即数据采样频率为30min/个,每天包含48个数据点。
15.而且,所述步骤s2中的采用迭代方式选择合适的编码比率β的具体步骤包括:
16.(1)将步骤s2中的编码比率β定义为:
[0017][0018]
式中:n为原始电表数据维度,m为编码得到的特征数据维度。
[0019]
(2)采用迭代方式选择合适的编码比率β的具体步骤包括:
[0020]

根据智能电表型号确定电表的数据采集频率fc,计算出日负荷数据点的维度n,同时设置欠完备自编码器中间隐藏层单元个数m=1;
[0021]

使用欠完备自编码器对电表原始数据进行编码,获取中间隐藏层的特征数据f,将其作为bp神经网络的输入;
[0022]

按照一定的标准制定用户用电行为标签,进行网络训练,计算测试集的f1指标;
[0023]

根据m和n计算β值,记录f1指标、编码比率β和数据占用空间w;
[0024]

令m=m+1,判断m=n?若不成立,返回步骤

;若成立,流程结束。
[0025]
而且,所述步骤s3中的特征优选评价指标为:
[0026][0027][0028]
式中:j(x)为针对单个用电特征x的评价值,i'(x;c)为用电特征x与用户类别c的归一化互信息,j(y)为优选特征子集y的评价函数,j(y)为优选特征子集中特征y的评价函数,ρ
xy
为用电特征x和y的相关系数;
[0029]
所述步骤s3中的用户用电特征集合为{日最大负荷,日最小负荷,日平均负荷,日峰谷差,日峰谷差率,日负荷率,峰时耗电率,谷电系数,平段用电百分比}。
[0030]
本发明的优点和有益效果:
[0031]
1、本发明提出一种基于自编码器的用户用电行为分类分析方法,通过欠完备自编码器对原始电表数据进行特征提取,并使用反向传播(bp)神经网络进行用户用电行为分类分析。在此基础上,对最佳编码比率进行优选,并结合用户的典型用电特征,提升了分类的准确率。经实验验证,本发明设计的用户用电行为分类分析方法不仅准确率高,分类误差小,且使用数据量更少,计算效率更高,具有较高的实际工程运用价值。
[0032]
2、本发明步骤2-4所构建的基于自编码器的用户用电行为分类分析方法基于欠完
备自编码器对原始电表数据进行特征抽取,并结合用户的典型用电特征构建分类模型,同时使用隐性特征和显性特征实现特征增强与特征降维,便于降低模型训练难度,能够有够有效提升分类的准确率。
[0033]
3、本发明步骤2所构建的基于欠完备自编码器的用户用电行为分类分析方法,能够从海量数据中挖掘关键特征,能够有效减少数据维度和需要的存储空间,节约模型训练计算时间,通过减少冗余提高算法的准确度,具有较高的实际工程运用价值。
附图说明
[0034]
图1是本发明的欠完备自编码器(uae)的工作原理图;
[0035]
图2是本发明步骤2-4的用户用电行为分类分析模型流程图;
[0036]
图3是本发明的β-f1关系图。
具体实施方式
[0037]
以下结合附图对本发明实施例作进一步详述:
[0038]
一种基于自编码器的用户用电行为分类分析方法,包括以下步骤:
[0039]
s1、通过智能电表获取用户历史用电数据,进行数据清洗;
[0040]
所述步骤s1中的智能电表用户历史用电数据维度为48维,即数据采样频率为30min/个,每天包含48个数据点。
[0041]
s2、构建基于欠完备自编码器的特征提取模型,采用迭代方式选择合适的编码比率β,采用非线性手段对步骤s1得到的智能电表数据进行编码,得到编码特征,实现对原始数据的特征抽取;
[0042]
所述步骤s2中的欠完备自编码器使用python编程语言中的tensorflow、keras深度学习工具包进行构建。
[0043]
所述步骤s2中的欠完备自编码器的网络结构包括三层,分别为输入层、隐藏层和输出层,其输入层和输出层的神经元数目均为128,隐藏层的神经元数目为48*β。
[0044]
所述步骤s2中的欠完备自编码器的训练方法为:将用户的日负荷数据同时作为欠完备自编码器的输入和输出,对自编码器进行训练,由中间隐藏层实现对原始数据的特征提取。
[0045]
所述步骤s2中的采用迭代方式选择合适的编码比率β的具体步骤包括:
[0046]
(1)将步骤s2中的编码比率β定义为:
[0047][0048]
式中:n为原始电表数据维度,m为编码得到的特征数据维度。
[0049]
β值越大,可以保留更多的数据特征,但所需的存储容量越大,降低了在智能电表上的适用性;β值太小,又容易丢失掉重要的数据特征,降低了用户用电行为分类的准确率。只有选择合理的β值才能兼顾检测的正确率与数据占用的存储空间。
[0050]
(2)采用迭代方式选择合适的编码比率β的具体步骤包括:
[0051]

根据智能电表型号确定电表的数据采集频率fc,计算出日负荷数据点的维度n,同时设置欠完备自编码器中间隐藏层单元个数m=1;
[0052]

使用欠完备自编码器对电表原始数据进行编码,获取中间隐藏层的特征数据f,将其作为bp神经网络的输入;
[0053]

按照一定的标准制定用户用电行为标签,进行网络训练,计算测试集的f1指标;
[0054]

根据m和n计算β值,记录f1指标、编码比率β和数据占用空间w;
[0055]

令m=m+1,判断m=n?若不成立,返回步骤

;若成立,流程结束。
[0056]
s3、构建特征优选评价指标,采用启发式搜索方法得到最佳的用户用电特征集合;
[0057]
所述步骤s3中的特征优选评价指标为:
[0058][0059][0060]
式中:j(x)为针对单个用电特征x的评价值,i'(x;c)为用电特征x与用户类别c的归一化互信息,j(y)为优选特征子集y的评价函数,j(y)为优选特征子集中特征y的评价函数,ρ
xy
为用电特征x和y的相关系数。通过构建不同的特征集合,采用启发式搜索方法,根据特征优选评价指标可以搜索出最佳的用户用电特征集合。
[0061]
所述步骤s3中的用户用电特征集合为{日最大负荷,日最小负荷,日平均负荷,日峰谷差,日峰谷差率,日负荷率,峰时耗电率,谷电系数,平段用电百分比}。
[0062]
s4、构建基于bp神经网络的用户用电行为分类模型,将编码特征和最佳用电特征作为bp神经网络的训练特征,将用户实际用电类型作为训练标签,对bp神经网络进行训练;
[0063]
s5、将待分类用户的编码特征和最佳用电特征输入到训练好的bp神经网络中,得到用户用电行为分类结果。
[0064]
本发明的工作原理是:
[0065]
本发明提供一种基于自编码器的用户用电行为分类分析方法。首先通过智能电表获取用户历史用电数据,进行数据清洗;然后构建基于欠完备自编码器的特征提取模型,采用迭代方式选择合适的编码比率,采用非线性手段对智能电表数据进行编码,得到编码特征,实现对原始数据的特征抽取;接着构建特征优选评价指标,采用启发式搜索方法得到最佳的用户用电特征集合;最后构建基于bp神经网络的用户用电行为分类模型,将编码特征和最佳用电特征作为bp神经网络的训练特征,将用户实际用电类型作为训练标签,对bp神经网络进行训练,将待分类用户的编码特征和最佳用电特征输入到训练好的bp神经网络中,得到用户用电行为分类结果。
[0066]
实施例1
[0067]
本实施例使用爱尔兰智能电表数据集作为实验对象,利用本发明的基于自编码器的用户用电行为分类分析方法进行用户用电行为分类分析,包括以下步骤:
[0068]
s1、通过智能电表获取用户历史用电数据,进行数据清洗;
[0069]
s2、构建基于欠完备自编码器的特征提取模型,采用迭代方式选择合适的编码比率β,采用非线性手段对步骤s1得到的智能电表数据进行编码,得到编码特征,实现对原始数据的特征抽取;
[0070]
自编码器(auto-encoder,ae)是一种由编码器与解码器构成的三层神经网络无监督学习算法,经过中间隐层的非线性映射,将输入信号x编码得到一个新的信号y,再解码回到x。因此,自编码器的输入形式与输出形式几乎相同。若隐藏层的维数大于输入层,则得到
过完备自编码器。若强制限制隐层的维度小于输入维度,则可得到欠完备自编码器(undercomplete auto-encoder,uae),学习欠完备的表示将强制自编码器捕捉训练数据中最显著的特征。uae工作原理如图1所示。欠完备自编码可以很好地克服普通自编码器容易过拟合的缺陷,且中间隐藏层能够进行高效的特征抽取,但其存在的问题是由于中间隐藏层单元数特别少,导致重构过程比较困难。当只使用网络的前半部分时,可以发挥欠完备自编码器的优势,实现对智能电表数据的降维。相比传统主成分分析(principal component analysis,pca)每层之间的线性变换,欠完备自编码器采用的非线性变换可以学习到更重要、更全面的数据特征,将智能电表采集的高维原始数据降至能够保留重要特征的低维数据,有效降低电力数据的冗余度,从而减小数据所需的存储空间,提升算法的运行效率,以适应在智能电表上的应用场景。
[0071]
在使用欠完备自编码器进行编码时,编码比率β定义为
[0072][0073]
式中:n为原始电表数据维度,m为编码得到的特征数据维度。β值越大,可以保留更多的数据特征,但所需的存储容量越大,降低了在智能电表上的适用性;β值太小,又容易丢失掉重要的数据特征,降低了用户用电行为分类的准确率。只有选择合理的β值才能兼顾检测的正确率与数据占用的存储空间。
[0074]
f1指标是多分类问题中常用的评价指标,兼顾分类的准确率和召回率,其定义为:
[0075][0076]
式中:pr为准确率,其含义为预测为正的样本中,真实为正的样本所占的比率;re为召回率,其含义为真实为正的样本中,被预测为正的样本所占的比率。本发明选择f1指标作为用户用电行为分类效果的评价指标,并探究欠完备自编码器的最佳编码比率,设计方案流程如下:
[0077]
1)根据智能电表型号确定电表的数据采集频率fc,计算出日负荷数据点的维度n,同时设置欠完备自编码器中间隐藏层单元个数m=1;
[0078]
2)使用欠完备自编码器对电表原始数据进行编码,获取中间隐藏层的特征数据f,将其作为bp神经网络的输入;
[0079]
3)按照一定的标准制定用户用电行为标签,进行网络训练,计算测试集的f1指标;
[0080]
4)根据m和n计算β值,记录f1指标、编码比率β和数据占用空间w;
[0081]
5)令m=m+1,判断m=n?若不成立,返回步骤2);若成立,流程结束。
[0082]
s3、构建特征优选评价指标,采用启发式搜索方法得到最佳的用户用电特征集合;
[0083]
用户的日负荷曲线中含有一些关键用电特征,能够有效地反映出用户的用电特点,如日最大负荷、日峰谷差、日负荷率等。通过欠完备自编码器对电表数据进行特征提取,有效减小了存储容量,提高了计算效率,但牺牲了部分检测的正确率。为此,本发明结合用户的典型用电特征对模型进行优化,与编码数据共同作为bp神经网络的输入,以提升分类的准确率。
[0084]
特征优选策略(feature selection strategy,fss)是研究用电特性指标与用户用电行为密切程度的重要方法。该方法基于互信息与相关系数对用电行为特征进行了定量
分析,综合考虑了用电信息特征对分析性能的有效性和互补性,构建特征优选评价指标为
[0085][0086][0087]
式中:j(x)为针对单个用电特征x的评价值,i'(x;c)为用电特征x与用户类别c的归一化互信息,j(y)为优选特征子集y的评价函数,j(y)为优选特征子集中特征y的评价函数,ρ
xy
为用电特征x和y的相关系数。通过构建不同的特征集合,采用启发式搜索方法,根据特征优选评价指标可以搜索出最佳的用户用电特征集合。
[0088]
本发明选择的用户用电特征集合为{日最大负荷,日最小负荷,日平均负荷,日峰谷差,日峰谷差率,日负荷率,峰时耗电率,谷电系数,平段用电百分比},采用特征优选策略,从特征集合中筛选出三个典型特征,与编码数据共同作为bp神经网络的输入进行网络训练。
[0089]
s4、构建基于bp神经网络的用户用电行为分类模型,将编码特征和最佳用电特征作为bp神经网络的训练特征,将用户实际用电类型作为训练标签,对bp神经网络进行训练,算法流程如图2所示。
[0090]
s5、将待分类用户的编码特征和最佳用电特征输入到训练好的bp神经网络中,得到用户用电行为分类结果。
[0091]
作为举例,在本实施例中使用爱尔兰智能电表数据集作为实验对象,该数据集覆盖了4000多个居民用户的536组日负荷曲线,每条日负荷曲线为48个点,即电表采集频率为30分钟/次。以下为详细的实验结果:
[0092]
爱尔兰居民用户负荷分为10类,用于bp神经网络训练,分类详情见表1。
[0093]
表1爱尔兰居民用户负荷类型
[0094][0095]
对编码比率β进行优选,绘制β-f1关系图如图3所示。由图3可知,训练集和测试集的f1指标均随编码比率β的增大而增大。曲线拐点的位置约为β=0.33,在拐点之前,曲线较
为陡峭,f1值的增长较快;到达拐点后,曲线变得非常平缓,f1指标缓慢增长。因此,本发明选择0.33作为最优编码比率,使用欠完备自编码器对原始电表数据编码造成f1值的损失将通过模型优化进行补偿。
[0096]
在最佳编码比率下应用特征优选策略,得到用户典型用电特征为{日平均负荷,谷电系数,平段用电百分比},与编码数据共同作为bp神经网络的输入进行网络训练,并进行用户用电行为分类分析。
[0097]
为验证所提方法的准确性,本实施例与bp神经网络、随机森林(random forest,rf)、支持向量机(support vector machine,svm),以及bp神经网络与欠完备自编码器的组合方法进行对比,实验结果见表2,效果对比见表3。
[0098]
表2实验结果对比
[0099][0100]
表3方法效果对比
[0101][0102][0103]
注:表3内结果为本发明方法效果提升(或降低)的百分比。
[0104]
由表2和表3可知,使用原始电表数据结合bp神经网络方法进行用户用电行为分类分析的各项指标均表现较差,预测准确率和效率较低,数据占用空间较大。当对电表数据进行欠完备自编码器编码后,程序的训练时间、测试时间及数据的占用空间明显下降,但会损失部分预测准确率,在训练集和测试集上损失的准确率分别为0.99%和0.89%。随机森林(rf)方法使分类的准确性有所提升在训练集和测试集上分别为92.01%和91.85,但所需的训练时间和测试时间更久。支持向量机(svm)方法虽然训练时间和测试时间较短,但准确性没有明显提高。本发明所提方法通过欠完备自编码器与用户典型特征相结合,在训练集与测试集上的准确率分别达到94.34%和94.26,比传统bp神经网络分别提高了4.21%和4.72%,在五种方法中表现最好。同时,数据占用空间降低了64.74%,训练时间和预测时间也显著下降,分别为17.64s和0.16s。结果表明,本发明所提方法能在节约数据存储空间的
同时,能够有效提升用户用电行为分类的准确率和计算效率。
[0105]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0106]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0107]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0108]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1