一种居民用电行为聚类中的特征优选方法及系统与流程

文档序号:22741624发布日期:2020-10-31 09:25阅读:189来源:国知局
一种居民用电行为聚类中的特征优选方法及系统与流程
本发明涉及的
技术领域
,尤其涉及一种居民用电行为聚类中的特征优选方法及系统。
背景技术
:近年来,随着我国用电信息采集系统的快速发展,电力系统中的智能电表得到广泛应用,电力公司可获取的用户用电数据已成海量趋势,因此,基于海量用电数据的用户用电行为聚类分析变得日益重要。为了实现用电数据的处理与分析,需要从大量数据中提取相应的特征,利用用电特征进行聚类,实现数据分析,而数据越多,数据处理的时间及计算的复杂程度就越高,同时聚类效果也越难保证在传统的针对用户用电行为的研究当中,并未提出如何选择特征,即进行聚类的特征集并没有进行优选,这对待分析的用户负荷的有效性还并未确定,有待验证。并且对于居民用户负荷来说,不仅受到常规使用的受负荷率、日峰谷差率等典型用电特征的影响,还受温度、雨水、压强等典型气象特征因素的影响。因此,传统方法仅基于常用用电特征进行聚类分析的方式,数据计算量大且准确性不够,有待改进。技术实现要素:本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。鉴于上述现有存在的问题,提出了本发明。因此,本发明解决的一个技术问题是:提出一种居民用电行为聚类中的特征优选方法,能够对原始特征进行筛选,从而降低分析时的计算量并提高分析准确性。为解决上述技术问题,本发明提供如下技术方案:一种居民用电行为聚类中的特征优选方法,包括,采集数据并构建原始特征集;构建评价函数;基于评价函数对原始特征集进行筛选;对密度峰值算法进行改进;基于改进的密度峰值算法进行聚类分析。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:所述原始特征集包括用电特征和气象特征,用电特征还包括峰谷特性变化指标、用电特征变化指标和日用电特征指标;气象特征还包括平均温、最高温、最低温、雨水、风向、风速、压强和湿度。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:所述评价函数的构建包括轮廓系数指标,其计算公式为,其中,i为原始数据集x中的一个样本,a(xi)表示xi到同一簇内其他对象之间的平均距离,b(xi)表示xi到其余类簇的最小平均距离。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:所述评价函数还包括贝叶斯信息准则函数,其计算公式为,其中,k为聚类模型中聚类簇的个数,n为样本的数量,为似然函数,其公式为,其中,sc和sc*分别为聚类评价指标的最优值及实际输出的评价指标值。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:所述评价函数还包括相关系数ρxy,其计算公式为,其中,cov(x,y)为特征x与y的协方差,σx和σy分别为特征x与y的标准差,ρxy的取值范围为[-1,1]。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:所述评价函数的公式为,其中,z(x)为特征x的评价值,b'(x)为特征x进行归一化后的贝叶斯信息准则值,ρxy为相关系数。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:述最优特征子集通过特征优选进行构建,特征优选还包括,计算原始特征库x中各特征的评价值;筛选特征构成最优特征子集y;计算最优特征子集y的评价值r;评价值r是否小于设定阈值,若小于则输出最终的最优特征子集y。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:所述评价值r的计算公式为,其中,评价值r为原始特征库x中最优特征的评价值与最优特征子集y的评价值的比值,当r小于设定阈值时停止选择。作为本发明所述的居民用电行为聚类中的特征优选方法的一种优选方案,其中:所述改进的密度峰值算法包括以下步骤,根据聚类评价指标sc,利用布谷鸟搜索算法对截断距离进行优化;利用异常值检测的思想,采用高斯分布实现聚类中心的自动选择。本发明解决的另一个技术问题是:提出一种居民用电行为聚类中的特征优选系统,使上述方法能够依托于该系统实现。为解决上述技术问题,本发明提供如下技术方案:一种居民用电行为聚类中的特征优选系统,包括,采集模块,所述采集模块用于采集和构建原始特征集;筛选模块,所述筛选模块能够构建评价函数并对原始特征集数据进行筛选;聚类分析模块,所述聚类分析模块对筛选后的数据进行聚类。本发明的有益效果:通过对用电特征和气象因素特征共同构成的原始特征集的优选,构成能够实现较好效果的计算量最少的最优特征子集并进行聚类分析,从而完成用户用电模式的分类研究,通过优选合适样本用户集的用电特征集,不仅能大大减少分析时所需计算的数据,降低计算量,同时能有效地提高分析性能。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:图1为本发明第一种实施例所述居民用电行为聚类中的特征优选方法的整体流程示意图;图2为本发明第一种实施例所述构建最优特征子集流程示意图;图3为本发明第一种实施例中实验的特征挑选过程的准确率变化趋势图;图4为本发明第二种实施例所述居民用电行为聚类中的特征优选系统的整体结构示意图。具体实施方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。实施例1参照图1的示意,示意为一种居民用电行为聚类中的特征优选方法的流程示意图,该方法具体包括以下步骤,s1:采集数据并构建原始特征集。其中,所述原始特征集包括用电特征和气象特征,用电特征还包括峰谷特性变化指标、用电特征变化指标和日用电特征指标;气象特征还包括平均温、最高温、最低温、雨水、风向、风速、压强和湿度。采集过程可以通过居民电表和气象网站等获取数据。具体的,参照下表1所示,用电特征为居民用电负荷的相关特征指标,峰谷特性变化指标包括峰期负载率、平期负载率和谷期负载率;用电特征变化指标包括负荷率、峰谷差和峰谷差率;日用电特征指标是以日为单位表述用电特征的指标,包括日用电负荷、日平均负荷、日最大负荷和日最小负荷。表1:用电特征指标表1定义中的p代表用电负荷,peak、fl、val分别表示峰期、平期、谷期,sum、av、max、min分别代表负荷总值、均值、最大值和最小值。气象因素也是影响用户用电行为的隐藏特征,通常有气温、降水、湿度、风力等影响,典型的气象因素特征参照下表2所示,表2:用电特征指标本实施例在研究用户用电行为时,同时考虑用电特征和气象特征的综合影响,共18个特征指标,构建原始特征集x。s2:构建评价函数对原始特征集进行筛选。由于特征指标种类多、采集到的数据量大,因此要对原始特征集x中的特征进行优选,本实施例通过构建评价函数的方法进行最优特征选择。本实施例中基于轮廓系数指标、bic信息准则和相关系数构建新的评价函数,所述轮廓系数指标,其中,轮廓系数指标用于评估聚类效果,将原始特征集x分为j个类簇,c={c1,c2,...,cj},则原始特征集x中的某一样本i的轮廓系数指标计算公式为,其中,i为原始数据集x中的一个样本,a(xi)表示xi到同一簇内其他对象之间的平均距离,b(xi)表示xi到其余类簇的最小平均距离。基于信息量的贝叶斯信息准则用于评价特征的有效性,其计算公式为,其中,k为聚类模型中聚类簇的个数,n为样本的数量,为似然函数,其公式为,其中,sc和sc*分别为聚类评价指标的最优值及实际输出的评价指标值。相关系数ρxy用来表征两个特征间的关联程度,其计算公式为,其中,cov(x,y)为特征x与y的协方差,σx和σy分别为特征x与y的标准差,ρxy的取值范围为[-1,1],ρxy的绝对值越接近于1,则说明二者的相关性越大。所述评价函数的公式为,其中,z(x)为特征x的评价值,b'(x)为特征x进行归一化后的贝叶斯信息准则值,ρxy为相关系数。s3:选择符合条件的数据构成最优特征子集。由于原始特征集x中的每个特征对聚类分析的影响效果是不同的,并且在分析过程中有些特征所提供的信息可能存在重复和冗余。因此对原始数据集进行优选,选择有效的特征指标去映射用电数据,得到最优特征子集再进行聚类分析,既能够除去多余的特征指标,简化计算,又能够提高分析性能。为了得到最优特征子集,既需要考虑特征的有效性,又需要考虑各特征之间的互补性。本实施例综合考虑特征的有效性及各特征间的相关性构建进行特征优选的评价函数,所述特征优选还包括以下步骤,计算原始特征库x中各特征的评价值;筛选特征构成最优特征子集y;计算最优特征子集y的评价值r;评价值r是否小于设定阈值,若小于则输出最终的最优特征子集y。具体的,原始特征库中的各特征利用此评价函数进行计算时,评价值越小,则说明该特征对用电行为分析影响越大,效果越好。进行特征挑选时,要从原始特征集x中选出评价值较小的特征构成最优特征子集。特征优选过程具体如下:首先计算出原始特征库中各特征的评价值,然后利用启发式序列前向搜索法对特征进行逐个选取,从空集开始,每次挑选出评价值最小的特征放入最优特征子集中,直到最优特征子集满足停止条件。构建最优特征子集y的流程图如图2所示。所选出的特征可以表示为:y=argmin{z(x)}最优特征子集y的评价集可以表示为:其中,z(y)为最优特征子集y的评价值,其为该子集中所有特征的评价值之和。特征挑选终止的判别条件为,原始特征库x中所剩余特征的有效性远小于其所带来的冗余性时则停止选择,即需要计算评价值r,所述评价值r的计算公式为,其中,评价值r为原始特征库x中最优特征的评价值与最优特征子集y的评价值的比值,当r小于设定阈值时停止选择。s4:对密度峰值算法进行改进;s5:基于改进的密度峰值算法进行聚类分析。由于传统的密度峰值算法冗余性较大,人为选择聚类中心也包含了主观性,因此基于上述不足,本文提出了改进的密度峰值法,主要工作为包括根据聚类评价指标sc,利用布谷鸟搜索算法对截断距离进行优化;以及利用异常值检测的思想,采用高斯分布实现聚类中心的自动选择。具体的,利用布谷鸟优化的密度峰值聚类算法还包括以下步骤,初始化种群;运行cfsfdp聚类算法,得到sc指标;保留当前的sc指标为最优;计算下一代对应的sc指标,若优于上一代,则将此时的dc值保留至下一代,否则原来的dc值保持不变;产生随机数p,将其与被发现概率pa做比较,若大于pa则更新,否则保持不变;若保持当前最优解不变或者满足了最大迭代次数,则输出相应的sc指标和截断距离dc,算法结束,否则转到该算法的第二步。本实施例中利用正态分布作为异常值检测的模型,实现自动确定聚类中心,还包括以下步骤,计算出每个数据点的局部密度ρ和距离δ,并将其标准化;计算出每个数据点的簇中心权值γ,计算公式如下,γ=ρ′δ′其中,ρ'和δ'分别为标准化后的局部密度ρ和距离δ。根据下式计算每个数据点的均值和方差,根据3σ原则,确定异常点,即自动选择出聚类中心。场景一:为了验证本实施例中所述居民用电行为聚类中的特征优选方法的实际效果,选用5类典型日负荷曲线共515条,每类各103条进行聚类分析实验,利用分类的准确率来衡量聚类效果的好坏。本实验在单台cpu为2.6ghz,内存为16gb,操作系统64位的个人计算机上完成,并使用matlabr2018a进行算法测试。首先根据提出的特征优选策略,对原始特征集进行挑选。最优特征子集从空集开始,依次挑选评价值最小的特征。首先,进行第一次特征挑选时,计算各特征指标的评价值,如下表1所示。表1:第一次特征挑选时各指标的评价值特征编号123456评价值3.99e-111.21e-091.84e-167.91e-112.39e-103.07e-10特征编号789101112评价值03.07e-097.51e-103.30e-115.24e-097.05e-09特征编号131415161718评价值6.90e-098.98e-231.85e-203.57e-246.12e-092.15e-17特征挑选时,应选择评价值最小的特征放入最优特征子集中,根据表1,第一次应选择评价值最小的日用电负荷,即编号7。接着,进行第二次特征挑选,过程与第一次类似,只是已挑选出来的日用电负荷特征不需要再进行评价值的计算,其余各特征指标的评价值,如下表2所示。表2:第二次特征挑选时各指标的评价值特征编号123456评价值6.32e-091.42e-081.39e-082.76e-217.04e-169.31e-10特征编号789101112评价值/1.36e-087.27e-231.67e-158.98e-202.47e-10特征编号131415161718评价值9.59e-111.27e-101.04e-083.07e-093.37e-117.55e-10与第一次挑选类似,选择评价值最小的特征,根据上表2,日最大负荷,即编号9被挑选出来,此时,特征优选子集由日用电负荷和日最大负荷两个特征构成。第三次、第四次等后续的特征挑选与上述过程类似,这里不再进行赘述。最终,通过本实施例提出的特征优选方法,特征挑选的顺序依次为编号7,9,4,11,5,10,17,13,14,12,18,6,2,16,15,8,3,2,如果按照此顺序依次挑选特征至最优特征子集中,进行聚类分析时准确率的变化趋势如下图3所示。利用本实施例提出的特征优选方法,当选择了7个特征后满足终止条件,不再进行选择,最终选出的最优特征子集为编号7,9,4,11,5,10,17的特征。并且从图3中可以看出,随着最优特征子集中所选特征的增加,聚类分析的准确率逐渐上升,但是当特征数达到7时,继续增加特征,此时聚类准确率出现了下降。因此可以看出,采用本实施例所提的特征优选策略选择出的特征,进行聚类分析时可以得到有效可靠的结果。另外,为了验证本实施例特征优选方法中改进的密度峰值算法进行聚类,与传统的基于欧氏距离的密度峰值进行聚类的效果差异,表3:不同方法性能对比表3可知,对最优特征子集,采用本实施例提供的改进密度峰值法进行聚类分析,在保持时间性能的基础上提高了聚类准确率。实施例2参照图4的示意,示意为本实施例提出的一种居民用电行为聚类中的特征优选系统的原理结构示意图,上述实施例提出的居民用电行为聚类中的特征优选方法能够依托于该系统实现。具体的,该系统包括采集模块100、筛选模块200和聚类分析模块300,其中,采集模块100用于采集和构建原始特征集;筛选模块200能够构建评价函数并对原始特征集数据进行筛选;聚类分析模块300对筛选后的数据进行聚类。应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1