一种基于数据挖掘技术的公共建筑用电异常判别方法与流程

文档序号:15984239发布日期:2018-11-17 00:42阅读:187来源:国知局

本发明涉及一种基于数据挖掘技术的公共建筑用电异常判别方法。

背景技术

在经济全球化、全球变暖的大背景下,日益严重的能源形势得到了世界各地的高度重视。中国是世界上最大的发展中国家,近年来急剧增长的用电与资源相对短缺之间的矛盾严重制约了国家的发展。能源是经济社会发展的原动力,为了推动节能技术的进步,提高能源的利用效率,促进能源节约和优化用能结构,建设“资源节约型、环境友好型”两型社会,国家和各级省市政府相继出台了多项节能政策、法规,逐步形成具有中国特色的节能长效机制和管理体制。

在线监测企业的水、电、油、气、热等能源的生产和使用情况,准确把握同一行业单位产品的平均用电水平,是政府科学地制定行业节能减排目标的重要依据。通过对企业及公用建筑等用能单位进行用电监测和能效评估,既可以帮助用能单位查找出自身耗能方面的缺口,让其在节能减排中有的放矢,不为了达到国家的节能目标而地拉闸限电,又为政府管理部门核定节能效益提供科学依据。

工业用户及公共建筑的节能评估是一项复杂的系统工程,涉及国家节能相关法律、法规,行业节能设计标准,用能工艺、产品、设备选用,节能技术的适宜性等各个方面。除了一系列工程问题、技术问题之外,还包含管理决策等问题。在各个系统的节能评估和审查过程中,需要采用科学的评估方法进行分析。现行的主要评估方法包括标准对照法,类比工程分析法,专家经验判断法和单位面积指标法等。上述方法大都主观性较强,同时更侧重于从用能系统规划建设的角度进行分析,与其实际运行情况关联不大。目前应用的节能评估平台大都处于数据采集和统计展示的初级阶段,针对实时用能信息进行挖掘算法的研究工作开展不多。

随着我国节能评估平台的建设推广,将会收集大量的用电数据,如何快速有效地从中分析挖掘出有价值的信息,进而发现用能单位的节能潜力,提出有效节能建议,对于提高能源资源利用效率,保障社会的可持续发展具有重要意义。

随着大数据时代的到来和我国节能评估平台的建设推广,将会有海量的用电数据,方便利用数据挖掘技术对其进行分析并提出节能方案。深入开展高耗能企业电力能效监测和评估工作,一方面管理部门可以完善电能管理体系,充分挖掘节能潜力,采取有针对性的节能对策和措施,推动企业的节能减排工作。另一方面企业也可以深入了解自身存在的用电问题,针对这些问题实施具体节能措施,进一步根据成本效益分析,做出未来的用能行为规划,以达到企业和社会双赢目标。

传统的节能评估与异常监测方法存在用电异常阈值难以确定和不能动态适应季节、气候、地区环境特征等因素的问题。目前也有一些智能监测方法,但往往只是基于历史数据对用电进行静态分析。



技术实现要素:

本发明的目的是为了克服现有技术的不足,提供一种基于数据挖掘技术的公共建筑用电异常判别方法,其对用电模式进行聚类分析并对未来的用电数据进行实时模式识别,可以实现对用户用电的异常监测,同时实现对用能数据价值的有效发掘与充分利用,并提高企业节能决策理论水平。

实现上述目的的一种技术方案是:一种基于数据挖掘技术的公共建筑用电异常判别方法,包括下列步骤:

s1,对历史用电数据库中的缺失数据和超出阈值范围的数据用对应字段平均值进行替代,并根据用户历史小时最高用电负荷x和用户历史小时平均用电负荷y建立特征向量[x,y],每个用户每个小时对应一个特征向量[x,y];

s2,对所有特征向量[x,y]进行k-means聚类分析,找到每个特征向量对应的聚类中心,每个聚类中心对应一个用电模式;

s3,根据基于cart算法的决策树,找到每个用电模式与其它用电模式的最优分裂属性以及最优分裂属性值,建立用电模式识别模型;

s4,用电异常监测步骤,采集用户实时小时最高用电负荷x和用户实时小时平均用电负荷y,建立每个用户所对应的实时特征向量[x,y],根据所述用电模式识别模型,确定所述实时特征向量[x,y]所对应的用电模式,用局部离群因子检测方法判定该实时特征向量[x,y]的离群程度,根据离群程度确定该实时特征向量[x,y]所对应的用户是否为用电异常用电户。

进一步的,s2步骤中,先对所有特征向量[x,y]进行规范化,得到规范化特征向量z=[zx,zy],再对规范化特征向量z=[zx,zy]进行k-means聚类分析,规范化的公式为:

μ(x)和μ(y)分别代表任一历史采集时间点,所有用户的用户历史小时最高用电负荷的平均值和所有用户的用户历史小时平均用电负荷的平均值,σ(x)和σ(y)分别代表该历史采集时间点,所有用户的用户历史小时最高用电负荷的标准差和所有用户的用户历史小时平均用电负荷的标准差;

s4步骤中先对所述实时特征向量[x,y]进行规范化,得到实时规范化特征向量z=[zx,zy],再用局部离群因子检测方法判定所述实时规范化特征向量z=[zx,zy]离群程度;其中μ(x)和μ(y)分别代表所有用户的用户实时小时最高用电负荷的平均值和所有用户的用户实时小时平均用电负荷的平均值,σ(x)和σ(y)分别代表所有用户的用户实时小时最高用电负荷的标准差和所有用户的用户实时小时平均用电负荷的标准差。

再进一步的,s2步骤中对规范化特征向量z=[zx,zy]进行k-means聚类分析的具体步骤为:

s21,在以用户小时最高用电负荷为横坐标,用户小时平均用电负荷为纵坐标的直角坐标系中,拾取k个聚类中心ui(j),其中j=0,i=1,2,……,k;

s22,选取n个规范化特征向量,记为zt,其中t=1,2,……,n,计算每个zt到每个聚类中心ui(j)的欧式距离;

s23,找出关于每个zt最小欧式距离的聚类中心ui(j),zt进入该聚类中心所对应的簇,并将每个簇的几何中心记为新聚类中心ui(j+1);

s24,计算所有zt关于与其所在簇对应的新聚类中心ui(j+1)的欧式距离的平方误差ej,判定平方误差ej是否在设定值范围内;

s25,若平方误差ej在设定值范围内,则输出当前所有的聚类中心ui(j+1),以及对应簇内的所有规范化特征向量zt,每个聚类中心作为一个用电模式;

s26,若平方误差ej不在设定值范围内,则令j=j+1,并返回步骤s23。

更进一步的,s3步骤中对由规范化特征向量zt,其中t=1,2,……,n,所构成的样本集s,以gain_gini的值最小的属性与属性值作为最优分裂属性以及最优分裂属性值。

还要进一步的,对于样本集s,

其中oi表示分类结果中第i个用电模式出现的概率;

根据用户历史小时最高用电负荷将样本集s划分成两部分,gain_gini计算如下:

最优二分方案为

还要进一步的,对于样本集s,

其中oi表示分类结果中第i个用电模式出现的概率;

根据用户历史小时平均用电负荷将样本集s划分成两部分,gain_gini计算如下:

最优二分方案为

再进一步的,对于任意一个对象p,即一个实时规范化特征向量z=[zx,zy];

将p的k距离记作k-distance(p),在样本集s中,存在对象o,对象p相对于对象o的可达距离为:

reachdist(p,o)=max{k-distance(o),||p-o||};

则对应p的局部可达密度为:

局部离群点因子定义如下:

若lofk(p)的值大于阈值,则判定该实时规范化特征向量所对应的用户用电异常。

进一步的,s1步骤、s2步骤和s3步骤定期重复进行。

采用了本发明的一种基于数据挖掘技术的公共建筑用电异常判别方法的技术方案,包括下列步骤:s1,对历史用电数据库中的缺失数据和超出阈值范围的数据用对应字段平均值进行替代,并根据用户历史小时最高用电负荷x和用户历史小时平均用电负荷y建立特征向量[x,y],每个用户每个小时对应一个特征向量[x,y];s2,对所有特征向量[x,y]进行k-means聚类分析,找到每个特征向量对应的聚类中心,每个聚类中心对应一个用电模式;s3,根据基于cart算法的决策树,找到每个用电模式与其它用电模式的最优分裂属性以及最优分裂属性值,建立用电模式识别模型;s4,用电异常监测步骤,采集用户实时小时最高用电负荷x和用户实时小时平均用电负荷y,建立每个用户所对应的实时特征向量[x,y],根据所述用电模式识别模型,确定所述实时特征向量[x,y]所对应的用电模式,用局部离群因子检测方法判定该实时特征向量[x,y]的离群程度,根据离群程度确定该实时特征向量[x,y]所对应的用户是否为用电异常用电户。其技术效果是:可以对不同的用电模式进行识别,对建筑的用电情况有更直观的认识;可实时判断用电异常,及时进行通报,便于相关人员及时得知用电异常,避免电能浪费,达到节能目的;使用方式较为简便,在工程实际中,具有广泛的适用性。

附图说明

图1为本发明的一种基于数据挖掘技术的公共建筑用电异常判别方法的流程图。

具体实施方式

请参阅图1,本发明的发明人为了能更好地对本发明的技术方案进行理解,下面通过具体地实施例,并结合附图进行详细地说明:

本发明的一种基于数据挖掘技术的公共建筑用电异常判别方法包括下列步骤:

s1,数据预处理步骤,包括:

错误数据处理步骤:

对历史用电数据库中的缺失数据和超出阈值范围的数据用对应字段平均值进行替代。

数据规范化步骤:

从历史用电数据库中提取特征向量[x,y],其中,x代表用户历史小时最高用电负荷,y代表用户历史小时平均用电负荷。每个用户每个小时都生成一个对应的特征向量[x,y]。

对每个特征向量进行规范化,得到规范化特征向量z=[zx,zy],规范化的公式为:

其中z=[zx,zy]代表规范化特征向量,μ(x)和μ(y)分别代表任一历史采集时间点,所有用户的用户历史小时最高用电负荷的平均值和所有用户的用户历史小时平均用电负荷的平均值,σ(x)和σ(y)分别代表该历史采集时间点,所有用户的用户历史小时最高用电负荷的标准差和所有用户的用户历史小时平均用电负荷的标准差。

s2,用电数据聚类分析步骤:

对规范化特征向量z=[zx,zy]进行k-means聚类分析。k-means聚类算法简洁高效,在多种场景下表现出高性能,具体步骤如下:

s21,在以用户小时最高用电负荷为横坐标,用户小时平均用电负荷为纵坐标的直角坐标系中,拾取k个聚类中心ui(j),其中j=0,i=1,2,……,k;

s22,选取n个规范化特征向量z=[zx,zy],记为zt,其中t=1,2,……,n,计算每个zt到每个聚类中心ui(j)的欧式距离;

s23,找出关于每个zt最小欧式距离的聚类中心ui(j),zt进入该聚类中心所对应的簇,并将每个簇的几何中心记为新聚类中心ui(j+1);

s24,计算所有zt关于与其所在簇对应的新聚类中心ui(j+1)的欧式距离的平方误差ej,判定平方误差ej是否在设定值范围内;

s25,若平方误差ej在设定值范围内,则输出当前所有的聚类中心ui(j+1),以及对应簇内的所有规范化特征向量zt,每个聚类中心作为一个用电模式;

s26,若平方误差ej不在设定值范围内,则令j=j+1,并返回步骤s23。

s3,建立用电模式识别模型:

根据每个规范化特征向量zt以及每个规范化特征向量zt所对应的时间,基于cart算法的决策树进行分类。cart分类树选择gain_gini的值最小的属性与属性值作为每个用电模式与其它用电模式进行最优分裂属性以及最优分裂属性值。gain_gini的值越小,说明二分后子样本的“纯净度”越高,即说明选择该属性值作为分裂属性值的效果越好。

对于由规范化特征向量zt所构成的样本集s,gini计算式如下:

oi表示分类结果中第i个用电模式出现的概率。

对于含有n个样本的样本集s,根据用户历史小时最高用电负荷将样本集s划分成两部分,则划分成两部分之后,gain_gini计算如下:

或对于含有n个样本的样本集s,根据用户历史小时平均用电负荷将样本集s划分成两部分,则划分成两部分之后,gain_gini计算如下:

对于样本集s,计算所有属性的最优二分方案并选取其中最小值,作为样本集s的最优二分方案:

即:或者

即为样本集s的最优分裂属性以及最优分裂属性值。

s4,建立用电异常监测模型,具体方法为:

基于用电模式识别模型,对实时采集的用电数据,即用户实时小时最高用电负荷x和用户实时小时平均用电负荷y,进行用电模式判别,再和相同用电模式的历史数据利用lof算法进行离群点检测分析,从而判定用电是否异常。另外,在一定周期时间,比如一个月后,诸多因素发生变化,有必要对决策树进行重建,即重新进行s1步骤、s2步骤和s3步骤。

lof算法即局部离群因子检测方法,是基于密度的离群点检测方法中比较有代表性的算法。

对象p,即任意一个用户的用户实时小时最高用电负荷x和用户实时小时平均用电负荷y所构成的特征向量[x,y],经过规范化后得到的实时规范化特征向量z=[zx,zy],其中找到实时规范化特征向量z=[zx,zy]所对应的用电模式,即根据s3步骤中建立的用电模式识别模型,确定z=[zx,zy]所对应的簇。

μ(x)和μ(y)分别代表所有用户的用户实时小时最高用电负荷的平均值和所有用户的用户实时小时平均用电负荷的平均值,σ(x)和σ(y)分别代表所有用户的用户实时小时最高用电负荷的标准差和所有用户的用户实时小时平均用电负荷的标准差。

对象p的k距离记作k-distance(p),在该簇中,存在对象o,其与对象p之间的距离记作d(p,o),k-distance(p)=d(p,o);

即k-distance(p)=max|||p-o|||。

与对象p之间距离小于等于k-distance(p)的对象集合称为对象p的第k距离邻域,记作:nk(p)。显然,离群度越大的对象的范围往往比较大,而离群度比较小的对象范围小。

对象p相对于对象o的可达距离为:

reachdist(p,o)=max{k-distance(o),||p-o||};

如上式所示,若对象p远离对象o,则两者之间的可达距离就是它们之间的实际距离;但若两者足够近,则实际距离用o的k距离代替。

局部可达密度为:

局部离群点因子,表征了对象p的离群点的程度,定义如下:

如果对象p不是局部离群点,则lof(p)接近于1。即对象p是局部离群点的程度较小,对象o的局部可达密度和对象p的局部可达密度相似,最后得出的lof(p)值应该接近1。反之,对象p是局部离群点的程度越大,lof(p)值越高。通过这种方式在样本空间数据分布不均匀的情况下也可以准确发现离群点,将与离群点对应的用户列为用电异常的用户。

本发明的一种基于数据挖掘技术的公共建筑用电异常判别方法基于节能评估平台中采集的用户用能数据,研究数据清洗与挖掘方法,对用电模式进行聚类分析并对未来的用电数据进行实时模式识别,可以实现对用户用电的异常监测,同时实现对用能数据价值的有效发掘与充分利用,并提高企业节能决策理论水平。

本发明一种基于数据挖掘技术的公共建筑用电异常判别方法具有如下有益效果:可以对不同的用电模式进行识别,对建筑的用电情况有更直观的认识。可实时判断用电异常,及时进行通报,便于相关人员及时得知用电异常,避免电能浪费,达到节能目的。使用方式较为简便,在工程实际中,具有广泛的适用性。

本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求书范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1