一种基于机器学习的大规模电力异常数据检测方法及系统与流程

文档序号:19221045发布日期:2019-11-26 02:08阅读:1185来源:国知局
一种基于机器学习的大规模电力异常数据检测方法及系统与流程
本发明涉及电力数据检测领域,尤其是一种基于机器学习的大规模电力异常数据检测方法及系统。
背景技术
:智能电网与人工智能碰撞的基础在于数据,在这一方面,作为采集用户实时用电信息的基础平台、以电网用户数据“全覆盖”为建设目标的用电信息采集系统提供了充分的数据保证。然而在数据采集过程中,由于设备通讯过程中数据丢失等原因,不可避免地会发生所采集数据错误或缺失等现象。因而,对采集数据的有效性和准确性进行判断和处理,成为了计量工作中最关键的一步。在一定程度上只有保证采集数据的稳定和可靠,才能支持基于采集大数据的上层应用,如合理地分析和了解电力客户的用电情况。因此,对错误的采集数据进行检测,对缺失的数据进行补全具有重要的实际意义。例如“用电信息采集中电能计量数据异常分析”,刘晓湘,邵强,陈颖心,王志新,《科技与企业》,2015年第17期;“用电信息采集系统电能计量数据异常原因分析”,王登学,《科技传播》,2016年第11期;以及“针对计量测试中异常数据剔除方法的探讨”,孙飞,丁成,《黑龙江科技信息》,2015年第32期;这些文献研究了造成电能采集数据异常的原因,如包括各类事件引起的电量波动、数据量急剧增加、数据传递和处理速度加快等,并针对电压电流、功率因数、开关信号等不同类型的数据提出了检测方法。然而,一方面这些方法多数停留在定性未定量的阶段,另一方面已有工作未能提出对通用类型的数据异常进行有效检测的方法。技术实现要素:本发明所要解决的技术问题是克服上述现有技术存在的缺陷,提供一种基于机器学习的大规模电力异常数据检测方法,其通过提取多种特征作为输入,使用代价敏感的多层感知机神经网络模型进行采集异常数据的判别,以对通用类型的数据异常进行有效检测。为此,本发明采用如下的技术方案:一种基于机器学习的大规模电力异常数据检测方法,其包括步骤:1)输入待检测的用户数据记录;2)提取用户数据的相关特征;3)将特征输入多层感知机神经网络模型;4)输出检测概率,并基于最小化损失函数调整多层感知机神经网络模型参数。进一步地,步骤2)中,所述的特征包括当日电量、多日电量平均值/方差、电量稳定值和电量平衡值。进一步地,步骤3)的具体内容如下:首先,给定训练数据x1,x2,…,xi…,xn,其中xi表示第i条记录对应的特征,以及对应异常标签:y1,y2,…,yi…,yn,其中,yi∈{0,1},yi表示异常状态,1表示异常,0表示正常,通过监督学习的方法学习一个映射函数f(x)=p(y=1|x),表示给定一个数据记录x其被判定为异常样本的概率;通过使用优化损失函数使其最小:min(loss(y,f(x))),其中loss函数又叫损失函数,它被用来量度两个值间的区别;针对采集异常具有其自身特点,给予正常和异常样本不同权重,损失函数被重新定义为:loss=cploss(yp,f(xp))+cnloss(yn,f(xn))上式中,cp与cn为异常样本和正常样本各自的权重,通过给予异常样本较大权重来提高其准确性,在验证时,取进一步地,步骤3)中,如果f(xi)>0.5,预测为异常。本发明还采用的技术方案为:一种基于机器学习的大规模电力异常数据检测系统,其包括:数据输入单元,用于输入待检测的用户数据记录;数据特征提取单元,用于提取用户数据的相关特征;特征输入单元,用于将特征输入多层感知机神经网络模型;检测概率输出单元,用于输出检测概率;模型参数调整单元,基于最小化损失函数调整多层感知机神经网络模型参数。本发明具有的有益效果如下:本发明采用能够探测出电力异常数据的多层感知机神经网络模型,基于海量的含有异常信息的采集数据,挖掘与数据发生采集异常存在因果关系的元素,对电力采集数据的异常状态进行探查,可以对通用类型的数据异常进行有效检测。附图说明图1为本发明检测方法的流程图;图2为本发明检测系统的原理框图。具体实施方式下面结合说明书附图和具体实施方式对本发明作进一步说明。实施例1本实施例提供一种基于机器学习的大规模电力异常数据检测方法,如图1所示,其步骤如下:1)输入待检测的用户数据记录;2)提取用户数据的相关特征;3)将特征输入多层感知机神经网络模型;4)输出检测概率,并基于最小化损失函数调整多层感知机神经网络模型参数。步骤2)中,所述的特征包括当日电量、多日电量平均值/方差、电量稳定值和电量平衡值。采集异常数据有两大特性——低频性和极端性。在数据观察的基础上,我们提出以下的特征:步骤3)的具体内容如下:首先,给定训练数据x1,x2,…,xi…,xn,其中xi表示第i条记录对应的特征,以及对应异常标签:y1,y2,…,yi…,yn,其中,yi∈{0,1},yi表示异常状态,1表示异常,0表示正常,通过监督学习的方法学习一个映射函数f(x)=p(y=1|x),表示给定一个数据记录x其被判定为异常样本的概率;通过使用优化损失函数使其最小:min(loss(y,f(x))),其中loss函数又叫损失函数,它被用来量度两个值间的区别;针对采集异常具有其自身特点,给予正常和异常样本不同权重,损失函数被重新定义为:loss=cploss(yp,f(xp))+cnloss(yn,f(xn))上式中,cp与cn为异常样本和正常样本各自的权重,通过给予异常样本较大权重来提高其准确性,在验证时,取如果f(xi)>0.5,预测为异常。实施例2本实施例提供一种基于机器学习的大规模电力异常数据检测系统,其包括:数据输入单元,用于输入待检测的用户数据记录;数据特征提取单元,用于提取用户数据的相关特征;特征输入单元,用于将特征输入多层感知机神经网络模型;检测概率输出单元,用于输出检测概率;模型参数调整单元,基于最小化损失函数调整多层感知机神经网络模型参数。实验验证1.1数据来源浙江省丽水市2017年全年用户用电记录和异常工单。1.2采样规则采样5w条由异常工单标注的计量异常记录,以及随机采样100万条正常记录。1.3验证方式将数据集按照3:1的比例分为训练集和测试集。1.4衡量指标精确度=被判定为异常实际为异常的样本数目/被判定为异常的样本数目。召回率=被判定为异常实际为异常的样本数目/实际为异常的数目。1.5基准算法说明logistics回归是常用的线性分类模型;随机森林+下采样是基于下采样的集成决策树分类器,具体来说,每个决策树分类器的训练样本包含所有异常样本和采样的同等数目的正常样本;easyensemble是一种集成adaboost分类器的不平衡分类方法。1.6实验结果方法准确率召回率f1多层感知机神经网络0.990.880.93logistics回归0.970.090.16随机森林+下采样0.870.680.76easyensemble0.840.920.88从实验结果可以发现当前算法(即本发明的检测方法)已经能较好地检测在每日的电量记录中的异常情况,并且在f1值上优于其他方法。以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
,均同理包括在本发明的专利保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1