基于深度学习的新能源场站不良数据辨识与修正方法与流程

文档序号:30623412发布日期:2022-07-02 05:30阅读:250来源:国知局
基于深度学习的新能源场站不良数据辨识与修正方法与流程

1.本发明属于能源数据管理领域,尤其涉及一种基于深度学习的新能源场站不良数据辨识与修正方法。


背景技术:

2.随着新能源场站建设的不断深入和推进,新能源场站数据采集呈现海量化和高维化的趋势,与此同时不良数据的问题日益突出。新能源场站实时采集数据往往出现缺失、无效、重复和错误等不良数据,不良数据通常由两种原因造成:一是新能源的电力系统故障等,如数据采集系统中某一数据通道的暂时性中断,导致数据不真实;二是由于某些大工业负荷的突发性偶然波动以及突发性不良环境等的特殊事件,使得数据会发生不规律的振荡。不良数据的存在使新能源场站的状态估计结果失真,影响电力系统运行调度和稳定运行,甚至可能会引发未知的安全后果。
3.新能源场站的各类型数据量巨大,且数据之间的关系繁多,场站、机组、环境等数据之间互相耦合,各自内部数据间也存在耦合关系。而随着现代信息技术的不断发展,人工智能被应用到了各个领域当中,其中深度学习在新能源模式识别、分类和负荷预测场景中得到了广泛应用。深度学习对时间序列的时变规律特性适应能力强对历史信息有记忆和联想功能,而且能够对海量且耦合性数据不断学习。因此,可以利用深度学习辨识和修正新能源场站的不良数据,保证新能源场站安全稳定运行。


技术实现要素:

4.为了解决现有技术中存在的缺点和不足,本发明提出了一种基于深度学习的新能源场站不良数据辨识与修正方法,包括:
5.s100:获取新能源场站中辨识对象的历史运行数据,在历史运行数据中标记出历史正常数据和历史不良数据;
6.s200:建立辨识模型,根据历史正常数据对辨识模型进行深度学习训练;
7.s300:建立修正模型,将历史不良数据输入修正模型和训练好的辨识模型中,结合辨识模型的输出对修正模型进行深度学习训练;
8.s400:获取辨识对象的实时运行数据,通过将实时运行数据输入训练好的辨识模型中,区分出实时运行数据中的实时正常数据和实时不良数据;
9.s500:将实时不良数据输入训练好的修正模型中,得到实时不良数据的修正值。
10.可选的,所述辨识对象包括风力发电参数、光伏发电参数以及新能源场站中机组的装机容量和有功功率;
11.其中,所述风力发电参数包括风速、温度、风向余弦值、湿度和压强;
12.所述光伏发电参数包括辐照强度、辐照时长和组件面积。
13.可选的,所述s200包括:
14.s210:将历史正常数据按照时序顺序分为训练数据和测试数据,初始化辨识模型
的超参数;
15.s220:将训练数据输入辨识模型中进行训练,通过辨识模型计算辨识对象在测试数据对应时序下的预测值;
16.s230:计算辨识模型的收敛精度是否满足预设阈值,所述收敛精度的计算公式为:
[0017][0018]
其中,a为收敛精度,n为预测值的总数量,x
fi
为第i个测试数据,xi为第i个预测值;
[0019]
s240:若收敛精度符合预设条件,则训练结束,否则,调整辨识模型的超参数,重复s220-s230直至收敛精度未超过预设条件。
[0020]
可选的,所述方法还包括:在s200之前对历史运行数据进行预处理,包括:
[0021]
识别历史运行数据中的缺失值,获取与缺失值属于同一类的历史运行数据,通过计算缺失值的同类均值得到缺失值的插补值,用所述插补值替代所述缺失值,所述插补值的计算公式为:
[0022][0023]
其中,ai为均值系数,当第i个输入的历史运行数据si缺失时为0,否则为1,m为同一类的历史运行数据的数据总量,为插补值。
[0024]
可选的,所述s300包括:
[0025]
s310:初始化辨识模型的超参数;
[0026]
s320:将历史不良数据输入训练好的辨识模型中,将辨识模型输出的对历史不良数据的预测值作为准确值;
[0027]
s330:将历史不良数据输入修正模型中进行训练,通过修正模型分析历史不良数据的特征,根据分析结果输出对历史不良数据的修正值;
[0028]
s340:分析修正值相对于准确值的误差程度以及误差分散程度,当分析结果符合预设条件时结束训练,否则,调整修正模型的超参数,重复s320-s330直至符合预设条件。
[0029]
可选的,所述分析修正值相对于准确值的误差程度以及误差分散程度,包括:
[0030]
通过计算修正值相对于准确值的平均绝对误差,分析所述误差程度;
[0031]
通过计算修正值相对于准确值的均方根差,分析所述误差分散程度。
[0032]
可选的,所述方法还包括:
[0033]
在执行s500的同时,选取预设比例的正常数据输入修正模型中,计算修正模型的输出值与正常数据的平均绝对误差和均方根误差;
[0034]
当平均绝对误差和均方根误差任一项不满足预设条件时,将执行s400时输入的实时运行数据作为训练数据,重新对辨识模型和修正模型进行训练。
[0035]
可选的,所述辨识模型在输出层设有求解器,所述求解器为softmax函数。
[0036]
可选的,所述求解器通过比较计算出的预测值与实际测量的实时运行数据的误差,输出实时不良数据的概率,根据所述概率输出识别出的实时不良数据以及实时不良数据所在的时序位置。
[0037]
本发明提供的技术方案带来的有益效果是:
[0038]
本发明结合深度学习建立并联合训练辨识模型和修正模型,利用得到的模型对新能源场站中采集的不良数据进行实时快速辨识和修正,可显著提高不良数据辨识和修正效率,支撑新能源电站的实时分析应用,保障新能源电站的实时安全稳定运行。
附图说明
[0039]
为了更清楚地说明本发明的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
图1为本发明实施例提出的一种基于深度学习的新能源场站不良数据辨识与修正方法的流程示意图;
[0041]
图2为神经网络的神经元数量与收敛精度之间关联性的折线图。
具体实施方式
[0042]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0044]
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0045]
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0046]
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含a、b和c”、“包含a、b、c”是指a、b、c三者都包含,“包含a、b或c”是指包含a、b、c三者之一,“包含a、b和/或c”是指包含a、b、c三者中任1个或任2个或3个。
[0047]
应当理解,在本发明中,“与a对应的b”、“与a相对应的b”、“a与b相对应”或者“b与a相对应”,表示b与a相关联,根据a可以确定b。根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其他信息确定b。a与b的匹配,是a与b的相似度大于或等于预设的阈值。
[0048]
取决于语境,如在此所使用的“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。
[0049]
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0050]
如图1所示,本实施例提出了一种基于深度学习的新能源场站不良数据辨识与修正方法,包括:
[0051]
s100:获取新能源场站中辨识对象的历史运行数据和实时运行数据,在历史运行数据中标记出历史正常数据和历史不良数据;
[0052]
s200:建立辨识模型,根据历史正常数据对辨识模型进行深度学习训练;
[0053]
s300:建立修正模型,将历史不良数据输入修正模型和训练好的辨识模型中,结合辨识模型的输出对修正模型进行深度学习训练;
[0054]
s400:通过将实时运行数据输入训练好的辨识模型中,区分出实时运行数据中的实时正常数据和实时不良数据;
[0055]
s500:将实时不良数据输入训练好的修正模型中,得到实时不良数据的修正值。
[0056]
本实施例利用深度神经网络算法对新能源发电场站采集到的历史数据进行学习和训练,得到满足精度要求的深度神经网络辨识模型;下一步向辨识模型输入实时采集到的数据,得到深度神经网络的预测值,把预测值作为准确值,并设定偏差阈值,通过将真实采集到的数据与准确值进行比较,若其超出阈值范围,则视为不良数据,最终实时辨识出采集到的不良数据。通过上述过程,利用深度学习对时间序列的时变规律特性适应能力强对历史信息有记忆和联想功能,而且能够对海量且耦合性数据不断学习,进而实现对不良数据进行实时快速辨识和修正,可显著提高不良数据辨识和修正效率,支撑新能源电站的实时分析应用,保障新能源电站的实时安全稳定运行。
[0057]
在本实施例中,所述辨识对象包括风力发电参数、光伏发电参数以及新能源场站中机组的装机容量和有功功率;其中,所述风力发电参数包括风速、温度、风向余弦值、湿度和压强;所述光伏发电参数包括辐照强度、辐照时长和组件面积。
[0058]
在本实施例中,历史运行数据和实时运行数据均通过scada系统采集获取,具体的,scada系统15分钟进行一次数据采集。因为采集到的数据可能因scada系统存在不可控的随机故障,会有一些明显的数据错误,会影响到后续训练模型精度,所以本实施例在s200之前对历史运行数据和实时运行数据进行预处理,包括:
[0059]
识别历史运行数据中的缺失值,获取与缺失值属于同一类的历史运行数据,通过计算缺失值的同类均值得到缺失值的插补值,用所述插补值替代所述缺失值,所述插补值的计算公式为:
[0060][0061]
其中,为插补值,ai为均值系数,当第i个输入的历史运行数据或实时运行数据si缺失时为0,否则为1,m为同一类的历史运行数据或实时运行数据的数据总量。
[0062]
本实施例经过数据预处理,得到样本数据集为35040个,该数据集时间跨度为1年。按照时间的连贯特性截取了最后的1000个样本数据作为实时辨识数据集,剩余的样本数据集作为历史运行数据用于构建与训练辨识模型和修正模型,并预先根据经验在历史运行数据中标记出历史正常数据和历史不良数据。
[0063]
首先对辨识模型训练,所述s200包括:
[0064]
s210:将历史正常数据按照时序顺序分为训练数据和测试数据,初始化辨识模型的超参数;
[0065]
s220:将训练数据输入辨识模型中进行训练,通过辨识模型计算辨识对象在测试数据对应时序下的预测值;
[0066]
s230:计算辨识模型的收敛精度是否满足预设阈值,所述收敛精度的计算公式为:
[0067][0068]
其中,a为收敛精度,n为预测值的总数量,x
fi
为第i个测试数据,xi为第i个预测值;
[0069]
s240:若收敛精度符合预设条件,则训练结束,否则,调整辨识模型的超参数,重复s220-s230直至收敛精度未超过预设条件。
[0070]
在本实施例中,首先设置辨识模型的超参数,包括初始网络结构、网络阈值以及权值等参数。不良数据的辨识问题本质上是个分类问题,所以辨识模型的输出层设有求解器并采用softmax函数,激活函数采用sigmoid函数。所述求解器通过比较计算出的预测值与实际测量的实时运行数据的误差,输出实时不良数据的概率,根据所述概率输出识别出的实时不良数据以及实时不良数据所在的时序位置。
[0071]
具体的,辨识模型在训练过程中,通过训练数据对辨识对象在后续时序的运行数据进行预测,这里的后续时序与测试数据对应的时序一致,再根据预测值与测试数据之间的误差判断辨识模型的辨识精度在后续执行s400时,辨识模型根据对前一段时序的实时运行数据对后一段时序进行预测,并将预测的结果与后一段时序的实时运行数据,即辨识对象在后一段时序的实测值进行比较。辨识模型通过输出层的求解器设置上下浮动的阈值,将输出的准确值与对应的实测值根据阈值δe计算进行判断,若其超出阈值范围,则视为不良数据。所述阈值δe为:
[0072][0073]
x
max
为最大的实测值,x
min
为最小的实测值。
[0074]
由于本实施例所使用的样本数量较大,考虑到精度与处理速度,采用双隐含层足以满足要求。如图2为神经元数目分别使用5、10、15、20、25、30对应的不良数据辨识的收敛精度的关联性的折线图,横坐标为神经元数目,纵坐标为对应的收敛精度,为方便比较,每层的神经元数目相同。训练过程中发现随着神经元数目的增大,仿真时间几乎成倍增加,辨识模型精度逐步增加,在辨识模型隐含层节点数分别为20个和20个之后,辨识结果则提升不够明显了,这是因为而深度模型则一直递增并趋于稳定,这说明辨识模型的性能随着隐含层的增加是逐渐优化的。根据综合考虑模型时间和性能的关系,本文选取辨识模型的隐含层节点数为20个,最终得到的不良数据结果如表1所示。由表1可见,各类型的数据的模型精度达到97%以上,说明采用辨识模型进行不同类型不良数据辨识的准确性较高,收敛性较好。
[0075]
表1
[0076][0077][0078]
完成辨识模型的训练后,再训练修正模型,本实施例中修正模型为bp神经网络,采用trainbr算法,该算法比基本梯度算法泛函能力更好,收敛速度更快,更适用于相互耦合的数据集。
[0079]
具体的,所述s300包括:
[0080]
s310:初始化辨识模型的超参数,即确定神经网络结构、网络阈值和权值;
[0081]
s320:将历史不良数据经归一化处理后,输入训练好的辨识模型中,将辨识模型输出的对历史不良数据的预测值作为准确值,具体的,历史不良数据在matlab中用mapminmax函数进行数据归一化处理;
[0082]
s330:将历史不良数据输入修正模型进行,通过修正模型分析历史不良数据的特征,根据分析结果输出对历史不良数据的修正值;
[0083]
s340:分析修正值相对于准确值的误差程度以及误差分散程度,当分析结果符合预设条件时结束训练,否则,调整修正模型的超参数,即调整神经网络结构、网络阈值和权值,重复s320-s330直至符合预设条件。
[0084]
在本实施例中,首先设置辨识模型的超参数,包括初始网络结构、网络阈值以及权值等参数。对于神经网络隐含层节点数和隐含层个数的选择,如果隐含层结点数过少,网络不能具有必要的学习能力和信息处理能力,反之,若过多,不仅会使网络越复杂,处理速度越慢,而且会使网络在学习过程中更易陷入局部极小点。因此本实施例考虑到辨识模型的输出是多个时,采用2层以上的隐含层对不良数据辨识和修改效果更好,每层节点的个数以及其他参数则在训练中得出。
[0085]
所述分析修正值相对于准确值的误差程度以及误差分散程度,包括:
[0086]
通过计算修正值相对于准确值的平均绝对误差(mae),分析所述误差程度,具体计算公式为:
[0087][0088]
yi为第i个修正值,y
ti
为第i个准确值,l为修正值的总个数。
[0089]
通过计算修正值相对于准确值的均方根差(rmse),分析所述误差分散程度,具体
计算公式为:
[0090][0091]
具体的,修正模型在训练过程中,修正值相对于准确值的误差程度以及误差分散程度如表2所示,修正评价指标rmse和mae的值都非常小,相对于实际值较为接近,说明本方法针对新能源场站各个类型的不良数据都具有良好的修正效果,均满足预设条件,因此修正模型训练完毕。
[0092]
表2
[0093]
数据类型rmsemae有功功率0.477060.07211风速0.511070.05084风向余弦值0.176310.13896温度0.088500.00889压强0.354470.05220湿度0.411740.03381
[0094]
为了应对新能源场站运行情况的随机变化,本实施例还包括:在执行s500的同时,选取预设比例的正常数据输入修正模型中,计算修正模型的输出值与正常数据的平均绝对误差和均方根误差;当平均绝对误差和均方根误差任一项不满足预设条件时,将执行s400时输入的实时运行数据作为训练数据,重新对辨识模型和修正模型进行训练。通过上述过程及时调整辨识模型和修正模型的超参数,以满足辨识模型和修正模型的精度优化。
[0095]
本实施例中实时正常数据不变化、对实时不良数据修正的同时,将一部分实时正常数据也输入训练好的修正模型进行了修正,对修正的相关误差指标进行统计后得到修正的相关误差指标对比,若修正评价指标rmse和mae均满足预设条件,则说明当前模型精度满足要求,辨识模型和修正模型的超参数暂不需要调整。
[0096]
上述实施例中的各个序号仅仅为了描述,不代表各部件的组装或使用过程中的先后顺序。
[0097]
以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1