基于两阶段集成学习的风电异常数据识别方法

文档序号:9350403阅读:247来源:国知局
基于两阶段集成学习的风电异常数据识别方法
【技术领域】
[0001]本发明属于风电领域,具体涉及一种基于两阶段集成学习的风电异常数据识别方法。
【背景技术】
[0002]随着风力发电的大规模发展,风电已由小规模、补充性电源向大规模、重要性电源的角色转换。风电的一系列研究例如风功率预测、风电消纳等都需要一个高质量的风电数据,亟需新的技术方法和手段,分析风电数据特征,研究风电异常数据的识别与原因,提高风电数据质量为后续研究打下基础。风电系统积累了大量实际测量和仿真计算数据,但底层数据质量普遍不高,因此,可以采用数据挖掘方法发现风电异常数据规律,进而对原始数据预处理,从而提高原始数据质量。最常见的数据挖掘方法是聚类与分类,对于如何提高风电数据异常识别的准确率,如何选择与组合合适的方法与模型是一个难以解决的问题。

【发明内容】

[0003]本发明旨在至少解决上述技术问题之一。
[0004]为此,本发明的目的在于一种基于两阶段集成学习的风电异常数据识别方法。
[0005]为了实现上述目的,本发明的第一方面的实施例公开了一种基于两阶段集成学习的风电异常数据识别方法,包括以下步骤:S1:提取风电异常数据参数;S2:根据所述风电异常数据参数生成训练样本和测试样本;S3:利用随机森林训练所述训练样本得到随机森林模型:S4:根据所述随机森林模型,利用梯度迭代决策树训练所述训练样本得到梯度迭代决策树模型;以及S5:根据所述随机森林模型和所述梯度迭代决策树模型分别预测所述测试样本得到预测结果。
[0006]根据本发明实施例的基于两阶段集成学习的风电异常数据识别方法,提高了风电异常数据识别的准确率。
[0007]另外,根据本发明上述实施例的基于两阶段集成学习的风电异常数据识别方法,还可以具有如下附加的技术特征:
[0008]进一步地,所述风电异常参数包括:风速、风功率、风速风功率随时间的变化速率、样本点的离群系数和样本点的分位数统计结果。
[0009]进一步地,所述步骤S2进一步包括:通过风电异常历史记录中的时间间隔来划分所述训练样本和所述测试样本。
[0010]进一步地,所述步骤S3进一步包括:S301:使用原始的标记值训练所述训练样本;S302:调节所述训练样本的正负比例和参数模型,得到所述随机森林模型。
[0011]进一步地,所述步骤S4进一步包括:使用所述随机森林模型的输出作为所述训练样本的目标值,利用梯度迭代决策树训练所述训练样本并调节模型参数,得到所述梯度迭代决策树模型。
[0012]进一步地,所述步骤S5进一步包括:S501:根据所述随机森林模型预测所述测试样本得到第一预测中间值,根据所述梯度迭代决策树模型预测所述测试样本得到第二预测中间值;S502:对所述第一预测中间值和所述第二预测中间值求平均值得到所述预测结果O
[0013]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0014]本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0015]图1是本发明一个实施例的训练梯度迭代决策树模型的流程框图;
[0016]图2是本发明一个实施例的通过测试样本得到测试结果的流程示意图。
【具体实施方式】
[0017]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0018]在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0019]在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0020]参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0021]以下结合附图描述根据本发明实施例的基于两阶段集成学习的风电异常数据识别方法。
[0022]第一阶段模型的输出作为第二阶段模型的输入,使得第一阶段误分类的样本点在第二阶段得以校正,从而提高了模型整体的准确率。即,依照以下步骤解决:
[0023]步骤(I):提取风电异常数据相关特征。
[0024]特征向量通常是风速、风功率、风速风功率随时间的变化速率以及样本点的离群系数(LOF)和样本点的分位数统计结果。
[0025]步骤⑵:生成训练样本和测试样本。
[0026]通过已知的历史记录根据时间间隔来划分训练样本和测试样本。样本的输入为步骤(I)中所提取的特征向量信息。输出是数据异常与否的标记:如I表示正常,O表示异常。
[0027]步骤(3):利用RF(随机森林)训练样本数据。
[0028]使用原始的标记值y训练样本数据,调节训练样本的正负比例以及模型参数,得到最优的RF模型,模型输出为y - yRFO
[0029]步骤(4):利用GBDT (梯度迭代决策树)训练样本数据。
[0030]使用步骤⑶的输出y-yR^为样本目标值,再利用GBDT训练样本数据,调节模型参数,得到最优的GBDT模型。
[0031]步骤(5):利用RF、GBDT两种模型分别预测测试样本。
[0032]使用步骤(3)所得到的RF模型预测测试样本得到测试结果为yRF,使用步骤(4)所得到的GBDT模型预测测试样本得到的测试结果为y(;BDT,最终所得预测结果为两者的平均值,即 ypredict — (Y Rf+yCBDT)/2。
[0033]另外,本发明实施例的基于两阶段集成学习的风电异常数据识别方法的其它构成以及作用对于本领域的技术人员而言都是已知的,为了减少冗余,不做赘述。
[0034]在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0035]尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同限定。
【主权项】
1.一种基于两阶段集成学习的风电异常数据识别方法,其特征在于,包括以下步骤: S1:提取风电异常数据参数; 52:根据所述风电异常数据参数生成训练样本和测试样本; 53:利用随机森林训练所述训练样本得到随机森林模型: 54:根据所述随机森林模型,利用梯度迭代决策树训练所述训练样本得到梯度迭代决策树模型;以及 55:根据所述随机森林模型和所述梯度迭代决策树模型分别预测所述测试样本得到预测结果。2.根据权利要求1所述的基于两阶段集成学习的风电异常数据识别方法,其特征在于,所述风电异常参数包括:风速、风功率、风速风功率随时间的变化速率、样本点的离群系数和样本点的分位数统计结果。3.根据权利要求2所述的基于两阶段集成学习的风电异常数据识别方法,其特征在于,所述步骤S2进一步包括: 通过风电异常历史记录中的时间间隔来划分所述训练样本和所述测试样本。4.根据权利要求3所述的基于两阶段集成学习的风电异常数据识别方法,其特征在于,所述步骤S3进一步包括: 5301:使用原始的标记值训练所述训练样本; 5302:调节所述训练样本的正负比例和参数模型,得到所述随机森林模型。5.根据权利要求4所述的基于两阶段集成学习的风电异常数据识别方法,其特征在于,所述步骤S4进一步包括: 使用所述随机森林模型的输出作为所述训练样本的目标值,利用梯度迭代决策树训练所述训练样本并调节模型参数,得到所述梯度迭代决策树模型。6.根据权利要求5所述的基于两阶段集成学习的风电异常数据识别方法,其特征在于,所述步骤S5进一步包括: 5501:根据所述随机森林模型预测所述测试样本得到第一预测中间值,根据所述梯度迭代决策树模型预测所述测试样本得到第二预测中间值; 5502:对所述第一预测中间值和所述第二预测中间值求平均值得到所述预测结果。
【专利摘要】本发明公开了一种基于两阶段集成学习的风电异常数据识别方法,包括以下步骤:S1:提取风电异常数据参数;S2:根据所述风电异常数据参数生成训练样本和测试样本;S3:利用随机森林训练所述训练样本得到随机森林模型:S4:根据所述随机森林模型,利用梯度迭代决策树训练所述训练样本得到梯度迭代决策树模型;以及S5:根据所述随机森林模型和所述梯度迭代决策树模型分别预测所述测试样本得到预测结果。本发明具有如下优点:提高了风电异常数据识别的准确率。
【IPC分类】G06K9/62
【公开号】CN105069476
【申请号】CN201510484365
【发明人】耿天翔, 丁茂生, 李峰, 葛俊, 胡伟, 郑乐
【申请人】国网宁夏电力公司, 清华大学, 国家电网公司
【公开日】2015年11月18日
【申请日】2015年8月10日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1