基于大数据集近邻策略的风机指标预测与故障预警方法与流程

文档序号:14990479发布日期:2018-07-20 22:07阅读:1167来源:国知局
本发明涉及风力发电的
技术领域
:,尤其是指一种基于大数据集近邻策略的风机指标预测与故障预警方法。
背景技术
::业内习知,风力发电机组作为大型机械设备,长期处于恶劣的环境中,有较高故障风险,及时准确预警能够降低风机健康恶化的风险,以降低部件报废和停机过长带来的损失。现阶段风场以执行例行检修维护,且对风机状态评估及故障的诊断过于工作人员的经验;另一方面,目前阶段的风机监控系统会对超限指标进行报警,但是由于其主要采用的是较宽的阈值,其触发预警时间已经很晚,不能做到更早的发现的作用。目前也已经有不少关于风力发电机组预警的报道,其中不少结合风速基于功率异常的方法来预警;一方面,该类方法的拓展性不够,只能局限于特定部件或者不具有针对性;另一方面,该类方法对现有的数据及其风机指标字段利用不够,容易造成误报。技术实现要素:本发明的目的在于克服现有技术的缺点与不足,提出了一种基于大数据集近邻策略的风机指标预测与故障预警方法,能够对风机指标进行准确预警监控,该方法可以用于风力发电机组的各部件,普适性高。为实现上述目的,本发明所提供的技术方案为:基于大数据集近邻策略的风机指标预测与故障预警方法,该方法是基于风机运行状态的历史数据,结合统计学和机器学习方法,以风机的多个监测指标作为输入指标,多个监测指标作为预测估计的输出指标,并对输出指标的预测值进行统计分析,设定分位数与报警等级的关系,最终通过查看输出指标的实际值所对应的预测区间来确定预警等级;其包括有以下步骤:1)数据准备选取所分析的风机部件的指标集及其历史运行数据,并对数据进行异常值处理,准备大量干净的历史数据作为训练集,存入数据库中;其中,所述指标集包括机舱温度、室外温度、风速实时值、发电机功率实时值、发电机转速实时值、发电机驱动端轴承温度、发电机非驱动端轴承温度、发电机定子绕组u温度、发电机定子绕组v温度及发电机定子绕组w温度,所述异常值包括空值、跳变值、重复值、离群点;2)相关性分析对步骤1)清洗过后的数据进行相关性分析,分析出各指标之间的相关性,确认预测输入指标与预测输出指标的相关性,若分析的指标集间存在相关性,则进行步骤3),若不存在,则重新筛选指标集,重复步骤1)、2),直到指标集间存在相关性为止;3)根据相关性分析,指定外生变量与内生变量作为输入变量和输出变量,并设定各输入变量的近邻域的半径大小值;其中,所述输入变量包括机舱温度、室外温度、风速实时值、发电机功率实时值、发电机转速实时值,所述输出变量包括发电机驱动端轴承温度、发电机非驱动端轴承温度、发电机定子绕组u温度、发电机定子绕组v温度及发电机定子绕组w温度;4)根据确定的输入指标和输出指标,重新准备待分析的数据作为测试集,根据测试集中各输入变量的近邻域半径大小,从训练集中搜索测试集的各输入变量近邻域内对应的各输出变量的历史数据集作为测试集的预测集输出;5)对计算得到的输出指标的预测集进行统计分析,得到输出指标预测集的点估计及界限估计,并设定分位数与报警等级的关系,划定不同的预警等级;6)最后查看测试集的输出变量的实际值所处界限范围进而给出机组预警等级。在步骤4)中,通过数据库查询语句求出预测值。在步骤5)中,统计分析方法采用的是百分位数,要求50%分位数作为输出指标的点估计,其余分位数估计作为输出指标的预警评估界限。本发明与现有技术相比,具有如下优点与有益效果:1、大数据的重要作用在于数据集足够大,使用风机运行的所有历史数据,数据集是空间中一张超密集高维数据网,其中拥有几乎完整的知识。2、本方法采用无参数模型的算法,完全基于数据,避免了参数模型的强约束(比如不能多重共线性,误差符合正态分布的假设等)以及大量数据的耗时训练,算法对数据的要求极低,几乎没有任何要求,唯一的需求是数据够多,服务器够快就可以了。3、本方法思路简单清晰,没有任何复杂计算,计算过程转换成了数据的检索出预测值,充分利用数据的高速的数据检索查询能力。4、本方法充分利用与部件相关的标签排除各种工况的影响,只要认为与输出指标的相关的输入指标可以随时动态的加入,没有重新训练的风险。5、本方法是动态的,每时每刻记录的数据都可以动态纳入到下次的计算中去,随着数据的积累越来越大,该算法的准确性会进一步提高。附图说明图1为本发明的相关分析结果图。图2为风机发电机驱动端轴承温度发生异常时的运行图。图3为风机发电机驱动端轴承温度正常的运行图。具体实施方式下面结合具体实施例对本发明作进一步说明。本实施方法的数学思路具体如下所示:设有自变量n1,n2,…,nn、f1,f2,…,fn,因变量r,误差项为ε,则关系表达为:h(n1,n2,…,nn,f1,f2,…,fn)+ε=r(1)若自变量能够分为两个变量组:{n1,n2,…,nn}及{f1,f2,…,fn},则关系表达为:f(n1,n2,…,nn)+g(f1,f2,…,fn)+ε=r(2)对式(2)进行变形得表达式:r-f(n1,n2,…,nn)=g(f1,f2,…,fn)+ε(3)从上可知,若g(f1,f2,…,fn)+ε>>ε,则f1,f2,…,fn是存在影响的,对r-f(n1,n2,…,nn)具有解释作用;就统计学而言,若一个模型不使用f变量组,拟合结果效果不好,就会认为f变量是重要影响变量;就风机发电机而言,能够把n变量组理解为正常外生变量组,而把f变量组理解为对异常进行解释的变量组;因此若g(f1,f2,…,fn)+ε>>ε,则认为存在异常,这也说明一个模型必不在所有数据空间都有效,仍然具有作用。在确定好数学思路后,逐步实现,主要有以下步骤1)数据准备:选取所分析的风机发电机部件相关的12个指标及其历史运行数据,并对数据进行异常值(包括空值、跳变值、重复值、离群点等)处理,准备大量干净的历史数据作为训练集,存入数据库中。选取的12个指标见表1。表1:标签点说明标准标签名英文标签名中文标签名generatortorquegrcan_generatortorque实际转矩windspeedgrwindspeed风速实时值genpowergrgenpowerforprocess发电机功率实时值genspeedgrgenspeedforprocess发电机转速实时值tempgencoolingairgrtempgencoolingair_1sec发电机冷风温度1秒平均值tempnacellegrtempnacelle_1sec机舱温度1秒平均值tempoutdoorgrtempoutdoor_1sec机舱外温度1秒平均值tempgenbeardegrtempgenbearde_1sec发电机驱动端轴承温度1秒平均值tempgenbearndegrtempgenbearnde_1sec发电机非驱动端轴承温度1秒平均值tempgenstatorugrtempgenstatoru_1sec发电机定子绕组u温度1秒平均值tempgenstatorvgrtempgenstatorv_1sec发电机定子绕组v温度1秒平均值tempgenstatorwgrtempgenstatorw_1sec发电机定子绕组w温度1秒平均值2)将步骤1)准备好的干净数据做相关性分析,如附图1所示:相关性系数(r)越大,相关性越强。从图1可知发电机定子三相wuv绕组强相关,室外温度与机舱温度相关性强,风速几乎与所有变量相关,功率也与其他变量存在相关性,而发电机驱动端轴承温度与发电机非驱动端轴承温度相关性也强相关。若分析的数据间不存在相关性,则重新筛选指标集,直到数据间存在相关性为止。而后根据相关性分析结果,指定外生变量(exogenous_variable)与内生变量(endogenous_variable)作为输入变量和输出变量,如表2所示。表2:内外生变量说明3)本方法实质为一种基于邻近策略的非参回归算法,与knn邻近方法需要设定邻近对象个数k值类似,也需要设定各输入指标邻近邻域半径的大小,邻近半径分为左边界(lb)和右边界(rb)。根据相关性分析结果,用各指标的标准标签英文名加上边界英文简称,形成新的参数。即风速实时值左边界和右边界可简写为windspeedlb和windspeedrb,其他指标依次类推,对输入变量各指标设定参数如表3。表3:各指标近邻左右边界参数设置值4)重新准备待分析的数据作为测试集,使用测试集输入指标值及其邻域半径参数,构建测试集输出指标的sql查询语句:"selectreal_time,wtidasturbineid,itempgenbearde_1secasgenbeardetemp,itempgenbearnde_1secasgenbearndetemp,itempgenstatoru_1secasgenstatorutemp,itempgenstatorv_1secasgenstatorvtemp,itempgenstatorw_1secasgenstatorwtempfrom{turbinetablename}where1andiwindspeedbetween{windspeedlb}and{windspeedrb}andireactivepowerbetween{genpowerlb}and{genpowerrb}andigenspeedbetween{genspeedlb}and{genspeedrb}anditempoutdoor_1secbetween{outdoortemplb}and{outdoortemprb}anditempnacelle_1secbetween{nacelletemplb}and{nacelletemprb}"。将该sql语句查询出的数据集作为输出指标的测试集,并统计测试集中各输出变量的百分位数值,以各输出指标的50%分位数作为点估计。其他分位数作为及界限估计。5)设定各分位数与报警等级的关系,设置的详细参数见表4、表5;表4:分位数与预警等级参数设定说明百分位数(%)报警等级报警边界英文简称<2.5严重2.5警告l4mp5注意l3mp10合格l2mp25良好l1m_p50点估计值mp75良好r1mp90合格r2mp95注意r3mp97.5警告r4mp>97.5严重6)查看测试集输出指标的真实值所对应的预警区间,给出预警信息。附图2、图3分别是某两台机组发电机驱动端端轴承温度1秒平均值的时间报警(time_vs_tagalarm)结果。其中,图2展示的是风机发电机驱动端轴承温度发生异常时的运行图,图3展示的风机发电机驱动端轴承温度正常的运行图,从该两个图,很明显看出,本发明方法能够非常早的发现部件标签的异常,效果显著,具有实际推广价值,值得推广。以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1