本发明属于热工技术和人工智能交叉技术领域,涉及一种基于遗传算法的数据模型训练样本的选取方法。
背景技术:
基于电站运行数据,采用多元线性回归、神经网络、支持向量机等技术构造一定的数学关系,可实现对电站机组参数的建模和估计。这种数据建模方法不需研究电站运行过程的内部规律,而是将其看作一个黑箱,从输入输出数据中提取有用信息,所建立的数据模型对机组参数的冗余测量及状态监控都有着重要的意义。
采用运行数据建立的模型对数据特性具有较强的依赖性。虽然电站历史数据库记录了大量的运行数据,但是大部分样本都集中在某些特定的工况下。样本的工况分布是构建数据模型时需要考虑的关键因素之一。利用充分变化并尽量覆盖全工况的数据样本更容易训练得到高精度的预测模型。本发明将训练样本的选取指标进行定量化,并将其作为适应度函数,利用遗传算法来实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
技术实现要素:
为了解决上述问题,本发明提供一种基于遗传算法的数据模型训练样本的选取方法,所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,构建高精度的数据模型,通过高精度的数据模型完成最佳训练样本的选取;
进一步地,所述方法包括:
步骤1):染色体编码及初始化:对要选取的样本序列进行二进制编码,共产生m条染色体构成种群,给定最大迭代次数为n,交叉概率pc,变异概率pm;
步骤2)确定适应度函数:考虑样本的分布距离大小和分布的均匀性,将样本选取指标进行定量化,并将其作为适应度函数;
步骤3):染色体交叉:在m个染色体中,依次取相邻的两个染色体按交叉概率pc进行多点交叉;
步骤4):染色体变异:在m个染色体中,对每个染色体按照变异概率pm进行多点变异;
步骤5):染色体处理:经过步骤2)和步骤3)之后,染色体s段基因中若出现某段的b位基因解码后大于n,则用该染色体尚未包含的最优样本序号的二进制编码进行替换;最优样本的确定方法是:逐个将未包含的数据样本序号加入该染色体后,适应度函数值增量最大的样本即为最优样本;
步骤6):染色体选择:根据步骤2)的适应度函数,计算各个染色体的适应度值,并按照轮盘赌选择新一代个体;
步骤7):记录每代最优染色体的适应度值,然后进入步骤3),进行下一次迭代,直至达到给定的迭代次数n;
进一步地,步骤1)中所述染色体编码的方法为若初始的运行数据中有n个样本,要选取s个样本,则每个样本的序号用b位二进制基因段来表示,将每个可行解看作一条染色体,共有s·b个基因,这里
进一步地,步骤2)中所述样本选取的定量化指标根据样本的分布距离大小和分布的均匀性进行计算,具体方法如下:
其中γ1和γ2为权值系数,dmax为初始数据中样本之间的最大欧式距离,dij为所选训练样本中任意两个样本xi,xj之间的欧式距离:
其中p为输入变量个数,l2(x)为样本中心化偏差,且有:
进一步地,遗传算法过程包含了染色体处理环节,对染色体s段基因中解码后大于n的基因进行处理和替换;
本发明利用充分变化并尽量覆盖全工况的数据样本更容易训练得到高精度的预测模型的特点,将训练样本的选取指标进行定量化,并将其作为适应度函数,利用遗传算法来实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
附图说明
图1为本发明所述的初始数据样本分布图;
图2是本发明所述的基于遗传算法的数据模型训练样本选取流程图;
图3是本发明所述的基于遗传算法的数据模型训练样本选取的迭代过程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
下面结合附图和具体实施例对本发明作进一步说明,但不作为对本发明的限定。下面为本发明的举出最佳实施例:
本发明提供一种基于遗传算法的数据模型训练样本的选取方法。本发明利用样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标,并将其作为适应度函数,利用遗传算法实现最佳训练样本的智能搜索,使得到的样本覆盖最大工况,为构建高精度的数据模型提供基础。
本实施例对2维变量训练样本的选取过程进行模拟仿真,验证本技术方案的有效性。对于给定变量和范围,正交数据样本是通过最少的试验次数获得具有最大信息量的数据样本,因此同具有最大的工况代表性。为了模拟筛选过程,给出2因素3水平下[1,3]范围内的5组正交样本,同时另外随机产生20组样本,共构成25组初始样本,其分布如图1所示。本方案模拟从这些初始样本中选取5组具有工况代表性的样本来作为模型训练样本。
请参考图2,一种基于遗传算法的数据模型训练样本选取的流程如下:
步骤1):对要选取的样本序列进行二进制编码,运行数据中共有25个样本,要从中选取5个样本,则每个样本的序号用
步骤2)确定适应度函数:考虑样本的分布距离大小和分布的均匀性,将样本选取指标进行定量化,并将其作为适应度函数,具体由下式计算:
其中γ1和γ2为权值系数,dmax为初始数据中样本之间的最大欧式距离,dij为所选训练样本中任意两个样本xi,xj之间的欧式距离:
其中p为输入变量个数。
l2(x)为样本中心化偏差,且有:
步骤3):染色体交叉:在30个染色体中,依次取相邻的两个染色体按交叉概率pc=0.60进行多点交叉;
步骤4):染色体变异:在30个染色体中,对每个染色体按照变异概率pm=0.05进行多点变异;
步骤5):染色体处理:若染色体基因中某段的5位基因解码后大于25,则用该染色体尚未包含的最优样本序号的二进制编码进行替换。最优样本的确定方法是:逐个将未包含的数据样本序号加入到该染色体后,适应度函数值增量最大的样本即为最优样本;
步骤6):染色体选择:根据步骤2)的适应度函数,计算各个染色体的适应度值,并按照轮盘赌选择新一代个体;
步骤7):记录每代最优的染色体适应度值,然后进入步骤3,进行下一次迭代,直至达到50次迭代。
利用本方案进行迭代的过程如图3所示。由图3可以看出,随着迭代的进行,所选择的训练样本的定量化指标逐渐增加,最后趋于稳定,最终得到训练样本为:(1,1),(1,3),(2,2),(3,1),(3,3),也即是正交样本,具有最大的工况代表性。
以上所述的实施例,只是本发明较优选的具体实施方式的一种,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。