改进的直推式支持向量机的大型高炉故障分类算法及应用的制作方法

文档序号:12365707阅读:208来源:国知局
本发明属于工业过程监控与故障诊断领域,特别涉及一种改进的基于直推式支持向量机的大型高炉系统故障分类算法。
背景技术
:工业生产是国家重要的经济发展内容,针对工业过程的故障分类研究,对保证安全高效的生产具有十分重要的意义。目前常见的故障分类方法包括定性与定量的分析方法。其中定性分析方法包括图论方法、专家系统、定性仿真。定量的方法又包括基于解析模型的方法与数据驱动的方法。而目前研究的热门领域包括机器学习、多元统计分析、信号处理等都属于数据驱动的方法。对于复杂的工业过程而言,很难构建精确的机理模型,也很难收集全面的专家系统知识,因此基于数据的方法具有很好的应用前景。工业生产过程中,各种传感器可以获取大量的数据,通过计算机的运算存储功能,数据以海量的规模进行增长,为数据分析提供了充足的资源。目前应用较多的数据驱动方法,如主元分析(PCA)、偏最小二乘(PLS)、支持向量机(SVM)、人工神经网络(ANN)等。很多学者对这些方法进行了改进,也对一些方法进行融合,从而大大提高了故障诊断的效果。对于半监督支持向量机算法,最早是由创始者Vapnik等人提出的直推式学习方法,后来又引入了局部组合搜索、梯度下降、连续优化技术、凸凹过程、半正定编程、不可微方法、决定退火、分支定界等方法。其中直推式学习假定未标记示例就是测试例,即学习的目的就是在这些未标记示例上取得最佳泛化能力。直推式支持向量机(transductiveSVM,TSVM)很好地利用了这部分数据,在有标签数据的运算基础上加入无标签数据,通过一些列算法将无标签的数据进行分类,从而有效的解决学习过程中产生的模型的准确问题。技术实现要素:为了克服现有技术的不足,本发明的目的在于针对直推式支持向量机算法的特点,提供一种基于改进的直推式支持向量机的大型高炉故障分类方法,并将这种方法应用在大型高炉系统的故障分类应用中。一种改进的基于直推式支持向量机的大型高炉系统故障分类算法,主要采用对N个点的数据采取随机选择的策略,通过L次的选择,分别计算出L次的准确率,选取准确率最高的一次即作为该模型的分类器,步骤如下:步骤一:初始化惩罚因子C,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。对于支持向量机,给定数据样本集:(x1,y1),(x2,y2),…,(xl,yl)(1)y∈{-1,1}代表不同类。分类的任务是构建最优超平面f(x)=<w,φ(x)>+b,把属于不同类的向量xi分开。其中w为参数向量,φ(·)为输入空间到特征空间的映射函数。定义损失函数如下:minR(w,b)=12<w,w>+c·Remp---(2)]]>第一部分定义了模型的结构复杂度;第二部分Remp为经验风险;c为调节常数,用于控制模型复杂度与逼近误差的折中。当经验风险取不同的函数时,得到不同的SVM分类器。当经验风险Remp=0,即仅仅考虑分类器的模型复杂度时,损失函数变为:R(w·b)=12<w,w>---(3)]]>优化问题描述为:minR(w,b)=12<w,w>subjecttoyi(<w,xi>-b)≥1,i=1,2,...,l---(4)]]>为了得到对偶的优化问题,引入拉格朗日乘子,得到拉格朗日方程:L=12<w,w>-Σi=1lai(yi(<w,xi>-b)-1)---(5)]]>求该函数关于原始变量的微分:∂L∂w=w-Σi=1laiyixi=0---(6)]]>∂L∂b=Σi=1laiyi=0---(7)]]>将公式(6)(7)带入拉格朗日方程:L=Σi=1lai-12Σi=1laiajyiyj<xi,xj>---(8)]]>得到对偶的优化问题:maxW(a)=Σi=1lai-12Σi=1laiajyiyj<xi,xj>subjecttoΣi=1laiyi=0,ai≥0,i=1,2,...,l---(9)]]>为了容忍训练集中噪声和异常数据,定义间隔松弛向量,以其1范数作为经验风险,即得到1范数软间隔分类器。优化问题描述为:minR(w,b)=12<w,w>+cΣi=1lξisubjecttoyi(<w,xi>-b)≥1-ξi,i=1,2,...,l---(10)]]>其中,ξi为松弛变量,它使得可以容忍训练数据的错误分类。当取ξi=0,i=1,2,…,l时,软间隔分类器退化成为硬间隔分类器。该优化问题的对偶问题为:maxW(a)=Σi=1lai-12Σi=1j=1laiajyiyj<xi,xj>subjecttoΣi=1laiyi=0,0≤ai≤C---(11)]]>步骤二:初始化惩罚因子C*,用原始的样本分类器对无标签样本进行分类。基于迭代算法的直推式支持向量机给定一组独立同分布的有标签训练样本点(x1,y1),(x2,y2),..,(xl,yl),x∈Rm,y∈{-1,1}和另一组来自同一分布的无标签样本点x1*,x2*,x3*,..,xk*。在一般的线性不可分条件下,TSVM的训练过程可以描述为以下的优化问题:(y1*,...,yk*,w,b,ξ1,...,ξm,ξ1*,...,ξk*)min12||w||2+CΣi=1lξi+C*Σj=1kξj*subjectto∀i=1l:yi[w·xi+b]≥1-ξi∀j=1k:yj[w·xj*+b]≥1-ξj*∀i=1l:ξi≥0∀j=1k:ξj*≥0---(12)]]>其中参数C和C*为用户指定和调节的参数,参数C*是未标识样本在训练过程中的影响因子,C*与ξj*称为未标识样本xj在目标函数中的影响项。步骤三:迭代计算。1)计算每一个样本到超平面的距离|f(x)|,选取N个距离|f(x)|≤d的样本点,在N个样本点中随机取出M个样本点。2)假定训练集中M个无标记样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp。3)用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签数据记录的判别结果,对无标签数据做出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。4)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(3)的值,使得问题(3)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。5)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(4),直到C*temp≥C时,TSVM的学习结束。6)测试分类器的效果,并重复(1)至(5)的操作L次,选择具有最优正确率的分类器。所述的工业故障为高炉冶炼过程故障。一种所述的方法用于高炉冶炼过程故障分类。本发明具有以下有益效果:1.本发明首次提出一种应用于高炉冶炼过程故障的改进直推式支持向量机算法,并且基于这个改进方法利用了大量的无标签数据,利用样本的多次迭代筛选的方法,实现了对复杂过程的故障分类;2.本发明能够针对改进的直推式支持向量机算法,通过平衡数据样本类别的数量入手,对无标签的样本进行了初步的预测,并对该过程进行了优化。本算法采用的筛选机制能够比较有效的利用无标签样本对原始模型进行正确修正,使得分类准确率得到提高,有效提高算法的学习精度。具体实施方式本发明首先,针对工业采集数据,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。其次,利用原始的样本分类器对无标签样本进行分类。最后,通过迭代计算的方法获得最优的样本分类器。本发明提出了一种改进的基于直推式支持向量机的故障分类算法,从平衡数据样本类别的数量入手,对无标签的样本进行了初步的预测,并对该过程进行了优化。一种改进的基于直推式支持向量机的大型高炉系统故障分类算法,主要采用对N个点的数据采取随机选择的策略,通过L次的选择,分别计算出L次的准确率,选取准确率最高的一次即作为该模型的分类器,步骤如下:步骤一:初始化惩罚因子C,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。对于支持向量机,利用工业过程采集的离线数据集:(x1,y1),(x2,y2),..,(xl,yl)(1)y∈{-1,1}代表不同类。分类的任务是构建最优超平面f(x)=<w,φ(x)>+b,把属于不同类的向量xi分开。其中w为参数向量,φ(·)为输入空间到特征空间的映射函数。定义损失函数如下:minR(w,b)=12<w,w>+c·Remp---(2)]]>第一部分定义了模型的结构复杂度;第二部分Remp为经验风险;c为调节常数,用于控制模型复杂度与逼近误差的折中。当经验风险取不同的函数时,得到不同的SVM分类器。当经验风险Remp=0,即仅仅考虑分类器的模型复杂度时,损失函数变为:R(w·b)=12<w,w>---(3)]]>优化问题描述为:minR(w,b)=12<w,w>subjecttoyi(<w,xi>-b)≥1,i=1,2,...,l---(4)]]>为了得到对偶的优化问题,引入拉格朗日乘子,得到拉格朗日方程:L=12<w,w>-Σi=1lai(yi(<w,xi>-b)-1)---(5)]]>求该函数关于原始变量的微分:∂L∂w=w-Σi=1laiyixi=0---(6)]]>∂L∂b=Σi=1laiyi=0---(7)]]>将公式(6)(7)带入拉格朗日方程:L=Σi=1lai-12Σi=1laiajyiyj<xi,xj>---(8)]]>得到对偶的优化问题:maxW(a)=Σi=1lai-12Σi=1laiajyiyj<xi,xj>subjecttoΣi=1laiyi=0,ai≥0,i=1,2,...,l---(9)]]>为了容忍训练集中噪声和异常数据,定义间隔松弛向量,以其1范数作为经验风险,即得到1范数软间隔分类器。优化问题描述为:minR(w,b)=12<w,w>+cΣi=1lξisubjecttoyi(<w,xi>-b)≥1-ξi,i=1,2,...,l---(10)]]>其中,ξi为松弛变量,它使得可以容忍训练数据的错误分类。当取ξi=0,i=1,2,…,l时,软间隔分类器退化成为硬间隔分类器。该优化问题的对偶问题为:maxW(a)=Σi=1lai-12Σi=1j=1laiajyiyj<xi,xj>subjecttoΣi=1laiyi=0,0≤ai≤C---(11)]]>步骤二:初始化惩罚因子C*,用原始的样本分类器对无标签样本进行分类。基于迭代算法的直推式支持向量机给定一组独立同分布的有标签训练样本点(x1,y1),(x2,y2),...,(xl,yl),x∈Rm,y∈{-1,1}和另一组来自同一分布的无标签样本点x1*,x2*,x3*,...,xk*。在一般的线性不可分条件下,TSVM的训练过程可以描述为以下的优化问题:(y1*,...,yk*,w,b,ξ1,...,ξm,ξ1*,...,ξk*)min12||w||2+CΣi=1lξi+C*Σj=1kξj*---(12)]]>subjectto∀i=1l:yi[w·xi+b]≥1-ξi∀j=1k:yj[w·xj*+b]≥1-ξj*∀i=1l:ξi≥0∀j=1k:ξj*≥0]]>其中参数C和C*为用户指定和调节的参数,参数C*是未标识样本在训练过程中的影响因子,C*与ξj*称为未标识样本xj在目标函数中的影响项。步骤三:迭代计算。1)计算每一个样本到超平面的距离|f(x)|,选取N个距离|f(x)|≤d的样本点,在N个样本点中随机取出M个样本点。2)假定训练集中M个无标记样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp。3)用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签数据记录的判别结果,对无标签数据做出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。4)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(3)的值,使得问题(3)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。5)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(4),直到C*temp≥C时,TSVM的学习结束。6)测试分类器的效果,并重复(1)至(5)的操作L次,选择具有最优正确率的分类器。上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。实施例高炉炼铁是钢铁生产中的重要环节,是衡量一个国家的经济水平和综合国力的重要指标。保证大型高炉系统安全稳定的运行在经济和安全上都是十分必要的,所以对大型高炉非正常工况诊断与安全运行方法进行研究具有重要意义。高炉冶炼是一个连续的生产过程,全过程在炉料自上而下,煤气自下而上的相互接触过程中完成。炉料按一定批料从炉顶装入炉内,从风口鼓入由热风炉加热到1000-1300℃热风,炉料中焦炭在风口前燃烧,产生高温和还原性气体,在炉内上升过程中加热缓慢下降的炉料,并还原铁矿石中的氧化物为金属铁。矿石升至一定温度后软化,熔融滴落,矿山中未被还原的物质形成熔渣,实现渣铁分离。渣铁聚集于炉缸内,发生诸多反应,最后调整成分和温度达到终点,定期从炉内排放炉渣和铁水。上升的煤气流将能量传给炉料而使温度降低,最终形成高炉煤气从炉顶导出管排出,进入除尘系统。成立于1958年的某钢炼铁厂,是一个有着56年辉煌历史的设备先进、装备水平较高的大型冶炼企业,主要产品为生铁,副产品有炉尘、炉渣、高炉煤气等。它拥有7座现代化高炉,高炉整体有效容积为11750立方米,其中2号高炉有效容积为2000立方米,是目前该省最大的高炉。新高炉投产后,炼铁厂将具备年产生铁1000万吨以上的综合能力。接下来结合该具体过程对本发明的实施步骤进行详细地阐述:步骤一:初始化惩罚因子C,利用训练数据中包含的正负标签的数据进行归纳式学习,得到一个原始的样本分类器。对于支持向量机,利用工业过程采集的离线数据集:(x1,y1),(x2,y2),...,(xl,yl)(1)y∈{-1,1}代表不同类。分类的任务是构建最优超平面f(x)=<w,φ(x)>+b,把属于不同类的向量xi分开。其中w为参数向量,φ(·)为输入空间到特征空间的映射函数。定义损失函数如下:minR(w,b)=12<w,w>+c·Remp---(2)]]>第一部分定义了模型的结构复杂度;第二部分Remp为经验风险;c为调节常数,用于控制模型复杂度与逼近误差的折中。当经验风险取不同的函数时,得到不同的SVM分类器。当经验风险Remp=0,即仅仅考虑分类器的模型复杂度时,损失函数变为:R(w·b)=12<w,w>---(3)]]>优化问题描述为:minR(w,b)=12<w,w>subjecttoyi(<w,xi>-b)≥1,i=1,2,...,l---(4)]]>为了得到对偶的优化问题,引入拉格朗日乘子,得到拉格朗日方程:L=12<w,w>-Σi=1lai(yi(<w,xi>-b)-1)---(5)]]>求该函数关于原始变量的微分:∂L∂w=w-Σi=1laiyixi=0---(6)]]>∂L∂b=Σi=1laiyi=0---(7)]]>将公式(6)(7)带入拉格朗日方程:L=Σi=1lai-12Σi=1laiajyiyj<xi,xj>---(8)]]>得到对偶的优化问题:maxW(a)=Σi=1lai-12Σi=1laiajyiyj<xi,xj>subjecttoΣi=1laiyi=0,ai≥0,i=1,2,...,l---(9)]]>为了容忍训练集中噪声和异常数据,定义间隔松弛向量,以其1范数作为经验风险,即得到1范数软间隔分类器。优化问题描述为:minR(w,b)=12<w,w>+cΣi=1lξisubjecttoyi(<w,xi>-b)≥1-ξi,i=1,2,...,l---(10)]]>其中,ξi为松弛变量,它使得可以容忍训练数据的错误分类。当取ξi=0,i=1,2,…,l时,软间隔分类器退化成为硬间隔分类器。该优化问题的对偶问题为:maxW(a)=Σi=1lai-12Σi=1j=1laiajyiyj<xi,xj>subjecttoΣi=1laiyi=0,0≤ai≤C---(11)]]>步骤二:初始化惩罚因子C*,用原始的样本分类器对无标签样本进行分类。基于迭代算法的直推式支持向量机给定一组独立同分布的有标签训练样本点(x1,y1),(x2,y2),..,(xl,yl),x∈Rm,y∈{-1,1}和另一组来自同一分布的无标签样本点x1*,x2*,x3*,..,xk*。在一般的线性不可分条件下,TSVM的训练过程可以描述为以下的优化问题:其中参数C和C*为用户指定和调节的参数,参数C*是未标识样本在训练过程中的影响因子,C*与ξj*称为未标识样本xj在目标函数中的影响项。步骤三:迭代计算。1)计算每一个样本到超平面的距离|f(x)|,选取N个距离|f(x)|≤d的样本点,在N个样本点中随机取出M个样本点。2)假定训练集中M个无标记样本中正负样本的比例为1:1,并指定一个训练集中无标签样本的临时惩罚因子C*temp。3)用得到的样本分类器对训练集中的无标签样本进行重新分类,根据分类器对无标签数据记录的判别结果,对无标签数据做出正负分类判决,并将判决值较大的一半样本标记为正标签,另外一半标记为负样本。4)用得到的经过重新标记的训练集数据对TSVM学习机进行重新训练,得到新的分类器。然后,按一定的规则交换一对标签值不同的训练样本的标签符号,即把起初标记为正样本的未标记样本中标记为负样本,起初标记为负样本的标记为正样本,计算式(3)的值,使得问题(3)的值获得最大下降。反复执行训练样本标签的变换,直到找不出满足交换条件的样本为止。5)均匀地增加未标记样本的惩罚因子C*temp的值,并重新执行步骤(4),直到C*temp≥C时,TSVM的学习结束。6)测试分类器的效果,并重复(1)至(5)的操作L次,选择具有最优正确率的分类器。上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1