基于Hellinger距离-高斯混合模型的聚类方法与流程

文档序号:21547884发布日期:2020-07-17 18:00阅读:594来源:国知局
基于Hellinger距离-高斯混合模型的聚类方法与流程
本发明属于机械故障诊断与聚类分析领域,特别涉及一种基于hellinger距离-高斯混合模型的数据聚类技术。
背景技术
:现代机械设备的大型化和复杂化使得其在连续工作运行时极易出现各种故障,因此,为了确保设备的安全可靠运行,有必要通过监测与诊断及早发现潜在的故障风险,避免可能出现的事故以及相应的维修消耗,使设备的使用效能最大化。近年来,随着“大数据”概念的提出,数据驱动的智能故障诊断方法得以推广应用。该方法无需探寻设备的物理失效机理,通过对大量数据的统计规律和内在特征的学习,可以实现对监测设备健康状态的自动判断,为工业设备的在线监测与故障监测提供了有用的工具。故障智能诊断通过自动提取大规模监测数据中隐含的故障信息,为大型装备与旋转设备的在线监测与健康预测提供了重要手段,但是现有的大量诊断方法是基于监测数据典型故障完备、状态标记明确的假设,这在工程实际中很难满足。设备实际运行过程中,为了确保设备连续安全运行,不可频繁停机检测故障并标记设备状态,由此导致监测数据仅有很少、甚至是没有标注信息,无法确知相关数据对应的设备状态。因此,需要采用无监督学习方法实现设备的准确智能诊断。无监督学习是从无标注数据中找出其内在的规律或结构的机器学习方法,其中聚类方法可以根据给定的大量数据,依据它们特征的相似度或距离将其归并到若干个类别中。已有的聚类方法可分为两类:硬聚类(如k-均值)和软聚类(如高斯混合模型),前者判定样本只能属于一个类别,而后者对类别的划分过程可以同时挖掘数据的纵向结构(相似)和横向结构(降维),从而获得更为准确的聚类结果。高斯混合模型通过线性组合多个高斯分布函数可以拟合任意数据的分布,但是,现有的高斯混合模型受参数初始化、运算复杂等因素影响,其算法研究与聚类应用仍然较少。因此,有必要研究如何改进高斯混合模型,结合期望极大算法优化模型参数,提升其对样本类别的识别能力。技术实现要素:为解决上述技术问题,本发明提出一种基于hellinger距离-高斯混合模型的聚类方法,在最大化样本概率分布的基础上,引入了基于hellinger距离的正则化项,通过广义期望极大算法构建样本的内在流形结构,进而实现数据类别的自动判定。其步骤描述如下:待分类的数据特征构成样本集合x={xi,i=1,…,n},包含n个样本,每个样本xi包含d维特征。s1、参数设定与初始化。1)设置高斯混合模型含有k个分量,并采用k-均值算法初始化高斯模型参数2)设置正则化系数λ。3)设置更新系数γ,其初值设置为0.9。4)设置近邻个数l。5)迭代序号t初始化为1,即t=1。6)设置迭代终止值δ为一个较小值。s2、模型优化目标函数构建:定义高斯混合模型参数优化的目标函数。在参数优化过程中,引入hellinger距离计算两个分布之间的接近程度。构建的高斯混合模型是由k个高斯分布组成的,其中,θ=(π1,μ1,σ1,…,πk,μk,σk)是高斯混合模型的参数,μk和σk(k=1,…,k)是第k个高斯分布的均值和协方差,nk(xiμk,σk)是第k个分模型的高斯分布密度,πk是其对应的混合系数,且满足为了实现数据聚类,通过迭代运算更新高斯混合模型参数θ。因此,定义x为观测样本集,样本集z={zi,i=1,…,n}为未观测样本集,x和z构成完整样本集,在最大化完整样本对数似然函数的基础上,引入正则化项构成优化目标函数,其定义如下:其中,λ为正则化系数,为正则化项,此处将hellinger距离引入正则化项中。hellinger距离通常在顺序和渐进统计中使用,那么概率分布pi和pj之间的hellinger距离的平方为:且满足h(pi,pj)≤1。正则化项表示为其中,p(k|xi)和p(k|xj)分别为样本xi和xj由第k个高斯分量生成的后验概率;拉普拉斯矩阵l为l=d-w,其中矩阵d和w的关系为t表示转置。对于样本xi,根据hellinger距离可以确定其l个最近邻点,l∈{n-1}。在最近邻图中样本xi与其近邻样本xj间的权重wij定义为:其中,表示样本xj的l个近邻样本集。s3、样本后验概率计算:根据混合模型参数θt-1,采用广义期望极大算法计算后验概率。根据第t-1次迭代获得的高斯混合模型参数θt-1计算后验概率在此基础上,采用广义期望极大算法定义q函数用于模型参数的迭代运算,其表示为迭代优化目标为分别最大化q(θ,θt-1)和最小化正则项s4、模型参数更新:采用广义期望最大算法更新后验概率和高斯混合模型参数。首先,最小化正则项(式(17)),应用牛顿-拉普森法得到后验概率的更新为:其次,最大化q(θ,θt-1)可以获得更新的高斯混合模型参数θt:s5、计算正则化似然函数值。s6、迭代终止判断:1)如果设置更新系数0.9γ→γ(即以当前更新系数γ乘以0.9作为下一次迭代的更新系数γ),返回s4。2)如果迭代终止,确定高斯混合模型参数为θt,输出后验概率p(k|xi)(i=1,…,n;k=1,…,k);否则迭代次数加1,即t←t+1,返回s3。s7、数据类别判定:对每个样本,取最大后验概率对应的高斯分量标签k(k=1,…,k)即为该样本的聚类结果。本发明的有益效果是:本发明提出的基于hellinger距离-高斯混合模型的聚类方法,利用高斯混合模型的无监督学习能力构建数据聚类算法,每个聚类由一个高斯分布决定,而每个数据由多个概率聚类综合作用而成;通过hellinger距离和正则化项在数据流形结构上定义近邻样本,同时结合广义期望极大算法逐步更新混合模型中的高斯分布参数和系数,使得混合模型所确定的概率分布生成给定数据的概率最大,从而实现数据的自动学习和聚类,对于无标注的数据也可以准确判断其类别信息。该方法不仅是对概率聚类算法的扩展,可以提升无标注数据潜在结构的挖掘能力,亦可应用于工业数据的智能诊断中。附图说明图1为本发明的基于hellinger距离-高斯混合模型的聚类方法流程图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图1所示,为本发明的基于hellinger距离-高斯混合模型的聚类方法流程图。实施例中采用了iris数据集阐明实施结果。该数据集也称鸢尾花卉数据集,是一类多重变量分析的数据集。其中包含150个数据样本,每个数据包含4个属性(特征),即花萼长度和宽度、花瓣长度和宽度;数据所属的类别有3类:山鸢尾(irissetosa)、杂色鸢尾(irisversicolour)和维吉尼亚鸢尾(irisvirginica),每类50个数据。高斯混合模型的参数设置和初始值设置如下:1)高斯分量k=3,采用k均值算法初始化模型参数2)正则化系数λ=0.1。3)更新系数初值为γ=0.9。4)近邻个数l=2。5)迭代终止值δ=10-5。按照发明中所述的方法将样本输入上述高斯混合模型中,通过迭代运算更新模型参数值,直至满足终止条件。对每一个待分类的样本,迭代终止时模型输出了第1、2和3个高斯分量计算所得的后验概率值,取其中最大值对应的高斯分量的标签即为该样本的类别信息。例如,对样本x1,混合模型中第1、2和3个高斯分量输出的后验概率值为(2.66×10-40,7.98×10-28,1),则聚类标签为(0,0,1);该样本的真实类别为山鸢尾(irissetosa),相应地,真实标签为(1,0,0)。对所有的样本采用kuhn-munkres算法可以确定聚类标签与真实标签之间的对应关系,第3个高斯分量获得的聚类对应于第1个类别山鸢尾,因此对样本x1的分类结果正确。采用上述方法,对照iris数据集给出的样本所属类别信息,可以检验聚类分析的准确程度,即识别正确率,其计算式如下:表1中对比了两种聚类模型采用不同样本特征的识别正确率结果。其中一种模型为本发明提出的基于hellinger距离-高斯混合模型的聚类方法,简写为hgmm;另一种方法为常规高斯混合模型(未引入基于hellinger距离的正则项)。同时,考虑样本特征的敏感性与相关性对聚类分析的影响,表1中第二行列出了选取了所有样本特征(4个特征)的聚类分析结果,第三行和第四行分别列出了部分特征(选取3个特征)的最高和最低的分析结果。表1两种聚类模型采用不同样本特征的分类正确率对比样本特征hgmmgmm1,2,3,498%77%1,3,497%61%1,2,488%61%注:hgmm:hellinger距离-高斯混合模型(hellingerdistancegaussianmixedmodel)gmm:高斯混合模型(gaussianmixedmodel)“1”:属性值“花萼长度”(sepallength,单位:厘米)“2”:属性值“花萼长度”(sepalwidth,单位:厘米)“3”:属性值“花瓣长度”(petallength,单位:厘米)“4”:属性值“花瓣宽度”(petalwidth,单位:厘米)由该表可以看出,采用本发明提出的改进方法,可以显著提升高斯混合模型的聚类能力,对无标注数据的识别正确率最高为98%,最低为88%;同时,本发明提出的方法无需对多维特征进行约简即可获得较高的识别正确率,通过无需监督学习可以获得智能分类模型,可进一步推广应用于其他数据的无监督学习中。本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1