基于网络分割的故障诊断谱聚类方法

文档序号:6571715阅读:109来源:国知局

专利名称::基于网络分割的故障诊断谱聚类方法
技术领域
:本发明属于故障诊断领域,涉及一种聚类方法在故障诊断领域的应用一一基于网络分割的故障诊断谱聚类方法。该方法可用于解决故障诊断中的故障数据特征提取及故障识别和分类问题。
背景技术
:故障诊断本质上是模式识别问题,即根据采集到的原始数据,通过分析数据内隐含的状态特征,对正常和异常(故障)状态进行识别和区分。把数据样本(可观测量)分成单独的类,每一个样本类对应一种设备状态。因此,故障诊断实际上要解决模式分类/聚类问题。故障诊断应用常常面临下列情况i)获得大量未标记的数据样本;ii)待分类的模式的性质会随着时间发生变化,例如系统状态由正常变为某种故障;iii)不知道待处理的数据样本的具体情况,需要训练分类器。面对这些问题,无监督的聚类方法更能发挥作用,因此成为解决故障诊断问题的重要手段之一。传统的统计分析聚类方法求解故障诊断问题通常假设样本的概率密度的函数形式已知,例如,^m^"s聚类,混合模型聚类方法等,此类方法往往只能解决某些特定数据结构的聚类问题,例如凸形分布数据;而且,聚类所形成的类和类之间没有任何联系。层次聚类很好的解决了这个问题。"合并"和"分裂"两种途径都能在不同层次上揭示数据的内部结构,例如,判定树方法。随着待诊断系统复杂性的不断增加,传统的聚类分析在描述复杂数据结构,提取状态特征,获得准确的诊断结果方面存计算时间复杂度高、算法实现困难等不足。而人工智能技术,包括神经网络,模糊数理逻辑,进化算法,人工免疫系统等用于构成聚类方法,在某种程度上解决了传统故障诊断方法依赖模型,诊断效果一般的问题。例如,神经网络聚类,模糊^W^ra聚类,免疫网络聚类等。但是这些方法或多或少存在着随机性,造成每次诊断结果不确定。借助图论,网络可以很好地刻画数据点及其之间的关系,适合表示复杂的数据结构。如果把故障数据样本作为"节点",数据样本之间的联系作为"关系",故障数据样本就可以利用网络拓扑结构表示,而故障分析可以利用网络分析方法实现。网络结构中对应同一状态的节点之间关系紧密,而对应不同故障状态的节点之间关系松散。从而,故障状态聚类就等同于基于节点的关系把网络"分裂"成不同的子网络,每个子网络代表一种状态。图和网络是两个非常接近的概念,在很多场合下可以互换,网络分割很容易转换为图分割来处理。模式识别已经发展了基于图论的聚类方法,尽管这些方法在数据结构描述方面极具优势,但由于图分割问题的组合本质,对其划分判据求最优解是一个NP难问题。通常的解决措施是考虑问题的连续放松形式,即利用谱图理论获得逼近解,把原问题转化为求解矩阵的特征值和特征向量,形成了谱聚类算法。与其他聚类方法相比,谱聚类具有实现简单,可以聚类非凸分布的数据,避免了高维特征向量引起的奇异性,以及本质上不会遇到局部最优问题等优点,因此受到越来越多的关注,并已广泛应用于图像分割等模式识别领域。但由于其计算复杂度较大,且缺乏对算法实际应用的指导意见和可行思路,目前在故障诊断领域的应用未见文献报道。
发明内容针对已有技术存在的缺陷或不足,即描述复杂数据结构能力、算法确定性、运算复杂度等多方面要求难以同时满足的矛盾,本发明的目的在于,提出一种基于网络分割的谱聚类故障诊断聚类方法,以达到增强故障诊断数据知识描述能力、获得确定性诊断结果,发挥谱聚类算法的优势,并降低传统谱聚类算法计算复杂度。为了实现上述任务,本发明采取如下的技术解决方案一种基于网络分割的故障诊断谱聚类方法,该方法从网络/图的角度描述复杂故障诊断的数据结构,并利用网络分析方法分析故障,将故障诊断问题建模为网络分割,构造网络分割目标函数,利用谱图理论进行求解,具体实现步骤如下步骤一,建立故障诊断的网络模型,网络模型的建立有两个基本要素节点和节点之间的关系,节点对应故障数据样本,而它们之间的关系用相似度来描述相似度描述样本之间的关系,它是基于样本之间的距离描述的;用欧式距离满足两个样本之间距离越大,相似度越小;反之相似度越大;步骤二,构造网络分割目标函数,网络分割目标函数的构造兼顾类内相似度大,类间相似度小;借鉴最小最大切判据形成网络分割目标函数;步骤三,初始化设定算法终止条件,给定算法运行阈值参数;步骤四,算法终止条件判断如果满足终止条件就结束算法,否则,继续执行步骤五;步骤五,对网络进行两划分,返回步骤四。所述的建立故障诊断的网络模型,具体做法是令检测到的故障系统可观测量AT(每个X有p个属性)的取值范围全体构成数据样本空间AT,每一个可观测量A作为"节点",两个可观测量;c,与之间的联系作为"关系",数据样本空间AT表示成加权无向网络/图CF(F^),K={jc,,;c2,......,;cj为图的顶点,加权边^={",}表示^,与之间的相似度。故障数据聚类的实现转换为对加权无向网络/图节点进行聚类,即对G进行分割。所述的构造网络分割目标函数,基本思路是对于故障系统的各种状态,显然有对应同一状态的数据之间相似度大,而对于不同状态的数据之间相似度小,综合考虑类内类间关系,目标函数应反映最优化的"类内相似度大,类间相似度小"。所述的网络两划分,是指最优化网络分割目标函数过程。最优化判据是一个NP难问题,在实际求解中,通常利用谱图理论将问题放松到实数域求解,获得一个逼近的离散解。定义"为度矩阵,Z)(/J)=2>,,,Rayldgh定理可以证明对应于矩阵P-zrU的第2最大特征值的特征^量即为上述目标函数的最优解。故障诊断的实现即对故障诊断网络不断进行分割,直到满足一定的终止条件停止,通过以上5个步骤基于网络分割的故障诊断谱聚类算法得到最终的聚类结果。本发明带来的技术效果是1.提出了故障诊断的网络模型和故障识别的指标从网络角度研究故障诊断诊断,可以同时考虑故障变量和数据样本之间的关系,将故障诊断的属性分析和关系分析结合起来,有利于全面系统地认识故障诊断问题;而基于网络的故障模式识别指标的提出,可以定量地探讨故障模式之间的关系,为故障诊断准确性的提高提供保障。2.谱聚类算法的应用及其改进谱聚类算法是近几年来聚类研究的热点,有严格的理论基础并有不少实际应用,采用谱聚类算法解决故障诊断网络分割,可以从其它领域的应用中借鉴有益的经验。谱聚类算法的缺点在于计算复杂度太高。分析发现造成这种情况的原因主要是寻找最优分割点的过程计算量大。对该过程的计算方式进行改进,降低算法的计算复杂度。本发明与现有技术相比具有以下特点1.计算复杂度低传统谱聚类算法寻找最优分割点的过程实质上是穷举搜索过程,计算复杂度约为0(3"3),n为样本数目。对于数据量较大的故障诊断问题,很难满足其对运算速度的要求。因此本发明采用效果相同,运算速度较快的^m^ww聚类对上述网络分割实现的步骤4进行改进。^m^ra方法虽然在理论上也应该穷举所有可能划分,但实际上,采用了启发式方法,用每类的平均值来表示该类,计算复杂性约为0(nfe),"为样本数目,A为聚类数目,f为迭代次数(一般/《n),能有效降低运算量。2.具有严格的理论基础以最小最大切判据为例,可以将图的两划分理解为求指示向量》乂二^[1/ej。这样最小最大切判据可以改写成如下表达式-<formula>formulaseeoriginaldocumentpage7</formula>求解指示向量》使它最小,变形为<formula>formulaseeoriginaldocumentpage7</formula>等价于:mmmin等价于:max即,求解指示向量J,使它最大<]1VW^力将乃放松到连续值,根据iay/e/g/z定理可知,最大值为矩阵"—^Z^的第2最大特征值&,最优解力为特征值义2对应的特征向量A,此时_y=D_L2。进一步我们可证明对于"—iw^任意特征值人和相应的特征向量a,/>—i存在着相应的特征值义,和特征向量z)iv,,通过上面的理论分析,即可证明能有效找到划分。3.仿真试验性能好,检测方法优越为了验证本发明的基于网络分割的故障诊断谱聚类方法的优越性,将其与专家系统与遗传分类算法,以及经典谱聚类算法在UCI机器学习标准数据集和一个四级压縮机故障系统中的性能进行了比较。试验结果表明与专家系统和遗传分类算法相比,基于网络分割的谱聚类算法在大大减少特征样本的情况下,有效提高了分类正确率;与经典谱聚类算法相比,明显降低了计算复杂度,并且算法不受样本初始分布的影响,更加稳定。图1是多级压縮机故障系统示意图2是本发明用于部分UCI标准数据集分类的阈值影响结果;图3是本发明用于多级压縮机故障诊断的阈值影响结果;图2和图3中,图(a)表示阈值对正确率的影响,图(b)表示阈值对特征数据个数的影响;图(C)表示阈值对运算时间的影响;为了验证本发明的基于网络分割的故障诊断谱聚类方法的优越性,以下结合实施例对本发明作进一步的详细描述。具体实施例方式本发明的基于网络分割的故障诊断谱聚类方法应用于UCI(UniversityofCalifornia,Irvine)标准数据集的聚类和一个四级压縮机故障数据的诊断问题。UCI标准数据集是模式识别的公用数据,便于和目前已知算法探测结果进行比较;四级压縮机故障数据为本发明提供实际应用平台;通过对比本发明和传统谱聚类算法提取故障特征数据数目和诊断正确率,可以检验本发明发现故障状态的能力。针对上述具体问题,对本发明设计的基于网络分割的故障诊断谱聚类方法具体描述如下1)建立故障诊断的网络模型网络构成具有两个基本要素,节点和节点之间的关系。节点对应故障数据样本,而它们之间的关系用相似度来描述。相似度描述了样本之间的关系,通常是基于样本之间的距离描述的。常用欧式距离,满足两个样本之间距离越大,相似度越小;反之相似度越大。2)构造网络分割目标函数已有谱聚类研究中综合考虑反映类内类间的有规范切判据和最小最大切判据。借鉴最小最大切判据形成网络分割目标函数,表示为cwf(C,C)cwf(C,C)其中,C和r为两个分离的子集,^(C,f)=S^,CW"C,C)=2>V,3)初始化设定算法终止条件,给定阈值"4)算法终止条件判断如果满足终止条件就结束算法,否则,继续执行第5)步;5)对网络进行两划分计算相似度矩阵^、度矩阵"以及矩阵/^D—U;计算户的特征向量,求出第2最大特征值^对应的特征向量/"2;将G中各元素按递减顺序排列,利用两划分数据,得到两个集合M,和3/2和对应的判据值。分别将Mi和M2作为代分割网络,返回步骤4)。数据说明i)UCI标准数据集从UCI机器学习数据库中选取Iris、Wine、Breast-cancer-Wisconsin(Breast-W)、Pima-indians-diabetes(Diabetes)等4个数据集合做测试。Iris数据集为用萼片和花瓣的长度、宽度来区分三种不,Virginica)。数据集共150个数据样本,每一类50个数据样本。Wine数据集记录在意大利相同地区葡萄酒制作的化学分析结果,分析结果确定了三种葡萄酒中每种的13个属性的量值,共有178个数据样本。Breast-W数据集收集683个肿瘤患者的病例样本,每个样本包含9个特征属性,由这9个属性判断样本是良性还是恶性。Diabetes数据集对比马印第安人是否患糖尿病进行描述。共768个样本,每个样本包括心脏舒张血压,三头肌皮肤褶皱厚度等8个属性。ii)多级压縮机故障诊断多级往复式压縮机是一个多因素、强耦合、强非线性、难以建模的复杂系统,从其纷繁复杂的测量数据中获得有用的故障信息相当困难,而有用的故障信息获取对于压縮机故障状态又起到决定性作用。对一个四级压縮机进行试验,如图1所示,在其第l级排气阀故障,第2级吸气阀故障以及正常的情况下,分别获得1022、806、2462组数据,每组样本包含43个变量,采样间隔60秒。初步分析表明,其中有6个变量仅用来标定采样顺序,余下的37个变量才与系统状态有关,是系统的状态变量,在37维故障数据中,有8维比较有代表性,分别是每一级的压力^、a、p3、a和温度K、r2、r3、r4。对这8维数据进行聚类。试验说明试验包括算法性能测试和参数影响测试两部分。为了消除各状态变量在量纲和数值区间上的差别,对数据集进行归一化处理,使所有变量的取值落在[O,l]区间。算法性能测试试验过程为每次试验随机选择每类数据中的一半作为训练数据,通过谱聚类方法获得特征数据;其余作为测试数据,通过"近邻原则"得到最终的聚类结果。每个数据集均进行50次独立试验,分类正确率采用下式计算a=ixioo%其中,为正确分类的数据数目,为测试数据总数目。参数影响试验基于网络分割的故障诊断谱聚类方法中仅有一个参数——阈值"。对阈值影响进行分析。每次试验随机选择每类数据中的一半作为训练数据,其余作为测试数据;阈值从O.l到5以步长0.1变化。每个数据集均进行50次独立试验。试验结果UCI部分数据集算法性能测试结果如表1所示。表1试验结果<table>tableseeoriginaldocumentpage11</column></row><table>试验表明,本发明算法与其它谱算法在正确率方面差异很小,但本发明方法取得这样的诊断效果是在很短的时间内,以及提取较少特征数据的前提下获得的。另外,每次试验采用随机选取的方式确定数据集,试验结果统计方差充分验证了算法的稳定性和对各种情况的适应能力。与专家系统以及遗传分类算法在UCI数据集上的试验结果比较如表2所示表2与其它算法试验结果比较<table>tableseeoriginaldocumentpage12</column></row><table>试验表明,本发明算法在大大减少特征数据个数的情况下,得到较高的故障诊断正确率;而且算法更加稳定。如图2所示阈值影响结果,表明阈值对正确率、特征数据个数以及运算时间都有较大的影响1)阈值过小时,算法判据无解,无法对数据进行划分。2)当阈值大到一定程度时,算法判据的解受阈值影响。此时,随着阈值的增大,能够多次对数据集进行细分,由此得到较多的特征数据样本,某种程度上提高了聚类正确率,但多次划分明显增大了运算量。所以,一般地,在保证特征数据个数的情况下应该在阈值有效范围内取相对小的值。多级压縮机故障诊断试验结果如表3所示表3试验结果<table>tableseeoriginaldocumentpage12</column></row><table>为了比较,试验中取相同阈值。由试验结果可知,本发明算法和传统最小最大切算法在正确率和特征数据个数相差不大的情况下,本发明算法的运算速度明显提高。而且,尽管50次试验的训练样本和测试样本均为随机选取,但正确率方差很小,充分验证了本发明算法不受数据初始分布的影响。如图3所示阈值影响结果,和标准数据集测试结果相同;表明阈值太小时无法进行故障状态识别;阈值达到一定有效值后,阈值越大,分割次数越多,提取的特征数据个数越多,运算时间越长,正确率越高;但阈值再大,正确率并没有明显提高,而付出的代价(提取的特征数据个数和运算时间)却明显增大。阈值的选择应该兼顾正确率和代价。UCI标准数据机和一个多级压縮机故障诊断实例表明,本发明提出的基于网络分割的故障诊断谱聚类算法能在较短的运算时间内提取故障状态特征,进一步完成故障分类与识别,获得较高的诊断正确率。该方法是一种实用有效的故障诊断方法。权利要求1.一种基于网络分割的故障诊断谱聚类方法,其特征在于,该方法从网络/图的角度描述复杂故障诊断的数据结构,并利用网络分析方法分析故障,将故障诊断问题建模为网络分割,构造网络分割目标函数,利用谱图理论进行求解,具体实现步骤如下步骤一,建立故障诊断的网络模型,网络模型的建立有两个基本要素节点和节点之间的关系,节点对应故障数据样本,而它们之间的关系用相似度来描述相似度描述样本之间的关系,它是基于样本之间的距离描述的;用欧式距离满足两个样本之间距离越大,相似度越小;反之相似度越大;步骤二,构造网络分割目标函数,网络分割目标函数的构造兼顾类内相似度大,类间相似度小;借鉴最小最大切判据形成网络分割目标函数;步骤三,初始化设定算法终止条件,给定算法运行阈值参数;步骤四,算法终止条件判断如果满足终止条件就结束算法,否则,继续执行步骤五;步骤五,对网络进行两划分,返回步骤四。2.如权利要求1所述的基于网络分割的故障诊断谱聚类方法,其特征在于,所述的建立故障诊断的网络模型具体做法是令检测到的故障系统可观测量a:的取值范围全体构成数据样本空间a:,其中,每个JC有;个属性,每一个可观测量A:,作为节点,两个可观测量x,与之间的联系作为关系,数据样本空间at表示成加权无向网络/图(f(f^),f={x,,x2,......,jc}为图的顶点,加权边j={}表示x,与^之间的相似度,故障数据聚类的实现转换为对加权无向网络/图节点进行聚类,即对g进行分割。3.如权利要求l所述的方法,其特征在于,所述的网络两划分的实现基于谱图理论,采用谱聚类实现,其中的寻找最优分割点采用A-m^ra改进。全文摘要本发明公开了一种基于网络分割的故障诊断谱聚类算法,该方法利用节点和关系构成的网络描述故障样本特征,把故障诊断建模为网络分割;借鉴综合评价“类内相似度大,类间相似度小”的最小最大切判据构造分割的目标函数;基于谱图理论,通过谱聚类方法对目标函数最优化求解;该算法能以更快的运算速度提取状态特征,并获得较高的诊断正确率。UCI标准数据集和一个四级压缩机故障诊断实施例验证了该算法的快速和有效。文档编号G06F17/00GK101178703SQ20071001917公开日2008年5月14日申请日期2007年11月23日优先权日2007年11月23日发明者健庄,张进华,杜海峰,娜王申请人:西安交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1