一种FastRVM污水处理故障诊断方法

文档序号:9726810阅读:530来源:国知局
一种Fast RVM污水处理故障诊断方法
【技术领域】
[0001 ] 本发明涉及污水处理领域,特别涉及一种Fast RVM污水处理故障诊断方法。
【背景技术】
[0002] 随着我国工农业经济的迅猛发展,城市进程不断加快,工业、农业废水及生活污水 排放量与日倶增,不仅加剧了市政污水处理负荷,还使得人类赖以生存的水资源遭到了极 大的破坏,各大湖泊出现了不同程度的富营养化,城市水环境安全已经成为了大众关注的 焦点。污水处理厂作为自然水体的关键保护屏障,其运行好坏将直接影响水环境的安全程 度。污水生化处理工艺复杂,影响因素非常多,污水处理厂在实际运行过程中难以保持长期 稳定的运行,一旦发生运行故障常常会引起出水水质不达标、运行费用增高和环境二次污 染等严重问题。因此,必须对污水处理厂运行状态进行监控,及时诊断出污水处理过程故障 并予以处理。污水处理运行状态的故障诊断本质上是一个模式分类问题,而在实际状态运 行分类中,常常会遇到污水数据集的分布不均衡问题,传统的机器学习方法在用于不平衡 数据分类时,模型分类正确率无法满足要求,给污水生化处理的故障诊断带来了极大的困 难。
[0003] 故障诊断技术是一种通过可见、可测量的关键指标所反映的异常状态,找出具体 故障和原因,并提出相应的解决措施的技术。故障诊断技术产生之初,是基于传感器和动态 测试技术,通过信号处理技术进行设备的故障分析与诊断。随着科技的不断进步,生产设备 或工艺系统朝着复杂化、多元化、大型化发展,传统的故障诊断技术已不能满足现代设备的 诊断需求。而人工智能发展为故障诊断注入了新的活力,通过组织相关领域的专业知识、模 拟人类思维的推理方式、建立故障诊断模型,将故障诊断技术引向智能化、系统化、网络化, 它在故障诊断领域中的进一步应用,推动了智能故障诊断技术的迅速发展。目前,在污水生 化处理系统故障诊断方面,国内外专家学者所采用的技术主要有,基于知识的专家系统技 术、支持向量机方法、粗糙集理论、基于神经网络的方法等。但是这些技术也存在一定的局 限性,专家系统存在知识获取瓶颈问题,若建立的专家知识库不完备,则有可能导致推理混 乱;支持向量机受到核函数必须满足Mercer条件和惩罚参数C及不敏感参数计算量过大等 限制;粗糙集理论在处理异常或噪声数据方面常常会显得无能为力,并且在建立模型时需 要大量的数据样本;神经网络容易陷入局部最优,且有过拟合及收敛速度慢的缺点;而且关 于如何处理污水数据类型之间的平衡性,并且不影响故障诊断的性能,在目前的污水故障 诊断研究中较少提及。

【发明内容】

[0004] 本发明的目的在于克服现有技术的缺点与不足,提供一种Fast RVM污水处理故障 诊断方法,通过基于聚类的快速相关向量机对多数类数据压缩和虚拟少数类向上采样的对 少数类数据扩充,降低了污水数据的不平衡性,同时采用FastRVM对污水生化处理过程建立 分类模型,有效地提高了对污水生化处理系统的故障诊断精度。
[0005] 本发明的目的通过以下的技术方案实现:
[0006] -种Fast RVM污水处理故障诊断方法,包含以下顺序的步骤:
[0007] si.剔除污水输入和输出的数据中的异常点,由于各输入变量量纲的不同,对其进 行归一化处理,归一化到[0,1 ]区间中;
[0008] S2.基于聚类的快速相关向量机多数类数据压缩模块,将训练样本中的多数类样 本数据采用K-means方法进行聚类;
[0009] S3.虚拟少数类向上采样的少数类数据扩充模块将训练样本中的少数类样本数据 采用SMOTE(虚拟少数类向上采样方法)进行数据扩充;
[0010] S4.将处理后的所有类的样本数据重新组合构成新的训练集,建立"一对一"的快 速相关向量机多分类模型,对建好的分类模型输入测试集进行投票,得到测试结果,从而实 现对污水处理的整体运行状态的识别。
[0011] 所述的步骤S2,具体为:
[0012] S201、假设多数类样本集X={X1,X2,…,Xl,…,Xn}为r^R d空间的数据,从η个数据 对象中随机选择k个对象作为初始的聚类中心;
[0013] S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相 近的聚类中心中;计算距离的公式如下,假设c伪第j个类的中心,则^与^的距离为:
[0015] S203、根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为
Φ包含了如个样本,则该类的聚类中心戈
其中< 为类中心Cj的第m个属性,计算公式如下: j
[0017] S204、不断重复S202、S203步骤,直到标准测度函数收敛为止(从表现形式上看即 更新后的类中心与更新前一致,具体就是预先给标准测度函数设定精度,将更新后的数据 与更新前数据带入标准测度函数能够达到精度则停止更新),采用均方差作为计算标准测 度函数,其形式为:
[0019] 将多数类样本聚类后,对聚类后的样本类别进行快速相关向量机分类建模,从而 通过建模获取相关向量。因为相关向量代表的是该类样本数据的核心数据,所以用得到相 关向量作为该多数类新的训练集,从而在压缩多数类数据的同时也能最大程度上的保留数 据的有效信息。
[0020] 所述的步骤S3,具体为:
[0021] S301、对少数类中的每一个样本X,以欧几里得距离为标准计算它到少数类样本集 中每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标,这里k取5;
[0022] S302、根据向上采样的倍率N,对每一个少数类样本X,从其k个最近邻中随机选取N 个样本,记为yi,y2,…,yN;
[0023] S303、在原样本x与yj( j = l,2,···,N)之间进行随机线性插值,构造新的少数类样 本Pj,即新样本:
[0025] 其中rand(0,l)表示区间(0,1)内的一个随机数。
[0026] 步骤S4中,"一对一"的快速相关向量机多分类模型,其建立过程如下:
[0027] 相关向量机是通过最大化边际似然函数p(t |α,σ2)的方法确定超参数α和方差σ2 的,等价于最大化为其对数;记以幻=1吨[?(〖|0,02)],整理有 :
[0030]为了便于最大化L(c〇,对矩阵C进行等价变换,如下:
[0032] 其中< ' _ ^ ~此矩阵表示当ai =⑴时,相应的基向量Φ?被移除后样
τηΦ? 本对应的协方差矩阵,根据矩阵相关性质整理可得
(7)
[0035]因此公式(5)可以改写为
[0037]其中L(cui)表示为当ai = TO时,相应的基本向量(^被移除后所对应的边界似然函 数的对数,而1(h)表示边界似然的对数函数中只与αι有关的独立部分;
[0038] 式子(8)对ai求偏导有
[0041]所以公式(9)可改写为
[0043]令公式(11)等于零,考虑到"是方差值必须为正,所以当g>S;时有
[0045]对L(a)关于ai求二阶偏导有
[0047]综合公式(11)和(12)进行分析可知
[0049]所以当这>$时,公式(14)左边的表达式是恒小于零的,并对以上推导公式分析 可得,L(a)有唯一最大值点为
[0051] 根据上面的分析,通过以下方法最大化贝叶
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1