本发明涉及机械故障诊断技术领域,具体涉及一种基于集成迁移学习的轴承故障诊断方法。
背景方法
轴承是机械传动系统中的重要支承部件,受恶劣工况影响,故障频发,往往会严重影响了企业的正常生产运营,为保证设备的正常运行,轴承的故障诊断至关重要。基于机器学习的传统故障诊断方法,如adaboost、决策树、最邻近结点算法(knn,k-nearestneighbor)和支持向量机(svm,supportvectormachine)等进行诊断分析时,需满足以下两个条件:1、测试与训练数据分布一致;2、训练样本要足够多。但机械设备在实际工作过程中由于工况复杂多变,往往会导致产生的状态信息数据分布不一致,进而影响故障诊断的精度。
迁移学习是运用己有(源域)知识,对不同但相关领域(目标域)问题进行求解的一种机器学习方法,是一种可以有效解决传统机器学习以上两个问题的方法,其优势在于可以迁移已有的知识来解决目标域中仅有的少量有标签样本甚至无标签样本数据的学习问题。但迁移学习方法在机械设备故障诊断领域应用较少。
技术实现要素:
本发明的目的就是要针对现有技术的不足,提供一种基于集成迁移学习的轴承故障诊断方法,其解决了因工况复杂多变而产生数据分布不一致,导致传统机器学习进行故障诊断分析时精度低的问题。
为实现上述目的,本发明所涉及的一种基于集成迁移学习的轴承故障诊断方法,包括如下步骤:
步骤1:将采集到的某一设备中的轴承振动数据a作为目标数据,并将其它同型号轴承在其它设备中不同工况下的振动数据b作为源域数据,对数据a和b进行特征提取,并进行特征优选;
步骤2:从数据b中寻找与目标数据a相似度高的源域数据;
步骤3:对筛选后的源域数据进行n次随机采样,得到n个源域样本集;
步骤4:将步骤3中的n个源域样本集分别与目标数据混合,组成n个训练样本集;
步骤5:用支持向量机对步骤3中的n个训练样本集进行训练,得到n个分类器,但不限于只采用支持向量机对样本集进行训练;
步骤6:对故障状态数据进行测试并集成投票,票多者作为最终诊断结果。
进一步地,所述步骤1中,所述特征优选的步骤为:
步骤1.1:计算类内中心,并按类内中心从小到大对特征进行排序;
步骤1.2:计算重复度。
更进一步地,所述步骤1.1中,所述类内中心的计算公式为:
式中:
更进一步地,所述步骤1.2中,所述重复度cp,f的计算公式为:
式中:npi,f表示当
进一步地,所述步骤2中,所述源域数据选取的步骤为:
步骤2.1:计算每个特征参数类内距离所占总类内距离的比例;
步骤2.2:计算某一特征分散度占所有特征分散度的比重;
步骤2.3:计算最终的影响因子;
步骤2.4:计算评价系数;
步骤2.5:计算源域置信度。
作为优选项,所述步骤2.1中,所述类内距离dp,f的计算公式为:
作为优选项,所述步骤2.2中,所述比重η的计算公式为:
作为优选项,所述步骤2.3中,所述影响因子γ的计算公式为:
γ=cp,f(1-η)。
作为优选项,所述步骤2.4中,所述评价系数β的评价方法为:
β设为评价系数,大于β则其对应的特征参数视为敏感特征参数,小于β的则剔除,一般将γ中前40%的值的最小值作为β。
作为优选项,所述步骤2.5中,所述源域置信度的计算公式为:
式中:
本发明的优点在于:其作为一种故障分类方法,可以对同型号轴承在不同设备不同工况下的故障进行有效识别。传统机器学习方法存在由于设备工况复杂多变导致数据分布不一致的问题,而导致其在进行轴承故障诊断识别时精度低。本发明提高轴承故障诊断识别精度,解决了因工况复杂多变而产生数据分布不一致,导致传统机器学习进行故障诊断分析时精度低的问题。
附图说明
图1为本发明的工作流程图;
图2为整体诊断的工作流程图;
图3为实施例1的结果示意图;
图4为特征选择方法与其它方法的比较图;
图5为有特征选择的效果图;
图6为没有特征选择的效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的详细描述:
如图1和2,一种基于集成迁移学习的轴承故障诊断方法,包括如下步骤:
步骤1:将采集到的某一设备中的轴承振动数据a作为目标数据,并将其它同型号轴承在其它设备中不同工况下的振动数据b作为源域数据,对数据a和b进行特征提取,并进行特征优选;
步骤1.1:计算类内中心,并按类内中心从小到大对特征进行排序:所述类内中心的计算公式为:
式中:
步骤1.2:计算重复度:所述重复度cp,f的计算公式为:
式中:npi,f表示当
步骤2:从数据b中寻找与目标数据a相似度高的源域数据;
步骤2.1:计算每个特征参数类内距离所占总类内距离的比例:所述类内距离dp,f的计算公式为:
步骤2.2:计算某一特征分散度占所有特征分散度的比重:所述比重η的计算公式为:
步骤2.3:计算最终的影响因子:所述影响因子γ的计算公式为:
γ=cp,f(1-η)。
步骤2.4:计算评价系数:所述评价系数β的评价方法为:
β设为评价系数,大于β则其对应的特征参数视为敏感特征参数,小于β的则剔除,一般将γ中前40%的值的最小值作为β。
步骤2.5:计算源域置信度:所述源域置信度的计算公式为:
式中:
步骤3:对筛选后的源域数据进行n次随机采样,得到n个源域样本集;
步骤4:将步骤3中的n个源域样本集分别与目标数据混合,组成n个训练样本集;
步骤5:用支持向量机对步骤3中的n个训练样本集进行训练,得到n个分类器,但不限于只采用支持向量机对样本集进行训练;
步骤6:对故障状态数据进行测试并集成投票,票多者作为最终诊断结果。
本发明在实际使用时:
第一方面,本发明提供一种特征选择方法——类内类间分散度,包括以下步骤:
(1)对不同转速和负载的轴承振动数据进行特征提取,描述如下:
(2)计算类内中心,并按从小到大排序:
(3)计算重复度cp,f:
式中:当
(4)计算每个特征参数类内距离所占总类内距离的比例。
计算类内距离dp,f:
某一特征分散度占所有特征分散度的比重η:
(5)最终的影响因子γ越大,表明其对应的特征参数越敏感:
γ=cp,f(1-η)
(6)评价系数β:
将β设为评价阈值,大于β则其对应的特征参数视为敏感特征参数,小于β的则剔除。
第二方面,本发明提供一种基于选择性集成迁移学习的轴承故障诊断方法,包括:
(1)将特征选择后的数据计算源域置信度,并剔除掉置信度后20%的样本。
(2)对筛选后的源域进行n次随机采样,得到n个源域样本子集。
(3)将n个源域子集分别与目标训练数据混合,组成训练数据并得到n个svm分类器,但不限于svm分类器。
(4)集成投票,票多者为最终的诊断结果。
实施例1:
(1)将采集到的所有轴承振动数据进行特征提取,且特征参数至少5个以上。
(2)对数据特征优选,描述如下:
提取特征参数,描述如下:
计算类内中心,并按从小到大排序:
计算重复度cp,f:
式中:
计算每个特征参数类内距离所占总类内距离的比例。
计算类内距离dp,f:
某一特征分散度占所有特征分散度的比重η:
最终的影响因子γ:
γ=cp,f(1-η)
评价系数β:
γ越大,表明其对应的特征参数越敏感,本文将β设为评价阈值,大于β则其对应的特征参数视为敏感特征参数,小于β的则剔除,一般将前40%影响因子中的最小值作为β。
(3)将采集到一个设备的振动数据作为目标数据m,并将其它同型号但不同转速和负载下的振动数据作为源域数据y,其中:
m={(a1,x(a1)),(a2,x(a2)),…,(an,x(an))},y={(c1,x(c1)),(c2,x(c2)),…,(cm,x(cm))},且ai和ci是数据的特征矢量,x(a)和x(c)返回数据样本的标签,x(a),x(c)∈{1,2,3,4,5,6},且m>n。
(4)计算源域置信度,并剔除掉置信度后20%的样本。
其中
(5)对筛选后的源域进行n次随机采样,得到n个源域样本子集。
(6)将n个源域子集分别与目标训练数据混合,组成训练数据并得到n个svm分类器。
(7)集成投票,票多者为最终的诊断结果。
同时对最终的输出结果作如下约定:1表示正常,2表示轴承滚动体故障,3表示轴承外圈12点钟方向故障,4表示轴承内圈故障,5表示轴承外圈3点钟方向故障,6表示外圈6点钟方向故障。
为了充分获取轴承状态信息,本次提取了标准差、峭度、整流平均值、波形因子、峰值因子、裕度因子、均方根、脉冲因子、峭度因子和最大奇异值等10种特征参数,且考虑到特征参数的冗余性或不相关性,利用本发明提出的特征参数优选方法对其进行了优选,结果见图3,其中评价系数β=0.75,从图中可以看出有4个特征参数是敏感特征。
为了验证本特征选择方法的有效性,由图4结合下表1进行了两种特征选取方法的比较,本特征选取方法(类内类间分散度)与对应的影响因子基本吻合,对数据的选择上较另外一种方法更加精准。
表1特征选择方法的比较结果
如图5和6,为了验证本发明方法的有效性,与其它两种机器学习方法进行了对比,结果表明本方法明显优于其它方法,也侧面验证了本特征选取方法的有效性。
最后,应当指出,以上实施例仅是本发明较有代表性的例子。显然,本发明不限于上述实施例,还可以有许多变形。凡依据本发明的方法实质对以上实施例所做的任何简单修改、等同变化及修饰,均应认为属于本发明的保护范围。