基于C4.5决策树算法的地下铲运机故障诊断方法

文档序号:25608177发布日期:2021-06-25 14:20阅读:81来源:国知局
基于C4.5决策树算法的地下铲运机故障诊断方法
基于c4.5决策树算法的地下铲运机故障诊断方法
技术领域
1.本发明涉及地下铲运机故障诊断技术领域,特别是指一种基于c4.5决策树算法的地下铲运机故障诊断方法。


背景技术:

2.随着地下金属矿开采规模的扩大与采矿技术的发展,运用于地下矿山的机械设备的数量和种类也在不断增加,发生故障的概率也在逐渐变大。相关机械设备产生故障时,对高度机械化采矿系统的总作业成本有非常大的影响,而且可能导致工作人员的人身安全受到威胁,因此对矿山设备故障诊断问题的研究具有十分重要的现实意义。
3.目前广泛运用的故障诊断方法主要有基于经验模型和基于物理模型的传统故障诊断方法。专家系统是一种典型的基于经验模型的决策技术,在生产调度、故障诊断和管控成本等方面有广泛的应用,但是这种方法过于依赖先验知识,在某些情况下可靠性不足,且大多只能实现查询功能。物理模型是指将对系统机制的了解转化为数学公式,然而对于复杂的机电系统又不便于将其物理模型用数学方法准确地刻画出来,故而这种方法不适用于复杂的系统。因此,本发明提供了一种基于分类决策树算法的地下铲运机故障诊断方法来解决现有技术中的不足。


技术实现要素:

4.本发明要解决的技术问题是提供一种基于c4.5决策树算法的地下铲运机故障诊断方法,高效准确地对地下铲运机的故障进行诊断,确保设备安全可靠地运行。
5.该方法首先采集并提取地下铲运机传感器样本数据,然后将采集的样本数据经健康状态标定后打上标签,划分数据集,将样本数据分为训练集和测试集,再利用训练集样本数据生成决策树模型,进行剪枝,最后利用测试集数据对剪枝后的决策树模型进行测试,直到达到要求,生成最终的决策树,对故障进行诊断。
6.具体包括步骤如下:
7.(1)采集并提取地下铲运机传感器样本数据,并对数据进行预处理;
8.(2)将预处理后的样本数据进行健康状态标定,根据模糊理论中的归一化方法将数据划分为健康、亚健康和故障三种类型;
9.(3)划分数据集,将样本数据分为训练集和测试集;
10.(4)利用训练集样本数据生成决策树模型,进行剪枝;
11.(5)利用测试集数据对剪枝后的决策树模型进行测试,直到达到要求,生成最终的决策树,对实际出现的故障进行诊断。
12.其中,步骤(1)中采集的数据包括发动机油温、发动机油压、发动机进气歧管压力、发动机进气歧管温度、发动机冷却液温度、发动机转速、发动机扭矩、发动机燃油率、发动机负载、大臂与铲斗压力、转向泵压力、变速箱油温、变速箱油压、液压油温度、前轴制动压力、后轴制动压力、制动液压油温度、制动回路气压、右前轮胎压力、油门踏板位置、车速共21维
参数;数据预处理包括数据清洗、数据插补和特征参数选取。
13.步骤(2)中归一化方法具体为:设样本数据中总共有n个维度的参数,其中第i维参数某一次提取的数据为x
i
,样本中该维度参数的最大值为x
s
,最小值为x
z
,上阈值为x
y
,其中x
s
≥x
y
,则数据x
i
经过归一量化后的值可由下式得到:
[0014][0015]
其中,λ
i
为数据x
i
归一化后的值,
[0016]
考虑到实际工业生产中,当装备发生故障时,只有部分维度的参数会有明显的异常,即这些维度的参数与对应故障之间的关联性比较大,要根据多维参数综合评定健康状态,就需要预先对参数和量化状态进行相关性分析,即赋予各维参数不同的“权重”,设第i维参数和量化健康状态的相关系数为α
i
,某一次提取的数据为x
i
,将各个维度参数与相关系数相乘并求和如下:
[0017][0018]
其中,x
i
为第i次采集数据的n维参数的综合评定结果,
[0019]
之后再根据该结果的最大值x
s
及最小值x
z
对其进行归一量化如下:
[0020][0021]
其中,β
i
为综合评定结果x
i
归一化后的值。
[0022]
步骤(2)中三种健康类型划分依据为:归一化值在[0,0.5)区间内为健康,归一化值在[0.5,0.75)区间内为亚健康,归一化值在[0.75,1)区间内为故障。
[0023]
步骤(3)中划分数据集具体为:分别在步骤(2)三种类型的样本数据中随机选取90%作为训练集,10%作为测试集。
[0024]
步骤(4)中建立决策树并剪枝的具体过程如下:
[0025]
利用c4.5算法构造决策树,决策树的建树过程可以看作是一种连续性的递归过程,整个判断的流程可以用if

then规则来概括,从任意一个父结点出发到下一个子结点,经过一次选择,对于连续型属性,选择条件一般为一个阈值,该过程会一直进行,直到到达叶结点,叶结点即是对最终结论的判定点,c4.5算法是在id3算法基础上提出的一种改进算法,id3算法在子节点选择属性时用的是子树的信息增益,倾向于可取值较多的属性,在某些情况下这些属性可能不会提供太多有价值的信息,为此c4.5算法改用信息增益率来选择属性,即
[0026][0027]
式中gain_ratio(d,a)是样本d中属性a信息增益率的大小,iv(a)称为属性a的“内在价值”,gain(d,a)为样本d中属性a信息增益的大小,t为属性a可能的取值数;
[0028]
先计算所有属性的平均信息增益,将小于该均值的剔除,再从剩余的属性中选择信息增益率最大的属性作为节点处的分裂属性;之后再对建好的决策树进行剪枝,这里用到的是后剪枝,由完全成长的树通过删除节点的分枝并用树叶来替换的方式剪去子树而形
成剪枝后的决策树。
[0029]
步骤(5)中要求为诊断准确率不小于90%。
[0030]
本发明的上述技术方案的有益效果如下:
[0031]
上述方案中,采用通过c4.5决策树算法建立诊断模型的方法替代了人工进行故障诊断的过程,实现了对地下铲运机的故障诊断,且诊断模型取得了较高的准确率。提高了故障诊断的效率。
附图说明
[0032]
图1为本发明方法的流程图;
[0033]
图2为本发明建立的决策树的结构图;
[0034]
图3为本发明不同训练数据剪枝前后准确率变化曲线。
具体实施方式
[0035]
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0036]
本发明提供一种基于c4.5决策树算法的地下铲运机故障诊断方法。
[0037]
如图1所示,本方法首先采集并提取地下铲运机传感器样本数据,然后将采集的样本数据经健康状态标定后打上标签,划分数据集,将样本数据分为训练集和测试集,再利用训练集样本数据生成决策树模型,进行剪枝,最后利用测试集数据对剪枝后的决策树模型进行测试,直到达到要求,生成最终的决策树,对故障进行诊断。
[0038]
下面结合具体实施例予以说明。
[0039]
实施例1
[0040]
如图1所示,一种基于c4.5决策树算法的地下铲运机故障诊断方法,包括以下步骤:
[0041]
步骤一:采集并提取地下铲运机传感器样本数据;并对数据进行清洗、插补等预处理过程;
[0042]
步骤二:将预处理后的样本数据进行健康状态标定;根据模糊理论中的归一化方法将数据划分为健康、亚健康和故障三种类型;
[0043]
步骤三:划分数据集,将样本数据分为训练集和测试集;
[0044]
步骤四:利用训练集样本数据生成决策树模型,然后进行剪枝;
[0045]
步骤五:利用测试集数据对剪枝后的决策树模型进行测试,直到达到要求,生成最终的决策树,对故障进行诊断。
[0046]
下面对上述五个步骤进行进一步阐述。
[0047]
所示步骤一中采集到的地下铲运机传感器数据有发动机油温、发动机油压、大臂与铲斗压力、转向泵压力、车速等共21维参数(表1)。将这21维参数经过预处理后得到用于建立决策树模型的样本数据(表2)。
[0048]
表1参数集合
[0049][0050]
表2部分样本数据
[0051][0052]
所述步骤二中对样本数据的健康状态标定主要用到的方法为归一化。
[0053]
设样本数据中总共有n个维度的参数,其中第i维参数某一次提取的数据为x
i
,样本中该维度参数的最大值为x
s
,最小值为x
z
,上阈值为x
y
,其中x
s
≥x
y
,则该数据经过归一量化后的值根据该归一化值可评价此维度参数的健康状态,越接近1健康状态越差。这里需要根据多维参数综合评定健康状态,因此需要对参数和量化状态进行相关性分析,即赋予各维参数不同的“权重”,得到相关系数α
i
。设第i维参数某一次提取的数据为x
i
,将各个维度参数与相关系数相乘得到第i次采集数据的n维参数的综合评定结果之后再根据该结果的最大值x
s
及最小值x
z
得到综合归一化值根据归一化值的结果制定如表3的划分规则。部分数据归一化的结果及健康标定如表4所示。
[0054]
表3健康状态划分规则
[0055][0056]
表4部分数据归一化结果及健康状态
[0057][0058]
所述步骤三中,在三种状态标签的数据中选取等量数据进行划分,随机等比例抽取90%用于训练,10%用于测试。
[0059]
所述步骤四中决策树模型的建立可分为两个环节,其具体步骤如下:
[0060]
第一步:用训练数据建立决策树
[0061]
首先利用c4.5算法构造决策树。如图2所示,从任意一个父结点出发到下一个子结点,经过一次选择。选择的属性需要为离散型。然而在矿山工业生产中,传感器采集到的信息绝大多数都是连续性数据,从理论上看这一类数据的取值数是无限多个,需要用二分法将其离散化。样本总数为d,对于某属性a的数据b,若其共有n个不同的取值,将这些值按照大小依次排列,记作{b1,b2,

,b
n
}。取任意两个相邻值b
i
和b
i+1
的中点作为划分点将b分成两部分,取值小于划分点大小的部分记为其余的部分记为则可得到离散属性a的信息增益之后再根据该属性在取值数为t的情况下,取t时的样本数量d
t
来计算其内在价值得到属性a的信息增益率以此作为划分的依据。该过程会一直进行,直到到达叶结点。叶结点即是对最终结论的判定点,输出最后的分类结果。
[0062]
第二步:对树进行剪枝
[0063]
对树的剪枝用到的是后剪枝的方法,由完全成长的树通过删除节点的分枝并用树叶来替换的方式剪去子树而形成剪枝后的决策树。剪枝过程的基础是将损失函数或者代价函数极小化。若决策树叶结点的总数为m,其中某结点m的样本总数为d
m
,样本中类别为a的样本个数为d
ma
,由结点m信息熵ent
m
(m)的大小,得到损失函数叶结点的总数m表示模型的复杂程度,参数α决定剪枝后决策树的形状。剪枝的过程实际上也是参数α确定时的选择过程。当α为0时,剪枝只考虑拟合程度,而不考虑复杂程度。当α大于0时,α的取值越大,最终决策树的形状越简单。
[0064]
之后对剪枝后的模型的采用交叉验证的方法进行测试评估。将训练集数据按照一定比例再分为k个子样本,其中一个作为验证集用来验证剪枝后模型的准确率,其余k

1个样本用来训练。交叉验证重复k次,将准确率最高的树作为最后的模型输出。剪枝前后代入不同的数据量得到的模型准确率变化曲线如图3所示。
[0065]
利用最后生成的决策树模型对地下铲运机的故障状态进行判断,选取了两种故障类型,共测试了5022组数据,测试结果如表5所示。
[0066]
表5模型测试结果
[0067][0068]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1