基于深度学习的挖掘机故障知识图谱的构建方法

文档序号：26804955发布日期：2021-09-29 02:26阅读：177来源：国知局

1.本发明涉及挖掘机故障诊断领域，尤其涉及一种基于深度学习的挖掘机故障知识图谱构建方法。

背景技术：

2.履带式挖掘机是民用建筑施工、水利工程、道路桥梁工程等基建工程中必不可少的工具。相比于轮式机械，履带式挖掘机在作业过程中面临的环境和振动情况会更加恶劣。长时间运行于恶劣环境中将会使履带式挖掘机容易发生故障，造成施工建设停滞，增加施工风险，严重影响施工进度，进而使相关企业的经济效益和施工人员的生命安全受到影响。因此，研究履带式挖掘机的故障诊断方法，减少故障诊断与维修时间，提高诊断的可靠性，对于保障挖掘机安全运行，促进安全管理工作的进行以及增加相关企业的经济效益具有至关重要的意义。
3.目前履带式挖掘机的故障诊断与维修大多依赖维修人员的技术水平和经验，并且从故障发生到维修人员到达作业现场诊断排除故障的间隔时间将会使施工停滞，上述现状会导致诊断准确率参差不齐，可靠性不高，效率低下等问题。另外，在大型机械故障诊断领域，目前的大部分研究所使用的方法实时性较差，不适合进行在线故障诊断。

技术实现要素：

4.本发明的实施例提供一种基于深度学习的挖掘机故障知识图谱构建方法，实时性好，适合进行在线故障诊断。
5.为达到上述目的，本发明的实施例采用如下技术方案：
6.接收客户端上报的故障工单，从故障工单中提取实体文本并进行标注；利用标注后的实体文本进行模型训练；构建rdf三元组并导入知识图谱数据库，其中，所构建的rdf三元组包括：头实体、关系和尾实体；针对当前待处理的挖掘机故障，利用所述知识图谱数据库针进行知识搜索，得到故障诊断结果。
7.所述从故障工单中提取实体文本并进行标注，包括：通过文字识别，从所述故障工单实体中提取表示故障描述、处理措施和处理结果的文本数据；对所提取的文本数据进行预处理，获取实体文本；对实体文本按照类别进行标注。所述类别至少包括：零部件、故障词、故障现象、故障原因、挖掘机类型、挖掘机型号和维修方法。
8.对标注后的实体文本进行分类，得到训练集、验证集和测试集，所述训练集用于训练卷积神经网络模型，所述验证集用于训练循环神经网络模型，所述测试集验证模型的准确性。
9.所述利用标注后的实体文本进行模型训练，包括：构建文本cnn网络模型和文本rnn网络模型，并按照优化的目标设定损失函数；对所构建的cnn网络模型和文本rnn网络模型进行迭代运算，直至损失函数稳定，并得到网络模型的参数结果；通过测试集验证所构建的cnn网络模型和文本rnn网络模型，在所得到的参数结果下的准确率。
10.本发明实施例提供的基于深度学习的挖掘机故障知识图谱构建方法，从非结构化与半结构化挖掘机故障工单中抽取实体以及各类实体之间的关系；使用基于深度学习的神经网络模型对实体进行分类，基于规则构建实体与关系的三元组并完成知识谱的搭建；自动吸收用户提供的新知识，完善和更新故障知识图谱。挖掘机的故障主要发生在运行期间，需要操作人员具有丰富的维修经验，这也为挖掘机的故障诊断增加了难度，构建故障知识图谱可以降低诊断难度。根据本发明专利所述的技术方案，可以构建挖掘机故障知识图谱以辅助诊断决策，提升故障诊断的准确率和快速性。
附图说明
11.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
12.图1为本发明实施例提供的一种可能的实现方式中的逻辑流程的示意图；
13.图2为本发明实施例提供的文本cnn网络结构示意图；
14.图3为本发明实施例提供的文本rnn网络结构示意图；
15.图4为本发明实施例提供的故障知识图谱局部示意图；
16.图5为本发明实施例提供的方法流程示意图。
具体实施方式
17.为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。
18.目前，从故障工单、产品说明书等文本文件中抽取出知识，为现场作业人员构建易于操作，可实时搜索，知识完备，具有补充学习能力的故障诊断知识图谱极具意义。总的来说，当前的应用方案中对于如何高效构建挖掘机故障诊断知识图谱仍然缺乏切实可行的工程方法。因此，对于挖掘机故障诊断知识图谱的构建以及补全方法仍需要进一步研究发展。
19.本实施例的设计思路在于：基于深度学习的挖掘机故障知识图谱构建与补全方法。通过将知识图谱引入故障诊断领域，辅助现场作业人员的诊断决策；利用深度学习算法，搭建不同的实体分类网络模型，通过各个模型之间的竞争，最终选择效果最好的模型完成预测任务，以提高准确率；使用neo4j图数据库存储所构建的故障知识图谱并基于cypher查询语言进行知识搜索。利用该方法可以实现高效可靠的挖掘机故障知识图谱构建、存储、补全以及搜索。
20.本发明实施例提供一种基于深度学习的挖掘机故障知识图谱构建方法，如图5所示，包括：
21.s1、接收客户端上报的故障工单，从故障工单中提取实体文本并进行标注。
22.其中，故障工单中的信息至少应该包括：故障现象、相应的处理方法以及处理结果。
23.s2、利用标注后的实体文本进行模型训练。
24.具体的，对挖掘机运行过程中出现的故障进行文字描述、实体抽取及分类。当新的故障发生时，对故障进行文字描述以及实体抽取。通过训练效果最好的模型进行实体识别和自动分类。
25.s3、构建rdf三元组并导入知识图谱数据库，其中，所构建的rdf三元组包括：头实体、关系和尾实体。
26.具体的，构建rdf三元组可以理解为：将实体与关系依据三元式推理规则组成<头实体，关系，尾实体>的rdf三元组。之后导入neo4j图数据库：将处理好的rdf三元组以csv文件的格式存储，通过py2neo库搭建接口，将数据导入neo4j知识图谱数据库中，实现知识可视化，为知识搜索提供底层支持。
27.s4、针对当前待处理的挖掘机故障，利用所述知识图谱数据库针进行知识搜索，得到故障诊断结果。
28.其中，动态完善补充故障知识图谱：将新生成的故障知识增补到原有的知识图谱中，从而不断完善和丰富知识图谱，改善其可靠性和完整性。实际应用中，当前所上报的且需要进行诊断的“挖掘机故障”也可以以故障工单形式上报。本发明实施例提供的基于深度学习的挖掘机故障知识图谱构建方法，从非结构化与半结构化挖掘机故障工单中抽取实体以及各类实体之间的关系；使用基于深度学习的神经网络模型对实体进行分类，基于规则构建实体与关系的三元组并完成知识谱的搭建；自动吸收用户提供的新知识，完善和更新故障知识图谱。挖掘机的故障主要发生在运行期间，需要操作人员具有丰富的维修经验，这也为挖掘机的故障诊断增加了难度，构建故障知识图谱可以降低诊断难度。根据本发明专利所述的技术方案，可以构建挖掘机故障知识图谱以辅助诊断决策，提升故障诊断的准确率和快速性。
29.本实施例中，所述从故障工单中提取实体文本并进行标注，包括：
30.通过文字识别，从所述故障工单实体中提取表示故障描述、处理措施和处理结果的文本数据。对所提取的文本数据进行预处理，获取实体文本。对实体文本按照类别进行标注。其中，所述类别至少包括：零部件、故障词、故障现象、故障原因、挖掘机类型、挖掘机型号和维修方法。具体的，在故障工单实体抽取及标注的过程中，采用基于规则的命名实体识别方法从故障工单中抽取实体文本，此方法依赖于手工设计的规则和词典，使用简单且行
之有效。结合命名实体库，对每条规则进行权重赋值，然后通过实体与规则的相符情况来进行类型判断。将抽取出的实体标注为零部件、故障词、故障现象、故障原因、挖掘机类型、挖掘机型号、维修方法、处理方法等多种不同的类别。
31.本实施例中，还包括：对标注后的实体文本进行分类，得到训练集、验证集和测试集，所述训练集用于训练卷积神经网络模型，所述验证集用于训练循环神经网络模型，所述测试集验证模型的准确性。
32.所述利用标注后的实体文本进行模型训练，包括：构建文本cnn(convolutional neural network，卷积神经网络)网络模型和文本rnn(recurrent neural network，循环神经网络)网络模型，并按照优化的目标设定损失函数。对所构建的cnn网络模型和文本rnn网络模型进行迭代运算，直至损失函数稳定，并得到网络模型的参数结果。通过测试集验证所构建的cnn网络模型和文本rnn网络模型，在所得到的参数结果下的准确率。
33.其中，可以基于tensorflow架构构建文本cnn、文本rnn网络模型；使用带有标签的实体文本数据训练网络模型；通过测试集检验训练完成的网络模型的准确性，选择表现较好的网络模型进行后续的预测任务。可以采用交叉熵损失函数评价神经网络模型的效果并定义优化的目标。网络模型经过多次迭代运算，最终损失函数稳定不再下降后，训练停止，得到不同网络模型的参数。通过测试集检验不同模型的准确率，召回率等评价指标，选择效果最好的模型进行后续的预测任务。
34.具体的，cnn网络模型由知识表示层和卷积神经网络构成，包含了词嵌入层、卷积层、最大池化层以及全连接层。可以通过调整网络的各项超参数，指定网络的词向量维度、卷积核数目、卷积核尺寸、学习率、总迭代轮次等。文本cnn网络模型主要的计算工作由词嵌入层和卷积层完成。词嵌入层将文本对象转化为矩阵形式，定义词向量的维度为dim，句子的长度为len，那么文本矩阵的维数可以表示为len
×
dim，记文本矩阵为使用a[i：j]表示矩阵a的第i行到第j行元素组成的子阵。卷积层从输入矩阵中提取特征用于后续分类。卷积层的输出序列的计算公式为：out
i
＝w
·
a[i：i+s
‑
1]，其中w为待训练参数，s为卷积核的高度，i＝1，
…
，len
‑
h+1，对每一个out
i
增加偏置项和激活函数act，得到特征映射其中构建文本rnn网络模型。该模型与文本cnn的区别在于使用循环层进行特征提取，能够更好地表达上下文信息。
[0035]
使用分类问题中常用的交叉熵损失函数评价神经网络模型的效果并定义优化的目标：
[0036][0037]
其中y代表标签的真实值，代表神经网络的标签预测值。在反向传播过程中，使用adam优化器指引损失函数值不断逼近全局最小。adam优化器的具体算法为：
[0038][0039]
w
t+1
＝w
t
‑
η
t
[0040]
其中η
t
为当前时刻下降梯度，α为学习率，m
t
为一阶动量，v
t
为二阶动量，β1和β2为两个超参数，w
t
为当前时刻参数，w
t+1
为下一时刻参数，一阶动量和二阶动量的具体表达式如下：
[0041]
m
t
＝β1·
m
t
‑1+(1
‑
β1)
·
g
t
[0042][0043]
其中g
t
为损失函数关于当前参数的梯度。
[0044]
当网络模型经过多次迭代运算，最终损失函数稳定不再下降后，训练停止，得到不同网络模型的参数。通过测试集检验不同模型的准确率，召回率等评价指标，选择效果最好的模型进行后续的预测任务。
[0045]
本实施例中，构建rdf三元组的过程中，包括：从挖掘机现场作业时发生故障的文字描述中提取实体文本并进行标注后，输入训练好的cnn网络模型和文本rnn网络模型，得到实体文本所属类型的预测结果：
[0046]
其中，h
w
(x
i
)为样本x
i
属于各标签的概率，w
j
是训练好的网络参数w的第j个分量值，i为正整数，y为真实标签(共有10种类别)，p为x
i
所属类别为y＝j(j＝1，2，
…
，10)的概率。预测标签其中，预测标签也可以称之为预测结果。
[0047]
具体的，采集挖掘机作业时发生故障的文字描述，整理后经过的预处理生成实体文本，将实体文本输入训练出的表现最好的网络模型中，进行预测分类。分类结果所构成的新的rdf三元组将作为补充知识加入原有的故障知识图谱中。
[0048]
本实施例中，所述构建rdf三元组并导入知识图谱数据库，包括：根据预设规则，将十种不同的实体文本用十六种关系构建rdf三元组并存储为csv文件。通过py2neo库搭建接口，将所得到的csv文件导入neo4j知识图谱数据库。
[0049]
其中，所述的预设规则可以理解为确定类别的实体之间的关系，预设规则可以是人为预设的，如故障现象与故障原因之间的关系预设为“的故障原因为”，组合完整为某故障现象的故障原因为某故障原因。十种不同的实体具体表现为字符：“程度副词、辅助实体、方法、故障词、故障现象、故障原因、前置条件、现象词、零部件和维修方法”。十六种关系具体表现为字符：“的故障原因为、的现象为、的处理方法为、的故障谓语为、的主要原因为、的方法为、导致、是
…
的前置等级、的可能方法为、的原因为、的等级是、的前置条件是、的主要现象为、的辅助维修方法为、的伴生故障现象为、的辅助故障原因为”。
[0050]
具体的，将带有标签的十种不同实体与十六种关系依据三元式推理规则组成<头实体，关系，尾实体>的rdf三元组并存储为标准csv文件。之后导入neo4j图数据库：将处理
好的rdf三元组以csv文件的格式存储，通过py2neo库搭建接口，将数据导入neo4j知识图谱数据库中，实现知识可视化，为知识搜索提供底层支持。
[0051]
具体举例来说，本实施例在实际应用中，实现的是基于深度学习的挖掘机故障知识图谱构建与补全，主要包括两个阶段，具体流程如图1所示。第一阶段为挖掘机故障知识图谱的构建，第二阶段为挖掘机故障知识图谱的补充。主要步骤如下：
[0052]
第一阶段，1采集故障工单并对其进行实体抽取及标注；2搭建并训练文本cnn、文本rnn进行实体分类；3构建rdf三元组；4导入neo4j图数据库构建故障知识图谱；
[0053]
具体的，所述1采集故障工单并对其进行实体抽取及标注，包括：
[0054]
采用基于规则的命名实体识别方法从故障工单中抽取实体文本，此方法依赖于手工设计的规则和词典，使用简单且行之有效。结合命名实体库，对每条规则进行权重赋值，然后通过实体与规则的相符情况来进行类型判断。将抽取出的实体标注为故障现象、故障原因、零部件、现象词、维修方法等十种不同的类别。
[0055]
具体的，所述2搭建并训练文本cnn、文本rnn进行实体分类，包括：
[0056]
(1)构建文本cnn网络模型。该模型由知识表示层和卷积神经网络构成，包含了词嵌入层、卷积层、最大池化层以及全连接层，如图2所示。可以通过调整网络的各项超参数，指定网络的词向量维度、卷积核数目、卷积核尺寸、学习率、总迭代轮次等。
[0057]
文本cnn网络模型主要的计算工作由词嵌入层和卷积层完成。
[0058]
词嵌入层将文本对象转化为矩阵形式，定义词向量的维度为dim，句子的长度为len，那么文本矩阵的维数可以表示为len
×
dim，记文本矩阵为使用a[i:j]表示矩阵a的第i行到第j行元素组成的子阵。
[0059]
卷积层从输入矩阵中提取特征用于后续分类。卷积层的输出序列的计算公式为：
[0060]
out
i
＝w
·
a[i：i+s
‑
1]
[0061]
其中w为待训练参数，s为卷积核的高度，i＝1，
…
，len
‑
h+1，对每一个out
i
增加偏置项和激活函数act，得到特征映射m
l
：
[0062]
m
i
＝act(out
i
+bias)
[0063]
其中
[0064]
构建文本rnn网络模型，如图3所示。该模型与文本cnn的区别在于使用循环层进行特征提取，能够更好地表达上下文信息。
[0065]
(2)使用分类问题中常用的交叉熵损失函数评价神经网络模型的效果以及定义优化的目标：
[0066][0067]
其中y代表数据的真实值，代表神经网络的预测值。
[0068]
在反向传播过程中，使用adam优化器指引损失函数值不断逼近全局最小。adam优化器的具体算法如下：
[0069][0070]
w
t+1
＝w
t
‑
η
t
[0071]
其中η
t
为当前时刻下降梯度，α为学习率，m
t
为一阶动量，v
t
为二阶动量，β1和β2为两个超参数，w
t
为当前时刻参数，w
t+1
为下一时刻参数，一阶动量和二阶动量的具体表达式如下：
[0072]
m
t
＝β1·
m
t
‑1+(1
‑
β1)
·
g
t
[0073][0074]
其中g
t
为损失函数关于当前参数的梯度。
[0075]
(3)网络模型经过多次迭代运算，最终损失函数稳定不再下降后，训练停止，得到不同网络模型的参数。通过测试集检验不同模型的准确率，召回率等评价指标，选择效果最好的模型进行后续的预测任务。
[0076]
具体的，3构建rdf三元组，包括：
[0077]
将带有标签的十种不同实体与十六种关系依据三元式推理规则组成<头实体，关系，尾实体>的rdf三元组并存储为标准csv文件。
[0078]
具体的，4导入neo4j图数据库构建故障知识图谱，包括：
[0079]
将处理好的rdf三元组以csv文件的格式存储，通过py2neo库搭建接口，将数据导入neo4j知识图谱数据库中，实现知识可视化，为知识搜索提供底层支持。
[0080]
第二阶段，对故障知识图谱进行补充，5对挖掘机运行过程中出现的故障进行文字描述、实体抽取及分类，作为补充知识加入原有的故障知识图谱中。
[0081]
具体的，5对挖掘机运行过程中出现的故障进行文字描述、实体抽取及分类，作为补充知识加入到原有的故障知识图谱中，包括：
[0082]
采集挖掘机现场作业时发生故障的文字描述，经过步骤1)所述的预处理生成实体文本，将实体文本输入步骤2)训练出的表现最好的网络模型中，可以预测出实体所属类型：
[0083][0084]
其中，h
w
(x
i
)为样本x
i
属于各标签的概率，w
j
是训练好的网络参数w的第j个分量值。最后，预测标签可以由如下的公式推得：
[0085][0086]
分类结果所构成的新的rdf三元组将作为补充知识加入原有的故障知识图谱中。
[0087]
本实施例中，可以用来搭建具有高可靠性的挖掘机故障知识库，通过不断补充新知识来保证图谱的完整性。该方法通过使用已存在的故障工单训练深度学习网络模型，使模型具有预测实体类型的能力，能够对知识图谱进行高效的增补与完善。通过使用neo4j图数据库存储和展示知识图谱，可以实现可靠的挖掘机故障知识图谱的构建、存储、展示、补全、以及搜索功能。
[0088]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冒泽慧;卞嘉楠;马亚杰;姜斌
技术所有人：南京航空航天大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。