本发明公开一种基于动态时间规整的设备工况故障预测方法和系统,涉及数据收集处理技术领域。
背景技术:
近年来物联网的快速发展使得工业场景中收集数据变的简单方便,如何将数据利用起来创造价值是数据科学家们需要思考的问题。目前机器学习中常用的异常检测方法多为基于统计的方法和无监督学习的方法,如oneclasssvm,聚类算法,孤立森林等。而监督学习一般会有更准确、解释性更强的结果。无论哪种方法都需要我们从已有的数据中提取特征。在真实的工业应用场景中,收集到的工况数据常常由于机器运转周期不固定而导致样本数目不固定,这增加了特征提取的难度。如果想通过这些数据建立预测性维护的模型,仅依靠统计得到的特征不足以满足对数据变化的趋势的分析。因此可以将序列数据当做波形分析变化趋势。而单独分析一个序列的分布和波形演化趋势不能很好的解释设备当前的状态,因为设备的工况数据受工作量和各种客观因素的影响。因此对于一批设备工况数据,应当至少关注两个相关序列的共同变化趋势,如混凝土泵车的发动机转速和油泵转速,泵送电流和泵送压力等,现有的设备工况故障预测技术存在如下劣势:
纯粹的统计特征无法对序列的变化趋势进行描述,无法对实时工况进行故障进行预测;
多个序列之间的相关性被忽略,不能体现相关的序列间的共同变化趋势,实时工况故障预测的精准度得不到保障。
技术实现要素:
本发明针对现有技术的问题,提供一种基于动态时间规整的设备工况故障预测方法和系统,所采用的技术方案为:一种基于动态时间规整的设备工况故障预测方法,所述的方法步骤如下:
s1对工况数据进行预处理;
s2对多种工况数据之间的相关性进行分析;
s3对得到的数据序列进行动态时间规整计算累积距离;
s4将每一序列的统计特征与累积距离相结合作为特征,进行模型训练;
s5利用模型对工况数据进行建模和异常预测。
所述s1对长度不一致、数据空缺、数目过多、保留特定时间间隔和非数值型记录的数据进行预处理。
所述s1具体步骤包括:
s101将长度不一致的数据序列进行空缺值处理;
s102将空缺过多或前后数据均为空缺的数据序列删除;
s103将数目过多或需要保留特定时间间隔的数据进行平滑处理;
s104将非数值类型数据进行独热编码处理。
所述s2利用皮尔森相关性分析对所有数据变量建模,对两列变量数值的相关性进行描述,得到相关系数矩阵m和n。
所述s2具体步骤如下:
s201利用皮尔森相关性分析对所有数据变量建模;
s202对两列变量数值的相关性进行描述,得到相关系数矩阵;
s203对相关系数在0.4-0.8之间的数值进行筛选;
所述s3具体步骤如下:
s301将两组数据序列矩阵通过动态时间规整算法进行对齐;
s302根据对齐的路径计算累积距离y(i,j):
y(i,j)=d(mi,nj)+min(y(i-1,j-1),y(i-1,j),y(i,j-1)),
其中累积距离y(i,j)定义为:当前格点距离d(i,j)与可达到该点的最小临近元素的累积距离之和,其中d(i,j)是mi与nj的欧氏距离。
一种基于动态时间规整的设备工况故障预测系统,所述的系统包括数据预处理模块、分析模块、动态时间规整计算模块、训练模块和检测模块;
预处理模块:对工况数据进行预处理;
分析模块:对多种工况数据之间的相关性进行分析;
动态时间规整计算模块:对得到的数据序列进行动态时间规整计算累积距离;
训练模块:将每一序列的统计特征与累积距离相结合作为特征,进行模型训练;
检测模块:利用模型对工况数据进行建模和异常预测。
所述预处理模块对长度不一致、数据空缺、数目过多、保留特定时间间隔和非数值型记录的数据进行预处理。
所述预处理模块包括空缺值处理模块、数据筛选模块、平滑处理模块和格式转换模块:
空缺值处理模块将长度不一致的数据序列进行空缺值处理;
数据筛选模块将空缺过多或前后数据均为空缺的数据序列删除;
平滑处理模块将数目过多或需要保留特定时间间隔的数据进行平滑处理;
格式转换模块将非数值类型数据进行独热编码处理。
所述分析模块利用皮尔森相关性分析对所有数据变量建模,对两列变量数值的相关性进行描述,得到相关系数矩阵m和n。
所述分析模块包括相关性分析模块、相关性描述模块和过滤模块:
相关性分析模块利用皮尔森相关性分析对所有数据变量建模;
相关性描述模块对两列变量数值的相关性进行描述,得到相关系数矩阵;
过滤模块对相关系数在0.4-0.8之间的数值进行筛选。
所述动态时间规整计算模块包括规整模块和累积距离计算模块:
规整模块将两组数据序列矩阵通过动态时间规整算法进行对齐;
累积距离计算模块根据对齐的路径计算累积距离y(i,j):
y(i,j)=d(mi,nj)+min(y(i-1,j-1),y(i-1,j),y(i,j-1)),
其中累积距离y(i,j)定义为:当前格点距离d(i,j)与可达到该点的最小临近元素的累积距离之和,其中d(i,j)是mi与nj的欧氏距离。
本发明的有益效果为:本发明创新性的将语音识别领域的动态时间规整算法用于工业数据的分析,能够捉到变量由正常到异常的过度趋势,对设备进行故障和异常的预警,使用本发明可以考虑到多个相关序列的共同变化,结合传统的统计特征和专家经验可以提升故障预警的准确度,实现关注同一批记录、不同序列之间的共同变化趋势,体现相关的序列问的共同变化趋势,以此来提取特征,用于预测性维护、故障预警等场景,扩大检测维度和检测的精准度,对实时工况故障预测的精准度进行保证。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法的工作流程图;图2是本发明系统的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一:
一种基于动态时间规整的设备工况故障预测方法,步骤如下:
s1对工况数据进行预处理;
s2对多种工况数据之间的相关性进行分析;
s3对得到的数据序列进行动态时间规整计算累积距离;
s4将每一序列的统计特征与累积距离相结合作为特征,进行模型训练;
s5利用模型对工况数据进行建模和异常预测;
通过本发明方法进行设备工况故障预测时,工作人员先对获取的原始数据根据实际情况进行打便签,如0代表设备工作正常,1代表设备工作期间出现异常,通过s1对长度不一致、数据空缺、数目过多、保留特定时间间隔和非数值型记录的工况数据进行预处理:
s101将长度不一致的数据序列进行空缺值处理;
s102将空缺过多或前后数据均为空缺的数据序列删除;
s103将数目过多或需要保留特定时间间隔的数据进行平滑处理;
s104将非数值类型数据进行独热编码处理;
将预处理后的数据通过s2利用皮尔森相关性分析对所有数据变量建模,对两列变量数值的相关性进行描述,得到相关系数矩阵m和n
对得到的数据序列矩阵m和n通过s3进行动态时间规整计算累积距离:
s301将两组数据序列通过动态时间规整算法进行对齐;
s302根据对齐的路径计算累积距离y(i,j):
y(i,j)=d(mi,nj)+min(y(i-1,j-1),y(i-1,j),y(i,j-1));
其中累积距离y(i,j)定义为:当前格点距离d(i,j)与可达到该点的最小临近元素的累积距离之和,其中d(i,j)是mi与nj的欧氏距离;
通过s4将每一序列的统计特征于选定序列的累积距离相结合,得到一组记录数据的特征,并进行模型训练;
最后将训练出的模型保存,通过s5利用模型对工况数据进行建模和工况故障的异常预测;
本发明方法按照上述步骤,将一批从边缘端采集的不同类型的工况数据进行提计算得到累积距离后,与统计得到的数据,如序列的均值、标准差、最大值、最小值、极差等数据相结合作为特征,并根据设备运转状态打上标签,使用机器学习中的分类或者回归模型进行学习,得到的模型可以用于未来类似的工况数据的故障预测;本发明方法创新性的将语音识别领域的动态时间规整算法用于工业数据分析,该方法可以考虑到多个相关序列的共同变化,结合统计特征与工作人员配合实现故障预警准确度的提升。
实施例二:
在实施例一的基础上,所述s2具体步骤如下:
s201利用皮尔森相关性分析对所有数据变量建模;
s202对两列变量数值的相关性进行描述,得到相关系数矩阵;
s203对相关系数在0.4-0.8之间的数值进行筛选;
数据经过s2预处理后,通过本方法s201、s202对两列变量数值的相关性进行描述,得到相关系数矩阵,,第i行j列的数值表示第i个变量相与第j个变量的相关性,s203选择相关系数在0.4-0.8之间,即在中等强度相关和强相关的区间内;这是因为如果两个序列相关性较弱,说明它们之间没有共同的变化趋势可以被规整和提取;如果相关性过强说明它们本质区别不大,分析相关的变化趋势意义不大;从而保证进行s3累积距离y(i,j)的数据具有计算意义,保证本发明方法进行数据提取的效率和准确性。
实施例三:
一种基于动态时间规整的设备工况故障预测系统,包括预处理模块、分析模块、动态时间规整计算模块、训练模块和检测模块;
预处理模块:对工况数据进行预处理;
分析模块:对多种工况数据之间的相关性进行分析;
动态时间规整计算模块:对得到的数据序列进行动态时间规整计算累积距离;
训练模块:将每一序列的统计特征与累积距离相结合作为特征,进行模型训练;
检测模块:利用模型对工况数据进行建模和异常预测;
通过本发明系统进行设备工况故障预测时,工作人员先对获取的原始数据根据实际情况进行打便签,如0代表设备工作正常,1代表设备工作期间出现异常,通过预处理模块对长度不一致、数据空缺、数目过多、保留特定时间间隔和非数值型记录的工况数据进行预处理:
空缺值处理模块:将长度不一致的数据序列进行空缺值处理;
数据筛选模块:将空缺过多或前后数据均为空缺的数据序列删除;
平滑处理模块:将数目过多或需要保留特定时间间隔的数据进行平滑处理;
格式转换模块:将非数值类型数据进行独热编码处理;
将预处理后的数据通过分析模块利用皮尔森相关性分析对所有数据变量建模,对两列变量数值的相关性进行描述,得到相关系数矩阵m和n
对得到的数据序列矩阵m和n通过动态时间规整计算模块进行动态时间规整计算累积距离:
规整模块:将两组数据序列通过动态时间规整算法进行对齐;
累积距离计算模块:根据对齐的路径计算累积距离y(i,j):
y(i,j)=d(mi,nj)+min(y(i-1,j-1),y(i-1,j),y(i,j-1)):
其中累积距离y(i,j)定义为:当前格点距离d(i,j)与可达到该点的最小临近元素的累积距离之和,其中d(i,j)是mi与nj的欧氏距离;
通过训练模块将每一序列的统计特征于选定序列的累积距离相结合,得到一组记录数据的特征,并进行模型训练;
最后将训练出的模型保存,通过检测模块利用模型对工况数据进行建模和工况故障的异常预测;
本发明系统工作时,将一批从边缘端采集的不同类型的工况数据进行提计算得到累积距离后,与统计得到的数据,如序列的均值、标准差、最大值、最小值、极差等数据相结合作为特征,并根据设备运转状态打上标签,使用机器学习中的分类或者回归模型进行学习,得到的模型可以用于未来类似的工况数据的故障预测;本发明系统法创新性的将语音识别领域的动态时间规整算法用于工业数据分析,该发明系统可以考虑到多个相关序列的共同变化,结合统计特征与工作人员配合实现故障预警准确度的提升。
实施例四:
在实施例三的基础上,所述分析模块包括相关性分析模块、相关性描述模块和过滤模块:
相关性分析模块利用皮尔森相关性分析对所有数据变量建模;
相关性描述模块对两列变量数值的相关性进行描述,得到相关系数矩阵;
过滤模块对相关系数在0.4-0.8之间的数值进行筛选;
数据经过预处理模块预处理后,通过本方法相关性分析模块、相关性描述模块对两列变量数值的相关性进行描述,得到相关系数矩阵,,第i行j列的数值表示第i个变量相与第j个变量的相关性,过滤模块选择相关系数在0.4-0.8之间,即在中等强度相关和强相关的区间内;这是因为如果两个序列相关性较弱,说明它们之间没有共同的变化趋势可以被规整和提取;如果相关性过强说明它们本质区别不大,分析相关的变化趋势意义不大;从而保证进行训练模块累积距离y(i,j)的数据具有计算意义,保证本发明方法进行数据提取的效率和准确性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。