一种基于包络线及内积的高频数据模式识别方法与流程

文档序号:18450730发布日期:2019-08-17 01:14阅读:324来源:国知局
一种基于包络线及内积的高频数据模式识别方法与流程

本发明涉及机器学习通用数据预处理,以及工业预测性维护领域,特别是指一种基于包络线及内积的高频数据模式识别方法。



背景技术:

各类传感器成本的下降和应用的普及、产出数据类型的不断丰富与数据量的日益增长为工业智能的发展奠定了良好基础。尤其是振动信号、声发射信号和编码器信号等等高频信号,在设备的状态监测与寿命预测中发挥着举足轻重的作用。

利用高频信号实现状态监测和寿命预测的流程为:数据采集,数据预处理,特征提取,特征选择,模型建立与模型评估。通常而言,数据分析人员往往更关注特征提取、模型建立与选择等理论与方法层面的知识,而轻视了数据预处理这一至关重要的步骤。以振动数据为例,在现实的工业场景中,振动传感器都是连续采集,意味着设备即使处于静止状态或做与生产无关的动作时,产生的振动信号也会被采集。因此在预处理步骤中,如果仅对信号进行常规的缺失值和异常值处理,是无法去除掉设备静止状态和做无关动作产生的无用信号的,这会严重影响最终构建的模型效果,故采用合适的方法识别出高频信号中反映设备真正工作的有效数据段尤为重要。

现有技术中,能实现此类需求的主要有两类方法:

一、基于时间序列的方法;tac-chungfu为了找出股票时间序列中有用的技术模式,用感知重要点的方法(perceptuallyimportantpoints,pip)先找出股票序列中关键的点,之后用已知的技术模式模板计算与新序列关键点间的欧式距离,进而通过判断两个序列间距离大小来达到识别目的。其中关键点的求法是先取该序列的首尾点作为第一二个关键点,三个关键点是与第一二个关键点距离最远的点,第四个关键点是与它相邻的两个点距离最远的点,即可能在1和3中间,也可能在2和3之间,如此一直搜寻下去,直到确定的关键点数目和模板点数相同。从关键点的确定过程可以看出,该方法仅适用于数据量不大的低频数据中。在采样频率几万赫兹的振动数据中,搜寻关键点会耗费大量时间,难以应用到实际场景中。

由eamonnkeogh提出的符号聚合近似方法(symbolicaggregateapproximation),是另一种时间序列方法,主要思想是将时间序列按照幅值分成多个区间,在同一个区间内的一段序列用同一个字母表示,以此将较长的时间序列简化为较短的字母序列表示,之后以欧式距离来度量两个序列之间的符号距离,距离越近,相似性越高,反之则相似性越低,从而识别一个序列中是否存在想找的数据段。该方法在一定程度上可降低数据量,但字母集大小如何确定是个问题。

二、机器学习算法;从高频信号中识别出有效数据段本质上属于模式识别问题,现有的模式识别方法多为神经网络、支持向量机等等机器学习分类算法,这类方法需要大量训练样本才保证模型可靠性,且训练时间较长。



技术实现要素:

本发明提出一种基于包络线及内积的高频数据模式识别方法,解决了现有技术中无法更好的识别出高频信号中设备真正工作的有效数据段的问题。

本发明的技术方案是这样实现的:

一种基于包络线及内积的高频数据模式识别方法,包括如下步骤:

s1:输入一份有效数据;

s2:分别取由s1步骤中有效数据的前一部分和后一部分,并分别提取包络线作为前向匹配模板和后向匹配模板;

s3:提取待识别数据的包络线,分别与前向匹配模板和后向匹配模板做内积,来确定有效数据的起点位置和终点位置;

s4:通过起点位置和终点位置设立相似度阈值,并根据相似度阈值确定待识别数据中是否存在有效数据段;

s5:针对待识别数据建立组间阈值,并结合前向匹配模板和后向匹配模板分别获取起点索引和终点索引。

作为进一步的技术方案,所述s2步骤包括:

s21、取有效数据中前一部分,提取包络线,作为前向匹配模板;

s22、取有效数据的后一部分,提取包络线,作为后项匹配模板。

作为进一步的技术方案,提取包络线为:取连续固定间隔一段内数据的最大值。

作为进一步的技术方案,所述s3步骤包括:

s31、从前向后,将待识别数据包络线以滑窗的形式提取和前向匹配模板同样长度的包络线段,依次和前向匹配模板做内积,求得一系列余弦值,记为scos,用来确定有效数据段的起点位置;

s32、再从后往前,将待识别数据包络线以滑窗的形式提取和后向匹配模板同样长度的包络线段,依次和后向匹配模板做内积,求得一系列余弦值,记为ecos,用来确定有效数据段的终点位置。

作为进一步的技术方案,所述s4步骤为:

根据s3步骤中的scos与ecos,设立一个相似度阈值,确定待识别数据段中是否存在有效数据段。

作为进一步的技术方案,所述s4步骤为:

根据s3步骤中的scos与ecos,设立一个相似度阈值,阈值在0-1之间,根据相似度阈值来确定待识别数据段中是否存在有效数据段。

优选的,相似度阈值优选为0.9。

作为进一步的技术方案,所述s5步骤为:

针对待识别数据建立组间阈值,通过scos与相似度阈值比较得到起点索引;通过ecos与相似度阈值进行比较的到终点索引。

作为进一步的技术方案,所述s5步骤为:

针对待识别数据建立组间阈值,针对scos,取出其中大于相似度阈值的余弦值,并记录它们的索引,记为ch,并对ch做差值,得到起点索引;针对ecos,将大于相似度阈值的余弦所在索引记为ct,并对ct做差值,得到终点索引。

作为进一步的技术方案,所述s5步骤为:

针对待识别数据建立组间阈值,针对scos,取出其中大于相似度阈值的余弦值,并记录它们的索引,记为ch,并对ch做差值,差值大于组间阈值的位置视为多段有效数据间的分隔点,以此来进行分组,最后求得每组内的最大值所在的索引,并乘以求包络时降采样的倍数,得到起点索引;针对ecos,将大于相似度阈值的余弦所在索引记为ct,并对ct做差值,差值大于组间阈值的位置视为多段有效数据间的分隔点,以此来进行分组,最后求得每组内的最大值所在的索引,并乘以求包络时降采样的倍数,得到终点索引。

本发明技术方案可以简单高效的识别高频、高方差类型的数据中指定的模式;且在实际的使用过程中,只需操作人员介入确定一组样本数据训练模板,后续的识别过程完全自动,不依赖分析人员本身的技术水平,即可以获得稳定优良的效果;

且采用包络线的方法,能够很大程度上降低了参与计算的数据量及运算耗时,可以满足实时性的使用要求;另外,采用前向搜索和后向搜索的结合,增强了算法的鲁棒性,即针对工况有一定波动的情形,也能稳定找出待识别数据中的有效数据段。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种基于包络线及内积的高频数据模式识别方法的流程图;

图2为s1步骤和s2步骤的流程图;

图3为s3-s5步骤的流程图;

图4为本发明实施例中前向匹配模板数据波形图;

图5为本发明实施例中后项匹配模板数据波形图;

图6为本发明中待识别数据保冷箱提取波形图;

图7为本发明中起点余弦值波形图;

图8为本发明中终点余弦值波形图;

图9为有效值识别分割的波形图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1-9所示,本发明提出的一种基于包络线及内积的高频数据模式识别方法,包括如下步骤:

通过操作人员输入一份有效数据;并分别取有效数据的前一部分和后一部分,并分别提取包络线作为前向匹配模板和后向匹配模板;具体的取有效数据中前一部分,提取包络线,作为前向匹配模板;取有效数据的后一部分,提取包络线,作为后项匹配模板;如图2所示,在本发明中,分别提取有效数据前一小部分和后一小部分,分别提取包络线,并分别作为前向匹配模板和后项匹配模板使用;

其中,提取包络线是取连续固定间隔一段内数据的最大值,这样求得的包络线在原始信号整体形状的基础上,极大减少了数据量,减少了后续计算内积所需的时间。

如图3所示,获取相应的待识别数据,并提取待识别数据的包络线,包络线提取方法也是取连续固定间隔一段内数据的最大值,并在包络线提取后分别与前向匹配模板和后向匹配模板做内积,来确定有效数据的起点位置和终点位置;

具体的,从前向后,将待识别数据包络线以滑窗的形式提取和前向匹配模板同样长度的包络线段,依次和前向匹配模板做内积,求得一系列余弦值,记为scos,用来确定有效数据段的起点位置;再从后往前,将待识别数据包络线以滑窗的形式提取和后向匹配模板同样长度的包络线段,依次和后向匹配模板做内积,求得一系列余弦值,记为ecos,用来确定有效数据段的终点位置;

本发明中,之所以采用余弦值作为两者之间的相似性度量指标,是因为余弦值相比于欧氏距离有更强鲁棒性,不受待识别数据包络线幅值大小的影响,只要待识别数据的包络线和匹配模板的形状相似,两者间的余弦值就会足够大;

通过起点位置和终点位置设立相似度阈值,并根据相似度阈值确定待识别数据中是否存在有效数据段;具体的,根据scos与ecos,设立一个相似度阈值,阈值在0-1之间,根据相似度阈值来确定待识别数据段中是否存在有效数据段;本发明中,阈值的可以为0.1、0.3、0.5、0.7或0.9,由于阈值表示相似性程度,越接近1,表明相似度越高,因此,在本发明中,优选的相似度阈值优选为0.9;当然,根据不同的需要,可以对阈值进行调整,为节省篇幅,本发明对此不再进一步限定;

针对待识别数据建立组间阈值,并结合前向匹配模板和后向匹配模板分别获取起点索引和终点索引,具体的,针对待识别数据建立组间阈值,针对scos,取出其中大于相似度阈值的余弦值,并记录它们的索引,记为ch,并对ch做差值,差值大于组间阈值的位置视为多段有效数据间的分隔点,以此来进行分组,最后求得每组内的最大值所在的索引,并乘以求包络时降采样的倍数,得到起点索引;针对ecos,将大于相似度阈值的余弦所在索引记为ct,并对ct做差值,差值大于组间阈值的位置视为多段有效数据间的分隔点,以此来进行分组,最后求得每组内的最大值所在的索引,并乘以求包络时降采样的倍数,得到终点索引。

为更好的进行说明,本发明特举例说明书:

本实施例中采用的数据为某刀具的振动数据,因为刀具并非持续加工,导致刀具主轴处于静止或空转状态下,振动数据也被传感器采集记录下来,这会极大影响数据的后续分析,因此需要从整体上识别出刀具实际在切断的有效振动数据段:

通过操作人员输入一份有效数据,并针对有效数据,取前27500个点,每500个点取最大值,得到其包络线,作为前向匹配模板,如图4所示;取后25000个点,每500个点取最大值,得到其包络线,作为后向匹配模板,如图5所示;

针某刀具的振动数据(待识别数据),每500个点取最大值,得到待识别数据的完整包络线后,如图6所示;从前向后,将待识别数据包络线以滑窗的形式取和前向匹配模板同样长度的包络线段,依次和前向匹配模板做内积,求得一系列余弦值,记为scos,用来确定有效数据段的起点位置;再从后往前,将待识别数据包络线以滑窗的形式取和后向匹配模板同样长度的包络线段,依次和后向匹配模板做内积,求得一系列余弦值,记为ecos,用来确定有效数据段的终点位置;

采用前向搜索和后向搜索结合的方式,可极大提高算法鲁棒性,即使当工况存在一定程度的变化,也能找出有效数据段的起止索引。工况的变化通常会引起数据在形状和长度上的改变,这会匹配得到的余弦值较低。而如果前向搜索时选取样本文件中有效数据的首部作为前向匹配模板,后向搜索时选取样本文件中有效数据的尾部作为后向匹配模板,则当工况发生一定程度波动时,只要待识别数据中有效数据段的首部和尾部与样本文件中基本相同,即使中间部分发生严重的数据形状或数据长度的改变,也不会影响到最终分割出待识别数据中的有效数据段。

针对得到的scos与ecos,设立一个相似度阈值0.9,该阈值表示相似性程度,越接近1,表明相似度越高,用来确定待识别数据段中是否存在有效数据段;

待识别数据中往往存在多段有效数据,因此还需设立区分不同有效数据段的组间阈值,该阈值需根据实际中各组间的距离来定。如图7和图8所示,不同组间的索引差接近400,远高于同组内索引差,因此可将组间阈值设定为150。

确定好组间阈值后,分别针对scos与ecos,取出其中大于0.9的余弦值,并记录索引分别为ch与ct,之后对ch与ct分别做差值,差值大于150的位置视为多段有效数据间的分隔点,以此来进行分组。

最后求得每组内的最大值所在的索引,并乘以求包络时降采样的倍数500,即为各个有效数据段在待识别数据中起点索引和终点索引。最终求得的有效数据在原始数据中的起点索引位置为[34750,229500,357357,517390],终点索引位置为[127371,322121,449978,610011],如图9所示。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1