基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法与流程

文档序号:12914990阅读:395来源:国知局
基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法与流程

本发明涉及城市轨道交通故障检测技术领域,具体涉及一种基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法。



背景技术:

随着国民经济的不断发展,我国的城市化进程逐步加快。城市人口的急剧增加,城市规模的扩大,居民出行和物资交流的高度频繁,致使城市交通系统面临着严峻的局势。城市轨道交通作为综合交通体系中的关键运输方式,以其运能大、效率高、能耗小等独特的技术经济优势,在缓解城市交通拥堵和社会经济发展中肩负重要使命。据近几年地铁运营过程中的故障统计可知,城市轨道交通作列车的车门系统作为其的关键子系统,故障数量在列车各系统中排名第一,占列车总数的20%以上。

车门亚健康状态是介于车门正常运行和故障之间的中间状态,对其进行识别存在着重要的意义。在车门打开和关闭运动过程中最重要的驱动部件就是电机。电机工作状态可以直接或间接反应出车门整体的工作状态,采集到的电机数据为时间序列相关数据,是我们进行亚健康状态识别的依据。

目前,时间序列常用的表示方法有离散小波变换、分段线性表示和符号化方法,其中,近年来最流行的方法可以说是符号聚合近似(symbolicaggregateapproximation,sax),它是由lin和keogh在2003年提出,并且在时间序列数据挖掘中得到广泛的应用并取得良好的效果。扩展符号聚合近似(esax)是lkhagva等人在2006年提出,用于克服sax易丢失极值点的重要信息并在经济类时间序列挖掘中有比较好的效果。对于数据的分类识别,支持向量机(svm)在模式识别以及故障诊断等方面得到了广泛的应用,其本质是采用核函数将特征映射到更高维的空间,并在高维空间中寻找最大间隔分类面。但是,时间序列符号化的缺点是不知道如何合理的离散序列,定义符号表示意义,和如何设计相应的相似性度量,因此,有必要针对车门,进行改进处理的,是当前需要解决的问题。



技术实现要素:

本发明的目的是克服现有的pwm转dc(直流)电路,对rc低通滤波器的阶数要求很高,且输出的直流电压存在较大纹波的问题。本发明的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,能够有效的提取出车门电机时间序列数据的特征,并对车门开关门过程中出现的常见的亚健康准确识别,具有很好的应用前景。

为了达到上述目的,本发明所采用的技术方案是:

基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:包括以下步骤,

步骤(a),对轨道车辆门的亚健康及其对应正常的数据进行采集及预处理;

步骤(b),通过多尺度滑动窗口方法,结合esax字符化算法对步骤(a)中所采集及预处理后的数据进行处理,将其离散为第一字符串序列;

步骤(c),计算获得正常开关门状态下的模板曲线,并通过步骤(b)中相同的方法进行离散为第二字符串序列,计算第二字符串序列与第一字符串序列之间的距离作为特征值,通过主成分分析对特征值进行降维和特征选择;

步骤(d),通过分层亚健康状态识别算法由粗到细的逐步识别各种亚健康数据,在第一层训练中,仅依据步骤(c)中的特征值判断出ⅰ类亚健康数据;在第二层训练中,对当前轨道车辆门的实时数据提取基础特征,并步骤(c)中所获得的特征进行融合,对正常数据及ⅱ类亚健康数据进行区分。

前述的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:步骤(a),对轨道车辆门的亚健康及其对应正常的数据八组,包括v型异常数据、电机组件松动数据、对中尺寸变化小数据、对中尺寸变化大数据、上滑道外移数据、下挡销横向干涉数据、下挡销纵向干涉数据、压轮过压数据,且每组数据均包括电机转角、转速和电流三个参数值。

前述的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:步骤(a),预处理包括对八组的对齐和问题数据去除,所述问题数据包括转速、转角和电流数据的采样点个数小于正常采样数据一半,或者初始转角不在正常范围内的数据。

前述的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:步骤(b),通过多尺度滑动窗口方法,结合esax字符化算法对步骤(a)中所采集及预处理后的数据进行处理,将其离散为第一字符串序列,包括以下步骤,

(b1),根据曲线变化的幅度原理,将开关门过程分为三个过程,包括启动段、匀速段和减速段;

(b2),通过多尺度滑动窗口的重叠分割法,将采集及预处理后的数据的原始时间序列分割成若干个子时间序列,设滑动步长为1,子窗口的数量为|t|-n+1,其中,t为时间序列长度,n为滑动窗口的长度;对启动段和减速段使用的滑动窗口长度为n1,匀速段使用的滑动窗口长度为n2,其中,n1=4*n2;

(b3),对于每个子时间序列提取各自的esax特征,首先标准化子时间序列,使其呈现高斯分布,使用paa(piecewiseaggregateapproximation,分段聚合近似)将每一个子时间序列分割成w个等宽度的小段,计算每小段的均值、最大值和最小值,并记录其对应的横坐标,根据横坐标的次序对其所对应的均值、最大值和最小值进行排序,通过间断点β={β1,β2,...,βn)等分高斯空间,并依次将排序之后的均值、最大值和最小值离散成第一字符串序列。

前述的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:步骤(c),计算获得正常开关门状态下的模板曲线,包括以下步骤,

(c1),计算各组正常数据的均值μ和标准差σ;

(c2),通过异常数据判断公式μ±2σ确定上下边界,去除越过边界次数较多的正常数据;

(c3),对剩下的数据进行均值计算,将获得正常开关门状态下的模板曲线。

前述的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:步骤(c),计算第二字符串序列与第一字符串序列之间的距离,通过公式(1)计算得到,

其中,aesax={a1,...,an)为第一字符串序列;besax={b1,...,bn}为第二字符串序列;c为压缩率,c=3*n/w,其中n为滑动窗口的长度,w为子时间序列分割的个数,ai和bi是来自字符表v={v1,...,vn},如公式(2)所示,

其中,1≤i≤n,1≤j≤n,k为间断点β={β1,β2,...,βn)之间的距离。

前述的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:步骤(c),通过主成分分析对特征值进行降维和特征选择,是通过计算特征值的协方差矩阵,获得协方差矩阵的特征值以及特征向量,计算各特征值贡献率,根据累计贡献率组成新的特征矢量,完成降维和特征选择。

前述的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,其特征在于:步骤(d),所述ⅰ类亚健康数据为相对易识别的亚健康,远离正常状态;ⅱ类亚健康数据为相对难识别的亚健康,靠近正常状态,各层用于训练识别的分类器选择支持向量机svm分类器,其中,核函数选择线性核,惩罚系数选择1,在第二层训练中,对当前轨道车辆门的实时数据提取基础特征,基础特征包括均值、欧式距离、协方差和相关系数,将时间序列等间隔划分,计算每小段的均值以及其与相对应模板曲线的欧式距离、协方差和相关系数。

本发明的有益效果是:本发明的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,利用多尺度滑动窗口离散字符化算法对轨道车辆门门电机的转速、转矩和电流进行数据挖掘;通过计算与正常状态下模板曲线的距离作为特征,并使用主成分分析对其降维,去除冗余信息,获得分类性能较好的低维特征;然后使用分层亚健康状态识别模型由粗到细对各种亚健康数据逐层进行识别,最终实现开关门过程中亚健康状态的识别,能够有效的提取出车门电机时间序列数据的特征,并对车门开关门过程中出现的常见的亚健康准确识别,具有很好的应用前景。

附图说明

图1是本发明的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法的流程图;

图2是车辆门电机亚健康状态(对中尺寸变化小)以及其对应的正常状态的转角曲线图,左为开门、右为关门;

图3是车辆门电机亚健康状态(对中尺寸变化小)以及其对应的正常状态的转速曲线图,左为开门、右为关门;

图4是车辆门电机亚健康状态(对中尺寸变化小)以及其对应的正常状态的电流曲线图,左为开门、右为关门;

图5是开门电流数据的启动段采用sax离散的结果示意图;

图6是开门电流数据的启动段采用esax离散的结果示意图;

图7是本发明的实施例前10个主成分贡献率随主成分变化趋势图;

图8是本发明的实施例前四个主成分在不同的亚健康状态下的分布示意图一;

图9是本发明的实施例前四个主成分在不同的亚健康状态下的分布示意图二;

图10是本发明的实施例前四个主成分在不同的亚健康状态下的分布示意图三;

图11是本发明的实施例前四个主成分在不同的亚健康状态下的分布示意图四;

图12是的电流曲线分段示意图,左为开门,右为关门。

具体实施方式

下面将结合说明书附图,对本发明作进一步的说明。

本发明的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,利用多尺度滑动窗口离散字符化算法对轨道车辆门门电机的转速、转矩和电流进行数据挖掘;通过计算与正常状态下模板曲线的距离作为特征,并使用主成分分析对其降维,去除冗余信息,获得分类性能较好的低维特征;然后使用分层亚健康状态识别模型由粗到细对各种亚健康数据逐层进行识别,最终实现开关门过程中亚健康状态的识别,能够有效的提取出车门电机时间序列数据的特征,并对车门开关门过程中出现的常见的亚健康准确识别,如图1所示,包括以下步骤,

步骤(a),对轨道车辆门的亚健康及其对应正常的数据进行采集及预处理,对轨道车辆门的亚健康及其对应正常的数据八组,包括v型异常数据、电机组件松动数据、对中尺寸变化小数据、对中尺寸变化大数据、上滑道外移数据、下挡销横向干涉数据、下挡销纵向干涉数据、压轮过压数据,且每组数据均包括电机转角、转速和电流三个参数值;预处理包括对八组的对齐和问题数据去除,所述问题数据包括转速、转角和电流数据的采样点个数小于正常采样数据一半,或者初始转角不在正常范围内的数据,本发明的具体实施例,为塞拉门,由内置的采集设备对电机开关门过程中的各项数据实时采集,并通过无线传输的方式(由外置监测设备转发)将数据信息传到数据中心服务器。主要针对实际运行过程中轨道车辆门可能发生的各种常见亚健康进行分析,通过对门结构进行微调整来模拟这些常见的亚健康状态,本发明的针对的亚健康类型主要有v型异常、电机组件松动、对中尺寸变化小、对中尺寸变化大、上滑道外移、下挡销横向干涉、下挡销纵向干涉和压轮过压这八种(相当于测试样本),由于每次的实验过程中轨道车辆门的调整都会对门的正常状态造成影响,所以每一组亚健康都对应一组正常数据(相当于训练样本);

步骤(b),通过多尺度滑动窗口方法,结合esax字符化算法对步骤(a)中所采集及预处理后的数据进行处理,将其离散为第一字符串序列,包括以下步骤,

(b1),根据曲线变化的幅度原理,将开关门过程分为三个过程,包括启动段、匀速段和减速段;

(b2),通过多尺度滑动窗口的重叠分割法,将采集及预处理后的数据的原始时间序列分割成若干个子时间序列,设滑动步长为1,子窗口的数量为|t|-n+1,其中,t为时间序列长度,n为滑动窗口的长度;对启动段和减速段使用的滑动窗口长度为n1,匀速段使用的滑动窗口长度为n2,其中,n1=4*n2;

(b3),对于每个子时间序列提取各自的esax特征,首先标准化子时间序列,使其呈现高斯分布,使用paa(piecewiseaggregateapproximation,分段聚合近似)将每一个子时间序列分割成w个等宽度的小段,计算每小段的均值、最大值和最小值,并记录其对应的横坐标,根据横坐标的次序对其所对应的均值、最大值和最小值进行排序,通过间断点β={β1,β2,...,βn)等分高斯空间,并依次将排序之后的均值、最大值和最小值离散成第一字符串序列;

步骤(c),计算获得正常开关门状态下的模板曲线,并通过步骤(b)中相同的方法进行离散为第二字符串序列,计算第二字符串序列与第一字符串序列之间的距离作为特征值,通过主成分分析对特征值进行降维和特征选择,

其中,计算获得正常开关门状态下的模板曲线,包括以下步骤,

(c1),计算各组正常数据的均值μ和标准差σ;

(c2),通过异常数据判断公式μ±2σ确定上下边界,去除越过边界次数较多的正常数据;

(c3),对剩下的数据进行均值计算,将获得正常开关门状态下的模板曲线。

计算第二字符串序列与第一字符串序列之间的距离,通过公式(1)计算得到,

其中,aesax={a1,...,an)为第一字符串序列;besax={b1,...,bn}为第二字符串序列;c为压缩率,c=3*n/w,其中n为滑动窗口的长度,w为子时间序列分割的个数,ai和bi是来自字符表v={v1,...,vn},如公式(2)所示,

其中,1≤i≤n,1≤j≤n,k为间断点β={β1,β2,...,βn)之间的距离;

通过主成分分析(pca)对特征值进行降维和特征选择,是通过计算特征值的协方差矩阵,获得协方差矩阵的特征值以及特征向量,计算各特征值贡献率,根据累计贡献率组成新的特征矢量,完成降维和特征选择。

步骤(d),通过分层亚健康状态识别算法由粗到细的逐步识别各种亚健康数据,在第一层训练中,仅依据步骤(c)中的特征值判断出ⅰ类亚健康数据;在第二层训练中,对当前轨道车辆门的实时数据提取基础特征,并步骤(c)中所获得的特征进行融合,对正常数据及ⅱ类亚健康数据进行区分,所述ⅰ类亚健康数据为相对易识别的亚健康,远离正常状态;ⅱ类亚健康数据为相对难识别的亚健康,靠近正常状态,各层用于训练识别的分类器选择支持向量机svm分类器,其中,核函数选择线性核,惩罚系数选择1,在第二层训练中,对当前轨道车辆门的实时数据提取基础特征;

传统特征通过总结时间序列中一个单一的值来描述时间序列,我们称这些特征为基础特征。常用的基础特征类型包括3种:简单的静态值、频率主导特征和不同序列之间的相关特征,本发明基础特征包括均值、欧式距离、协方差和相关系数,将时间序列等间隔划分,计算每小段的均值以及其与相对应模板曲线的欧式距离、协方差和相关系数,计算公式如下:

均值

欧式距离d12:

协方差cov(x,y):

相关系数r(x,y):

其中,n为x的数量,为均值,x1k、x2k为二维平面上的2个点,var[x]、var[y]为数据方差,都基本的数学公式;

下面根据本发明的基于时间序列数据挖掘的轨道车辆门亚健康状态识别方法,介绍一具体实施例,如图2-图4所示,其中的一种亚健康状态(对中尺寸变化小)以及其对应的正常状态曲线,左边的图为开门曲线,右边的图为关门曲线,从上到下分别为电机的转角、转速和电流曲线。开关门电流曲线的分段如图12所示。从图2-图4中可以看出,亚健康曲线与正常曲线相似程度比较高,其中的转角正常和亚健康曲线基本重合;转速曲线和电流曲线在车门的开关门过程启动段和减速段有着较为明显的差异,所以我们依据电流的曲线变化,将开门过程和关门过程分为3个阶段,开关门电流曲线的分段如图12所示。

传统的时间序列符号化的方法(sax)有着很多优势,比如快速和易于实现,并且能够采用现有的一些字符串的研究成果。但是,对于处理一些特殊的时间序列存在一些局限性,即对子序列段仅通过均值来进行符号化难以反映子序列段内更细微的特征,如极大值极小值、统计特征和趋势特征等,其只能近似描述时间序列大致的特征;对于本发明中的轨道车辆门电机数据,极值点的信息是进行亚健康判断的重要依据,esax算法是对sax算法的拓展,其思想是在计算均值的时候同时引入最大值和最小值,以此来保留数时间序列数据中这些极端的模式,如图5-图6所示,对本发明中开门电流数据的启动段近似曲线使用这两种方法分别进行离散化,如图6所示,为sax离散的结果,其中字符的种类数a为6,字符个数w为6,开门电流启动段序列被表示为“dcbcde”;如图7所示,为esax离散的结果,其中a=6,w=6,开门电流启动段序列被表示为“bdfecbabbbcccdddee”。本实施例中,对于电机的转角数据取滑动窗口长度n=120,字符个数w=5;对于电机的转速和电流数据中的启动段和减速段选取滑动窗口长度n=30,字符个数w=5,匀速段选取滑动窗口长度n=120,字符个数w=5。

在以上的实施例中,通过以下步骤验证本发明的有效性:

首先,选取采集获得的8种亚健康状态下的电机数据,每种亚健康状态选取约40组数据(每组数据又分别包含开门数据和关门数据),每组正常数据也约40组分别与亚健康数据一一对应,将所有数据一半用作训练集,一半用作测试集,其中总训练集数据有330个,总测试集数据有326个;

其次,利用多尺度滑动窗口的方法并结合esax算法对8种亚健康以及对应的正常数据进行分析,分别对每组数据的转角、转速和电流数据进行特征提取,总共可以获得600多个开门特征及关门特征,最终获得的整体的特征已经达到1200之多,构成的特征空间维数很高,特征之间的相关性较大,且存在大量冗长信息(主要存在于开关门过程中的均速段),直接将这些数据放入分类器进行模式识别,不仅给分类的过程造成较大的负担,而且影响分类的准确率。主成分分析(pca)通过映射的方法将特征变换维数较少的新特征,在保留主要特征的同时极大的降低特征的维数;

然后,针对开关门整体特征参数,通过求解协方差矩阵的特征值和对应的特征向量,对得到的特征值做主成分分析,从而达到降维的目的,图7列出了前10个主成分贡献率随主成分变化趋势图,分析图7可知,从第5个主成分开始贡献率的变化趋势已趋于平稳并逐渐接近于0,第一个主成分所占贡献率最高,达到42%,前四个特征的累计贡献率达到73%,相对的前20个累计贡献率为90%。由此可见,前4个主成分可以很好的反映原本数据的大部分信息了,为了进一步反映各主成分对轨道车辆门亚健康状态的敏感程度,图8-图12给出了前四个主成分在不同的亚健康状态下的分布,分析,图8-图12中的四个图可知,第一个特征能准确的区分对中尺寸变化大、对中变化大、上滑道外移和正常这四个状态,对其他几种存在着混叠现象;其他3个特征仅对少部分的亚健康状态有着很好的区分度,其他大部分的特征存在着明显的混叠以及波动较大。通过结合这些主要的特征,我们发现区分度最好的亚健康状态为两种对中尺寸变化、压轮过压和正常状态。其次为上滑道外移、v型异常和下挡销纵向干涉。而电机组松动和下挡销横向干涉的区分度较差,综上所述,我们将电机组松动和下挡销横向干涉归为ⅱ类亚健康,其他6种归为ⅰ类亚健康;所以在分层识别算法的第一层中,我们首先对6种ⅰ类亚健康进行区分,接着结合基础特征,对正常数据和剩下的ⅱ类亚健康状态做进一步识别。

接着,通过分层识别的算法逐层对各类亚健康进行识别,在第一层中,将ⅱ类亚健康和正常数据归为一类,依据距离表示的特征集,选取降维后的前20个特征并通过svm对训练集进行训练,并对测试集数据识别,目的是对区分度较好的ⅰ类亚健康进行区分;在第二层中,提取剩余数据基础特征,进行归一化处理后,与距离表示的特征集进行融合,采用融合特征对正常数据和ⅱ类亚健康进行训练,并对测试集剩下的数据进行识别。通过这两层的训练识别,对各种亚健康都进行了区分。本实施例中,分别依据开门特征、关门特征和整体特征进行亚健康状态的识别,各层的识别结果表1所示;

表1测试样本的分类结果

分析上表可知,开门特征识别率略高于关门特征,整体特征包含更多的特征量,其识别率明显高于其他两类单独特征。在第一层中,由于将区分度较差的亚健康数据和正常数据归为一类,先区分较为明显的ⅰ类亚健康,故三种特征的识别率都比较高,其中整体特征在这层的识别结果全部正确;第二层中,亚健康差别较小,错误明显增多,识别率很大程度的下降。由此可见,依靠整体特征进行亚健康状态的识别比单个特征的识别性能好上很多。从表可知,整体特征获得了比较好的识别结果,仅有3个测试样本被分类错误。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1