一种多元时间序列基于傅里叶系数符号化类别集生成方法与流程

文档序号:15558109发布日期:2018-09-29 01:36阅读:636来源:国知局

本发明涉及时间序列的数据挖掘技术领域,特别是一种多元时间序列基于傅里叶系数符号化类别集生成方法。



背景技术:

针对时间序列数据的数据量大、海量性、复杂性、高维性等特点,已有分类、聚类、相似性查询、异常检测、模式挖掘等方面的研究,在金融、工业、气象、交通、互联网等领域有着广泛的应用。但大多数研究都是对一元时间序列数据进行分析,多元时间序列的研究还比较少。多元时间序列时间序列数据中,如何有效地提取多元时间序列数据特征,通过降维后分析其中蕴含的信息和知识,对科学研究和实际应用都具有重要的理论意义和现实意义。

传统的时间序列数据符号化方法(symbolicaggregateapproximation,sax)首先要通过分段聚合近似表示方法(piecewiseaggregateapproximation,paa)实现分段求均值。然后根据正态分布将每个分段的均值数据转换为字符表示。sax在时间序列数据降维与特征提取方面虽然简便高效,但是sax算法均取各子序列段中的均值来符号化。因此不可避免会产生一些局限,即:sax对子序列段的信息描述不够精准,难以反映子序列段内数据更细微的特征,如极大、极小值和统计特征与趋势特征等。这些局限性限制了其在具有明显形态特征的序列数据中的应用。如金融时间序列数据分析常有变化趋势的要求,复杂工业过程的流数据的趋势变化也在过程状态检测中占有重要的地位。因此,sax只能近似的描述时间序列数据的大致特征。

缺点:当前符号化的时间序列数据表示由于只提取自序列段均值,存在难以描述分段内数据变化趋势等特征提取问题。因此亟需一种能表征分段内趋势特征的多元时间序列数据符号化算法。



技术实现要素:

有鉴于现有技术的上述缺陷,本发明的目的就是提供一种多元时间序列基于傅里叶系数符号化类别集生成方法,克服了经典符号化表示算法的缺点,使用傅里叶逆变换后,保留的时域时间序列将变得更加平滑,从而达到去噪的效果。仅使用频域数据表示傅里叶变换时,对高频数据的过滤即为降维的过程;实现了具有分段趋势特征的符号化表示方法。

本发明的目的是通过这样的技术方案实现的,一种多元时间序列基于傅里叶系数符号化类别集生成方法,它包括有:所述方法步骤如下:

s1:获取多元时间序列数据;

s2:对多元时间序列数据进行预处理,获得具有高斯分布的均值为0且方差为1的标准序列;

s3:采用分段聚合近似表示算法对多元时间序列进行分段,并获取各序列的所有分段信息;

s4:将各序列的分段数据分别进行离散傅里叶变换,得到由傅里叶系数表示的序列段内的趋势特征;

s5:采用符号聚合近似表示方法对多元时间序列的序列段进行符号化表示,每个序列段所对应的符号和傅里叶系数即为该序列段完整的符号化类别集。

进一步,所述步骤s2中对多元时间序列进行预处理的具体步骤如下:

s21:设多元时间序列为分别有n个观测值的m个独立的时间序列组成,式中,xi表示第i条原始时间序列,xij表示第i条时间序列在j时刻的原始观测值数据大小):计算各个序列数据的均值和标准差

s22:归一化的过程即消除各序列数据的维度量纲,对多元时间序列数据进行归一化处理得到符合正态分布的新多元序列为式中,x′i表示第i条归一化得到的时间序列,x′ij表示第i条时间序列在j时刻的归一化后的观测值数据大小。

进一步,所述步骤s3的多元序列采用分段聚合近似方法进行分段的具体步骤如下:

s31:根据数据特征,对每个序列进行分段数目wi(1≤i≤m)的确定;

s32:采用分段聚合近似的方法,输入各序列的分段数目,经过计算得到各序列分段的平均值,由此获取一个由各分段的平均值组成的新的多元序列为式中,表示第i条分段聚合近似得到的时间序列,表示第i条时间序列在j时刻的分段聚合近似得到的观测值数据大小。

进一步,所述步骤s4包括有:

由每个序列被分为了w段,则每段内的数据个数为作为子序列段;每条序列都有w个子序列段,依次将其从原序列中提取出来,对提取出来的子序列段分别进行离散傅里叶变换,选择其傅里叶系数的前3个数据作为该序列内第k个子序列段的趋势特征表示;将所有子序列段的都集合起来就得到该多元时间序列的整体分段趋势特征表示式中,表示第i条离散傅里叶变换得到的时间序列,其中由表示第i条时间序列在j时刻的离散傅里叶变换得到的3个傅里叶系数组成。

进一步,所述步骤s5具体包括有:

s51:采用符号聚合近似方法对由分段聚合近似算法计算得到的每个子序列段的均值进行符号化,得到相应的符号序列;

s52:在每个分段所表示的符号后面加上由离散傅里叶变换得到的傅里叶系数按照序列顺序合成一个新的序列,作为一个完整的多元时间序列的符号化类别集式中,表示第i条符号化得到的符号序列,其中由1个符号和3个傅里叶系数组成。

进一步,所述步骤s51具体包括有:

s511:首先确定字母表的大小,即定义符号的种类数α;

s512:通过把步骤s511得到的符合高斯分布的序列按照分割点的大小划分为α个等概率区间,每个区间对应表示一种符号,其中分割点的定义和字母表大小的关系按照从低到高的方式进行分配,即从下而上依次为a,b,c,...;

s513:比较序列段的均值和分割点的大小,如果序列段的均值在分割区间内,则将该序列段表示为这个分割区间所对应的符号。

由于采用了上述技术方案,本发明具有如下的优点:

1、本发明结合专家经验知识将分段聚合近似表示方法用于时间序列数据的降维,保证了距离下界准则从而避免了后续相似查询中的漏查行为。

2、本发明应用了经典的符号化表示算法,使得其能在数据降维的基础上进行距离计算,为后续应用如相似查询、分类、异常检测等提供理论依据。

3、本发明通过傅里叶系数表征子序列段内时间序列数据的趋势特征,克服了经典符号化表示算法的缺点,如无法表征段内数据的精确性及其变化趋势,而这可能会错误的引导后续相似性度量、异常检测等数据挖掘任务。因此趋势特征的引入解决了上述问题。经过傅里叶变换将原始时间序列从时域转变为频域,然后在频域内对高频数据进行过滤,保留k维的低频数据,可以实现去除短时噪声的效果,当使用傅里叶逆变换后,保留的时域时间序列将变得更加平滑,从而达到去噪的效果,当仅使用频域数据表示傅里叶变换时,对高频数据的过滤即为降维的过程。实现了具有分段趋势特征的符号化表示方法。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。

附图说明

本发明的附图说明如下:

图1为多元时间序列基于傅里叶系数符号化类别集生成方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

实施例:如图1所示;一种多元时间序列基于傅里叶系数符号化类别集生成方法,它包括有:方法步骤如下:

s1:获取多元时间序列数据;

s2:对多元时间序列数据进行预处理,获得具有高斯分布的均值为0且方差为1的标准序列;

s3:采用分段聚合近似表示算法对多元时间序列进行分段,并获取各序列的所有分段信息;

s4:将各序列的分段数据分别进行离散傅里叶变换,得到由傅里叶系数表示的序列段内的趋势特征;

s5:采用符号聚合近似表示方法对多元时间序列的序列段进行符号化表示,每个序列段所对应的符号和傅里叶系数即为该序列段完整的符号化类别集。

本实施例中,选取某监控系统记录的12根管道的温度数据进行实施,其记录频率为每秒1次,共选取16个小时内记录的数据,则其维度为57570,即多元时间序列分别由57570个观测值的12个独立的时间序列组成:

首先根据步骤s21对其进行标准化处理,分别计算12个时间序列数据的均值及其标准差再通过公式计算第j条序列在第i时刻的标准化后的数据值大小。得到新的标准序列

然后根据步骤s3对标准序列进行分段,将每个序列都平均划分为101个等长的子序列,每个子序列含有570个数据点,通过公式计算每个子序列段的570个数据点的平均值,组成新的序列进一步,通过步骤s4中的离散傅里叶变换公式对每个序列中的含有570个数据的子序列段分别进行离散傅里叶变换,取前3个频域数据作为子序列段的趋势特征表示,则得到12条新的序列,每个序列的数据由101个子序列组成,每个子序列段由1个平均值和3个傅里叶系数组成。

最后,通过步骤s5对上述得到的新序列进行符号化表示。

步骤s51具体包括有:

s511:首先确定字母表的大小,即定义符号的种类数α;

s512:通过把步骤s511得到的符合高斯分布的序列按照分割点的大小划分为α个等概率区间,每个区间对应表示一种符号,其中分割点的定义和字母表大小的关系如表1所示符号按照从低到高的方式进行分配,即从下而上依次为a,b,c,...;

s513:比较序列段的均值和分割点的大小,如果序列段的均值在分割区间内,则将该序列段表示为这个分割区间所对应的符号。

表1字母表大小从5到10分别对应的分割点

s52:在每个分段所表示的符号后面加上由离散傅里叶变换得到的傅里叶系数按照序列顺序合成一个新的序列,作为一个完整的多元时间序列的符号化类别集其中由1个符号和3个傅里叶系数组成。

定义字母表的大小为7,则符号种类有a,b,c,d,e,f,g共7类。根据sax符号化方法对其进行符号化表示,得到相应的符号序列。由此合成每个子序列段对应的符号和趋势数据表示该序列的符号化类别集,将12个57570维的时间序列转换为12个404维的新序列。

应当理解的是,本说明书未详细阐述的部分均属于现有技术。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1