时间序列数据的一种符号化表示方法

文档序号:10724916阅读:1910来源:国知局
时间序列数据的一种符号化表示方法
【专利摘要】本发明公开了时间序列数据的一种符号化表示方法,包括以下步骤:S1:获取时间序列数据;S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息;S3:将各子时序数据段三等分且计算各子序列段均值;S4:对各子序列段中相邻段均值作残差,接着定义趋势阈值,当残差的绝对值大于该阈值即判定上升或者下降,小于阈值则判定为平缓。本发明将符号化算法与所获得的趋势特征融合,形成时间序列数据一种具有趋势特征的符号化表示方法。该方法不仅保留了符号化算法的优点,且结合阈值定义趋势,实现了符号化算法的趋势特征描述。
【专利说明】
时间序列数据的_种符号化表τ方法
技术领域
[0001] 本发明涉及时间序列数据挖掘领域,特别涉及时间序列数据的一种具有趋势特征 的符号化表示方法。
【背景技术】
[0002] 随着信息与数据库技术的发展,不同类型的海量数据广泛存在于人们日常事务 中。传统的数据査询、统计等分析操作过程正转向基于人工智能的数据分析过程。其中时间 序列数据是最常见的高维流数据之一,广泛存在于金融、工业、气象、交通、互联网等领域。 时间序列数据中通常包含很多有价值的信息,包括显式的直观信息和隐式的内在信息。如 复杂工业过程的流数据变化在一定程度反应设备及其运行状态。如何有效地提取时间序列 数据特征,通过降维后分析其中蕴含的信息和知识,对科学研究和实际应用都具有重要的 理论意义和现实意义。
[0003] 传统的时间序列数据符号化方法(Symbolic Aggregate Approximation,SAX)这 些符号化算法首先通过分段聚合近似表示方法(Piecewise Aggregate Approximation, PAA)实现分段。降维比例也是由分段数目决定,分段数目越少,降维比例越大,但特征表示 越精细,反之亦然。然后根据正态分布将时间序列转换为符号化字符。SAX在时间序列数据 降维与特征提取方面虽然简便高效,但是SAX算法均取各子序列段中的均值来符号化。因此 不可避免会产生一些局限,即:SAX对子序列段的信息描述不够精准,难以反映子序列段内 数据更细微的特征,如极大极小值、统计特征与趋势特征等。这些局限性限制了其在某些领 域的应用。如金融时间序列数据分析常有变化趋势的要求,复杂工业过程的流数据的趋势 变化也在过程状态检测中占有重要的地位。因此,SAX只能近似的描述时间序列数据的大致 特征。
[0004] 缺点:当前符号化的时间序列数据表示由于只提取自序列段均值,存在难以描述 段内数据变化趋势等特征提取问题。
[0005] 因此亟需时间序列数据的一种具有趋势特征的符号化表示方法。

【发明内容】

[0006] 有鉴于此,本发明所要解决的技术问题是提供一种既能保留原符号化表示的优 点,又能使其在一定程度上表征数据变化趋势的方法。该方法将子序列数据段内再分段通 过均值差与所给阈值的比较得到其段内趋势符号表示。结合原符号化时间序列表示理论, 得到时间序列数据的一种具有趋势特征的符号化表示方法。
[0007] 本发明的目的是这样实现的:
[0008] 本发明提供的时间序列数据的一种具有趋势特征的符号化表示方法,包括以下步 骤:
[0009] S1:获取时间序列数据;
[0010] S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息;
[0011] S3:并将各子时序段三等分并计算各子序列段均值;
[0012] S4:对各子段内相邻段均值作残差与阈值作差获取趋势,再与符号化算法结合。
[0013]进一步,所述步骤S2中的分段聚合近似表示算法,具体步骤如下:
[0014] S21:利用数据一致性算法对所获取的时间序列数据进行归一化处理;
[0015] S22:对经过归一化处理后得到的时间序列数据进行等长分段,取各段的均值组成 一个低维向量以近似表示原时间序列数据。设原时间序列维度为n,处理后所得维度为N。那 么低维特征时间序列为:^ = ..了、,并且第i子段均值可由下述公式确定:
[0016] 进一步,所述步骤S3中的将各子时序段三等分并计算各子序列段均值方法,具体 步骤如下:
[0017] S31:保留步骤S2所得均值并对其实施原符号化表示算法;
[0018] S32:对于各子序列段,再对其进行三等分并分别计算三段均值,获取其三段均值 数值。
[0019] 进一步,所述步骤4对各子段内相邻段均值作残差与阈值差获取趋势,再与符号化 算法结合方法,具体步骤如下:
[0020] 对各子时序数据段内均值依次作差并结合专家知识所定义的趋势阈值确定各子 序列段内趋势。若差值的绝对值小于所给阈值),即定义为平缓趋势;若差值大 于所给阈值,即定义为上升(in-士2>€)或下降(ifl-趋势。因此每个子段内部将 有两种趋势表示,结合原符号化表示即可将每个子段表示为具有趋势特征的符号化表示。
[0021] 本发明的优点在于:本发明将分段聚合近似表示方法用于时间序列数据的降维, 保证了距离下界准则从而避免了后续相似查询中的漏查行为。本发明应用了经典的符号化 表示,使得其能在数据降维的基础上进行距离计算,为后续应用如相似查询、异常检测等提 供理论依据。最重要的是本发明通过均值差表征以表征段内时间序列数据的趋势,克服了 经典符号化表示算法的缺点,如无法表征段内数据的精确性及其变化趋势。而这大大阻碍 了其在某些领域的应用。因此趋势特征的引入解决了上述问题。实现了具有趋势特征的符 号化表不方法。
【附图说明】
[0022]为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进 一步的详细描述,其中:
[0023] 图1为时间序列数据的一种具有趋势特征的符号化表示方法流程图;
[0024] 图2为趋势特征的提取及其与符号化算法结合的流程图。
[0025] 具体实施细则
[0026] 以下将结合附图,对本发明的优选实施例进行详细的描述;应当理解,优选实施例 仅为了说明本发明,而不是为了限制本发明的保护范围。
[0027] 图1为时间序列数据的一种具有趋势特征的符号化表示方法流程图,图2为趋势特 征的提取及其与符号化算法结合的流程图,如图所示:时间序列数据的一种符号化表示方 法,包括以下步骤:
[0028] S1:获取时间序列数据;
[0029] S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息;
[0030] S21:利用数据一致性算法对所获取的时间序列数据进行归一化处理;
[0031] S22:对经过归一化处理后得到的时间序列数据进行等长分段,取各段的均值组成 一个低维向量以近似表示原时间序列数据。设原时间序列维度为n,处理后所得维度为N。那 么低维特征时间序列为? = ,厶,并且第i子段均值可由下述公式确定:
[0032] S3:并将各子时序段三等分并计算各子序列段均值;
[0033] S31:保留步骤S2所得均值并对其实施原符号化表示算法;
[0034] S32:对于各子序列段,再对其进行三等分并分别计算三段均值,获取其三段均值 数值。
[0035] S4:对各子段内相邻段均值作残差与阈值作差获取趋势,再与符号化算法结合。具 体步骤如下:
[0036] 对各子时序数据段内均值依次作差并结合专家知识所定义的趋势阈值确定各子 序列段内趋势。若差值的绝对值小于所给阈值即定义为平缓趋势;若差值大 于所给阈值,即定义为上升(^ > ? )或下降(& -< -,)趋势。因此每个子段内部将 有两种趋势表示,结合原符号化表示即可将每个子段表示为具有趋势特征的符号化表示。
[0037] 以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人 员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的 这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些 改动和变型在内。
【主权项】
1. 时间序列数据的一种符号化表示方法,其特征在于:包括W下步骤: S1:获取时间序列数据; S2:采用分段聚合近似表示算法获取时间序列数据子序列分段信息; S3:并将各子时序段Ξ等分并计算各子序列段均值; S4:对各子段内相邻段均值作残差与阔值作差获取趋势,再与符号化算法结合。2. 根据权利要求1所述的时间序列数据的一种符号化表示方法,其特征在于:所述步骤 S2中的分段聚合近似表示算法,具体步骤如下: S21:利用数据一致性算法对所获取的时间序列数据进行归一化处理; S22:对经过归一化处理后得到的时间序列数据进行等长分段,取各段的均值组成一个 低维向量W近似表示原时间序列数据。设原时间序列维度为n,处理后所得维度为N。那么低 维特征时间序列为玄=;,,;2,...,;^,并且第1子段均值可由下述公式确定:3. 根据权利要求1所述的时间序列数据的一种符号化表示方法,其特征在于:所述步骤 S3中的将各子时序段Ξ等分并计算各子序列段均值方法,具体步骤如下: S31:保留步骤S2所得均值并对其实施原符号化表示算法; S32:对于各子序列段,再对其进行Ξ等分并分别计算Ξ段均值,获取其Ξ段均值数值。4. 根据权利要求3所述的将各子时序段Ξ等分并计算各子序列段均值方法,其特征在 于:所述步骤4对各子段内相邻段均值作残差与阔值差获取趋势,再与符号化算法结合方 法,具体步骤如下: 对各子时序数据段内均值依次作差并结合专家知识所定义的趋势阔值确定各子序列 段内趋势。若差值的绝对值小于所给阔值(|;n -;n| < f ),即定义为平缓趋势;若差值大于所 给阔值,即定义为上升域下降( <~6)趋势。因此每个子段内部将有两 种趋势表示,结合原符号化表示即可将每个子段表示为具有趋势特征的符号。
【文档编号】G06F17/30GK106095787SQ201610367520
【公开日】2016年11月9日
【申请日】2016年5月30日
【发明人】柴毅, 张可, 毛永芳, 黄磊, 许水清
【申请人】重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1