一种基于分段统计近似表示的时间序列相似性度量方法

文档序号：6633500阅读：666来源：国知局

一种基于分段统计近似表示的时间序列相似性度量方法
【专利摘要】本发明公开了一种基于分段统计近似表示的时间序列相似性度量方法，包括特征提取和动态模式匹配步骤。首先对时间序列切分子序列，依次提取每条子序列的多种统计特征，构造局部模式特征向量；然后利用加权欧氏距离计算局部模式特征向量之间的距离，实现局部模式匹配，并以此作为动态规划算法的子程序，实现全局模式匹配。本发明在度量精度和计算效率方面都以较大的程度优于其他度量方法，在人们的日常活动和工业生产中可发挥重要作用，如在金融交易、交通监管、空气质量和温度监测、工业流程监控、医疗诊断等应用中，对大规模采样数据或高速动态数据流进行相似性查询、分类、聚类、预测、异常检测、在线模式识别等处理。
【专利说明】一种基于分段统计近似表示的时间序列相似性度量方法

【技术领域】
[0001] 本发明涉及数据库、数据挖掘、机器学习、信息检索等领域，尤其涉及一种基于分段统计近似表示的时间序列相似性度量方法。

【背景技术】
[0002] 时间序列广泛存在于人们的日常生活及工业生产中，如基金或股票的实时交易数据，零售市场的日销量数据，流程工业的传感器监测数据，天文观测数据，航空航天雷达、卫星监测数据，实时天气温度及空气质量指数等。工业界迄今提出了许多时间序列分析方法，包括相似性查询方法、分类方法、聚类方法、预测方法、异常检测方法等。其中，许多方法都需要对时间序列进行相似性判断，比如kNN分类器、k-means聚类方法等，因此，时间序列相似性度量方法在工业界有着广泛的应用需求。
[0003] 目前工业界最常用的时间序列相似性度量方法可分为锁步度量方法和弹性度量方法。前者采用了一对一的度量方式，即时间序列T 1和T2之间的距离是通过严格比较T1和 T2在各自第i个位置的点对，再累加所有点对的距离得到。该类方法最常见的有曼哈顿距离、欧氏距离和切比雪夫距离，其都是L p-n〇rms距离在p取不同值时的特例。该类方法具有易实现、计算复杂度低、满足距离三角不等式、无参等优点；但是，其度量精度对噪声、异常点、幅值伸缩和漂移、相位偏移等非常敏感，并且只能用于度量等长的时间序列。弹性度量方法采用了一对多的度量方式，即时间序列T 1的一个点可以与T2的多个连续点相对应，通过动态规划方法遍历T1和T 2的所有点对之间的距离。该类方法最常见的有动态时间弯曲距离（DTW)和编辑距离的变种（如LCSS、EDR、ERP)等。与锁步度量相比，弹性度量能够实现两条时间序列的最佳对齐匹配，可以有效处理时间弯曲、相位偏移、幅值伸缩和漂移等基本形态变化，对噪声和异常点具有鲁棒性，因此，弹性度量具有较高的度量精度。但是，该类方法具有较高的计算复杂度，当用于度量高维的时间序列时会导致高昂的时间开销，难以在工业生产中处理大规模的时间序列或高速的动态数据流。
[0004] 基于时间序列的特征计算弹性度量是改进其高计算复杂度的一种有效方法，即首先采用数据表示方法将原始时间序列映射到低维的特征空间，然后进行弹性度量。目前工业界常用的数据表示方法可分为非数据适应性方法和数据适应性方法。对于前者，变换参数不受单独的时间序列影响，而始终保持不变；该类表示大多基于频谱分解实现，如离散傅里叶变换、离散小波变换、离散余弦变换，其主要通过对原始时间序列做相应的频域变换，提取主要的频谱系数作为特征；该类方法各有缺陷，如离散傅里叶变换只能提取总体形态特征而忽略了局部特征，离散小波变换只能处理长度为2的指数次的时间序列，离散余弦变换的信息丢失较多，对原始数据的重构误差较大。数据适应性表示是指对变换参数的确定需要依赖数据本身；通过增加数据敏感的选择处理过程，可以把大部分非数据适应性方法变为数据适应性方法。该类方法有分段聚集近似、分段线性近似、符号化聚集近似、奇异值分解、主成分分析等，前三种都需要先对原始时间序列进行分段，然后对每一子段单独处理（分段聚集近似是对各段求平均值，分段线性近似是对各段做线段拟合，符号化聚集近似是在分段聚集近似基础上将每段平均值离散化为符号），由于其所提取的特征较为单一，使其对时间序列波动模式的表达能力较弱。奇异值分解和主成分分析通过对所有时间序列做统一的特征矩阵分解实现，这两类方法的典型缺陷是计算复杂度高，而且分解过程只能在内存完成，数据规模的可扩展性很低。

【发明内容】

[0005] 本发明要解决的问题是如何高效及高精度地度量时间序列之间的相似性。为了解决该问题，本发明提出了一种基于分段统计近似表示的时间序列相似性度量方法。
[0006] 本发明的目的是通过以下技术方案来实现的：一种基于分段统计近似表示的时间序列相似性度量方法，包括以下步骤：
[0007] (1)特征提取，具体包括以下子步骤：
[0008] (I. 1)读取原始时间序列T和Q ;
[0009] (1. 2)对T和Q做Z-规范化处理，得到规范化的时间序列Ti和Qi ;
[0010] (1.3)采用长度为1的窗口将T，和Q，分别切分为M和N条子序列；
[0011] (1. 4)为T和Q分别构建分段统计近似表示PSA(T)和PSA(Q)，并初始化为空集；依次对T'和Q'的每条子序列计算平均值μ、标准差〇、离散系数CV、偏态SK、峰态K，构造局部模式特征向量LPV= [μ，0，CV，SK，K];将T的M个局部模式特征向量插入PSA (Τ)，将Q的N个局部模式特征向量插入PSA(Q);
[0012] (2)动态模式匹配，具体包括以下子步骤：
[0013] (2. 1)构建动态规划表Table (M，N)，并进行初始化；
[0014] (2. 2)依次计算PSA(T)的第1个局部模式特征向量LPV1与PSA(Q)的N个局部模式特征向量LPV' 1?LPV' N之间的加权欧氏距离{distaPVpLPV' 〇，...，ClistaPV1, L ?乂，1<)}，并存入了&1^的第1行了&1^(1，1 :吣；
[0015] (2. 3)依次计算PSA(Q)的第1个局部模式特征向量LPV' 1与PSA⑴的M个局部模式特征向量LPV1?LPVm之间的加权欧氏距离{di st (LPV1, LPV' D，...，di st (LPVM，LP V' 1) }，并存入 Table 的第 1 列 Table (I :M, 1);
[0016] (2.4)利用动态规划方法，依次扫描PSA(T)的第2到第M个局部模式特征向量 LPV2?LPVM和PSA(Q)的第2到第N个局部模式特征向量LPV' 2?LPV' N，基于加权欧氏距离计算Table (2:M, 2: N)的每个单元值；
[0017] (2. 5)返回动态规划表的第M行第N列单元值作为最终的度量结果，实现时间序列相似性度量。
[0018] 本发明的有益效果是：
[0019] 1、在特征提取阶段，采用了分段表示方法，对每个子段提取多种统计特征，从多方面反映了时间序列的波动特性，可全面捕捉时间序列的局部波动模式，实现了较高的时间序列局部模式匹配精度。
[0020] 2、在动态模式匹配阶段，基于局部模式层次的动态规划计算，克服了时间弯曲造成的局部模式之间的相位偏移问题，实现了较高的时间序列全局模式匹配精度。
[0021] 3、在度量精度和计算效率两个方面，本发明都在较大程度上超越了现有弹性度量方法。

【专利附图】

【附图说明】
[0022] 图1为基于分段统计近似表示的时间序列相似性度量方法流程图；
[0023] 图2为采用分段统计近似表示时间序列的流程图；
[0024] 图3为时间序列相似性计算的动态模式匹配过程。

【具体实施方式】
[0025] 下面结合附图对本发明作进一步详细说明。
[0026] 如图1所示，本发明一种基于分段统计近似表示的时间序列相似性度量方法，包括以下步骤：
[0027] (1)特征提取，如图2所示，具体包括以下子步骤：
[0028] (I. 1)读取原始时间序列 T = It1, t2,…，％ …，tj 和 Q = Iq1, q2,…，qi,…，qn};
[0029] (1.2)对于时间序列T和Q，分别计算T的采样点的平均值m'和标准差〇 '，Q的采样点的平均值m'和标准差〇 '，根据公式（1)对T和Q做Z-规范化处理，得到规范化的时间序列 T' ={t' nt' 2，…，t' i，…，t' J 和 Q' ={q' 1;q' 2，?，q'。…，口' J;
[0030] = tj~- (I) σ
[0031] (I. 3)采用长度为I的窗口，对步骤I. 2处理得到的T'和Qi分别切分为M和N条不重叠的子序列，ST, = (S1, S2, · · ·，Si, · · ·，SM}，SQ, = {S' i，S' 2,，· · ·，S' i，· · ·，S' Ν}，其中 Si = {s" s2,…，Si,…，sj，S' i = {s' " s' 2,…，s' " …，s' J ;
[0032] (1.4)依次对T'和Q'的每条子序列Si和S' i计算多种统计特征，构造局部模式特征向量LPVi和LPV' i，得到T和Q的分段统计近似表示PSA(T)和PSA(Q)，该过程包括以下子步骤：
[0033] (I. 4. 1)初始化T和Q的分段统计近似表示PSA (T)和PSA (Q)为空集；
[0034] (1. 4. 2)依次扫描Sr和SQ;，根据公式（2)，计算每条子序列Si和S',的平均值 μ i 和 μ ; i;

【权利要求】
1. 一种基于分段统计近似表示的时间序列相似性度量方法，其特征在于，包括w下步骤： (1)特征提取，具体包括W下子步骤： (1. 1)读取原始时间序列T和Q; (1. 2)对T和Q做Z-规范化处理，得到规范化的时间序列r和Q'； (1.：3)采用长度为1的窗口将r和Q'分别切分为M和N条子序列； (1. 4)为T和Q分别构建分段统计近似表示PSA(T)和PSA(Q)，并初始化为空集；依次对r和Q'的每条子序列计算平均值y、标准差0、离散系数CV、偏态SK、峰态K，构造局部模式特征向量LPV= [y, 〇，CV，SK，K];将T的M个局部模式特征向量插入PSA(T)，将Q 的N个局部模式特征向量插入PSA(Q); (2) 动态模式匹配，具体包括W下子步骤： (2. 1)构建动态规划表Table (M，脚，并进行初始化； (2. 2)依次计算PSA(T)的第1个局部模式特征向量LPVi与PSA (曲的N个局部模式特征向量 LPV' 1 ?LPV' N 之间的加权欧氏距离{dist (LPVi，LPV' 1)，. . .，dist (LPVi，LPV' N)}，并存入T油le的第1行T油le(l，l:N); (2. 3)依次计算PSA怕）的第1个局部模式特征向量LPV' 1与PSA (T)的M个局部模式特征向量LPVi?LPVm之间的加权欧氏距离他St (LPVi，LPV' 1)，. . .，di St (LPVm，LPV' 1)}，并存入T油le的第1列T油le (1 :M，1); (2.4)利用动态规划方法，依次扫描PSA (T)的第2到第M个局部模式特征向量LPV2?LPVm和PSA(曲的第2到第N个局部模式特征向量LPV' 2?LPV' W，基于加权欧氏距离计算 T油le(2:M, 2:脚的每个单元值； (2. 5)返回动态规划表的第M行第N列单元值作为最终的度量结果，实现时间序列相似性度量。
2. 根据权利要求1所述一种基于分段统计近似表示的时间序列相似性度量方法，其特征在于，所述步骤2. 4包括W下子步骤： (2. 4. 1)顺序扫描LPV2?LPVm，对于第i个局部模式特征向量LPVi,依次计算其与 LPV' 2 ?LPV' N 之间的加权欧氏距离{dist (LPV。LPV' 2)，. . .，dist (LPV。LPV' N)}; (2.4.2)根据先行后列的顺序扫描1'油16(2:1，2:脚，在每个单元1'油16(1，如中，首先比较化ble (i-1，_1.)、T油le (i，j-1)和T油le (i-1，j-1)的大小，选择最小值记为min,然后计算 dist (LPV。LPV' j) +min 的值赋予 T油le (i, j)。
【文档编号】G06F17/30GK104462217SQ201410626154
【公开日】2015年3月25日申请日期:2014年11月9日优先权日:2014年11月9日
【发明者】蔡青林, 陈岭, 孙建伶, 陈蕾英申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡青林;陈岭;孙建伶;陈蕾英;
技术所有人：浙江大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。