一种数据处理方法和装置制造方法

文档序号:6543648阅读:207来源:国知局
一种数据处理方法和装置制造方法
【专利摘要】本发明提供了一种数据处理方法和装置,该方法包括:获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。该方法有利于提高对时间序列挖掘的有效性。
【专利说明】一种数据处理方法和装置
【技术领域】
[0001]本发明涉及数据分析【技术领域】,更具体的说是涉及一种数据处理方法和装置。
【背景技术】
[0002]时间序列是一种重要的高维数据类型,将某一个现象的某一个统计指标在不同时间上的各个数值,随着时间先后顺序排列而成的序列。即,时间序列实际上可以理解为随着时间次序而变化的一系列数据。
[0003]时间序列被广泛应用于气象、航天、通信等领域。为了能够获取到更多有效信息,需要对时间序列进行挖掘。然而目前对时间序列的挖掘的过程中,往往会单独对时间序列中各个局部进行分析,忽略了时间序列中整体趋势特征,进而影响到数据挖掘的有效性,进而不能从时间序列中获取到更加准确有效的信息。

【发明内容】

[0004]有鉴于此,本发明提供了一种数据处理方法和装置,以提高对时间序列挖掘的有效性。
[0005]为实现上述目的,本发明提供如下技术方案:一种数据处理方法,包括:
[0006]获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点;
[0007]基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列;
[0008]对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列;
[0009]依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
[0010]优选的,所述基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列,包括:
[0011]A、将所述时间序列作为当前时间序列;
[0012]B、计算所述当前时间序列中各数据点的均值
【权利要求】
1.一种数据处理方法,其特征在于,包括: 获取时间序列,所述时间序列中包括有多个不同时间点对应的数据点; 基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列; 对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列; 依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
2.根据权利要求1所述的方法,其特征在于,所述基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列,包括: A、将所述时间序列作为当前时间序列;


_ m B、计算所述当前时间序列中各数据点的均值PΣ tIim其中,当前时间序列


?=1 ,Τ=?!, t2,...,tm, m为所述当前时间序列的长度; C、设定初始累积和Stl=O; D、计算所述当前时间序列中各个数据点的累积和\=U(V),其中,i=l,2,…,m; E、将累积和最大值所对应的数据点确定为拐点,以所述拐点为分割点将所述当前时间序列分割为两个待定子时间序列; F、分别将所述待定子序列作为所述当前时间序列,返回执行所述步骤A,直至将所述时间序列分割为预设数量个子序列,得到预设数量个初始子时间序列。
3.根据权利要求1所述的方法,其特征在于,所述依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列,包括: 按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
4.根据权利要求3所述的方法,其特征在于,所述按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列,包括: A、将所述初始子时间序列作为当前待处理子序列; B、计算所述当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二 ; C、计算所述当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率; E、如果所述第一斜率与所述第二斜率的差值的绝对值大于预设的斜率变化值,则将所述N+1个数据点中排序最后的数据点确定为所述目标数据点,并将排序位于所述目标数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤B,直至所述目标数据点为所述时间序列中排序末尾的数据点; D、如果所述第一斜率与所述第二斜率的差值的绝对值小于所述预设的斜率变化值,则将所述第二斜率作为所述第一斜率,并将所述当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回执行步骤C,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
5.根据权利要求1所述的方法,其特征在于,所述依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储,包括: 根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化,包括: 当所述目标子时间序列为上升趋势的时间序列时,将所述目标子序列符号化为οι 当所述目标子时间序列为下降趋势的时间序列时,将所述目标子时间序列符号化为10:., 当所述目标子时间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为上升趋势时,则将所述目标子时间序列符号化为11;: 当所述目标子时 间序列为持平趋势的时间序列,且所述目标子时间序列之前紧邻的目标子时间序列为下降趋势时,则将所述目标子时间序列符号化为00)!.其中,a表示所述目标子序列的斜率,b指所述目标子序列中最后一个数据点的数据值。
7.根据权利要求1至6任一项所述的方法,其特征在于,在将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列之前,还包括: 将所述时间序列转换为均值为0,标准差为I的标准时间序列; 贝U,在对所述目标子时间序列进行符号化之前,还包括: 将所述目标子时间序列转化为均值为0,标准差为I的标准子时间序列。
8.一种数据处理装置,其特征在于,包括: 获取单元,用于获取时间序列,所述时间序列中包括有多个不同时间点对应的数据占.初始分割单元,用于基于累积和控制图寻找所述时间序列中的拐点,以将所述时间序列分割成以所述拐点为分割点的预设数量个初始子时间序列; 再分割单元,用于对于任意一个所述初始子时间序列,依据所述初始子时间序列的模式变化,将所述初始子时间序列分割为多个不同模式的目标子时间序列; 符号化单元,用于依次对所述目标子时间序列进行符号化,得到符号化后的时间序列并存储。
9.根据权利要求8所述的装置,其特征在于,所述再分割单元,包括: 再分割子单元,用于按照所述初始子时间序列中各数据点对应的时间点的先后顺序,依次确定所述初始子时间序列中引起模式变化的目标数据点,得到以所述目标数据点为分割点分割出的多个不同模式的目标子时间序列。
10.根据权利要求9所述的装置,其特征在于,所述再分割子单元,包括:初始化单元,用于将所述初始子时间序列作为当前待处理子序列; 第一计算单元,用于计算所述当前待处理子序列中,排序靠前的N个数据点组成的线段的第一斜率,其中N为预先设定的自然数,且N大于等于二 ; 第二计算单元,用于计算所述当前待处理子序列中,排序靠前的N+1个数据点组成的线段的第二斜率; 第一分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值大于预设的斜率变化值,则将所述N+1个数据点中排序最后的数据点确定为所述目标数据点,并将排序位于所述目标数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第一计算单元,直至所述目标数据点为所述时间序列中排序末尾的数据点; 第二分割比较单元,用于如果所述第一斜率与所述第二斜率的差值的绝对值小于所述预设的斜率变化值,则将所述第二斜率作为所述第一斜率,并将所述当前待处理子序列中第一个数据点之后的数据点组成的序列作为当前待处理子序列,返回所述第二计算单元,直至当前待处理子序列中包含的数据点个数小于或等于N个为止。
11.根据权利要求8所述的装置,其特征在于,所述符号化单元,包括: 符号化子单元,用于根据所述目标子时间序列的模式,以及与所述目标子时间序列相邻的目标子时间序列的模式,对所述目标子时间序列进行符号化。
【文档编号】G06F19/00GK103942425SQ201410147955
【公开日】2014年7月23日 申请日期:2014年4月14日 优先权日:2014年4月14日
【发明者】杨树强, 尹洪, 陈志坤, 金松昌, 贾焰, 韩伟红, 周斌, 李爱平 申请人:中国人民解放军国防科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1