时序数据的模体识别方法和装置的制造方法_4

文档序号:8395873阅读:来源:国知局
择未压缩的符号子序列的第2列和第3列进行投影。当然,也可 以选择未压缩的符号子序列的其他两列进行投影。但由于具有相同模体的未压缩的符号子 序列在相同位置上的符号是相同的,因此,经过预设次数的随机投影后,可能成为模体的两 个符号子序列在相同投影位置上出现相同符号的次数会相对较多。
[0139] 206:记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相 同符号的次数。
[0140] 其中,关于记录投影的每个符号子序列在预设次数的随机投影过程中与其他符号 子序列在投影位置上具有相同符号的次数的方式,本实施例不作具体的限定,包括但不限 于通过矩阵、表格等方式记录。
[0141] 为了便于理解上述过程,下面以通过矩阵的方式记录投影的每个符号子序列与其 他符号子序列在投影位置上具有相同符号的次数为例,进行详细地解释说明。
[0142] 其中,矩阵中每一行和每一列分别代表一个投影的符号子序列。关于矩阵中行和 列的投影的符号子序列的排列方式,可以按投影的符号子序列编号从小到大排列,也可以 按投影的符号子序列编号从大到小排列,本实施例不对矩阵中投影的符号子序列的行和列 的排列方式作具体的限定。如果在第一次随机投影过程中,两个投影的符号子序列在投影 位置上具有相同符号,则在矩阵中这两个投影的符号子序列的交叉位置上记录1,表示在一 次随机投影过程中这两个投影的符号子序列符号相同的次数为一次;如果在第二次随机投 影过程中,这两个投影的符号子序列在投影位置上还具有相同符号,则在矩阵中这两个投 影的符号子序列的交叉位置上记录2,表示在两次随机投影过程中这两个投影的符号子序 列符号相同的次数为两次。最后,将预设次数的随机投影过程中这两个投影的符号子序列 在投影位置上具有相同符号的次数累计起来,并将累计的次数记录在矩阵中这两个投影的 符号子序列的交叉位置上,表示在预设次数的随机投影过程中这两个投影的符号子序列在 投影位置上具有相同符号的次数。
[0143] 需要说明的是,由于矩阵的行和列都表示投影的符号子序列,因此,两个投影的符 号子序列在矩阵中的交叉位置有两个,但这两个位置表示的投影的符号子序列是相同的。 为了避免重复记录,本实施例中将随机投影过程中两个投影的符号子序列编号小的用矩阵 的行来表示,编号大的用矩阵的列来表示。
[0144] 为了便于理解上述步骤202至206,下面以设定表示符号子序列的符号种类为ab c,表示符号子序列的符号数为4个,并结合图4至图7所示的示意图为例进行详细地解释 说明。
[0145] 其中,图4为记录的每个符号子序列的矩阵示意图,图5为记录未进行压缩的符号 子序列的矩阵示意图,图6和图7为对未压缩的符号子序列进行第一次和第二次随机投影 后的结果示意图。从图4可以看出,符号化后得到的符号子序列中,符号子序列2的表示符 号为aaaa、符号子序列3的表不符号为aaaa、符号子序列4的表不符号为aaaa,由 于符号子序列2、符号子序列3、符号子序列4为连续的符号子序列且表示符号相同,因此, 将符号子序列2、符号子序列3、符号子序列4进行了压缩,得到了压缩符号子序列,并将未 压缩的符号子序列在图5中表不出来。
[0146] 图6为对图5中未压缩的符号子序列进行第一次随机投影的结果示意图,该第一 次随机投影过程中选择的列数为图5中的第1列。从图6中可以看出,在第一次随机投影 过程中第1个符号子序列和第5个符号子序列在投影位置上具有相同的符号,第1个符号 子序列和第897个符号子序列在投影位置上具有相同的符号,第5个符号子序列和第897 个符号子序列在投影位置上具有相同的符号。将一次随机投影过程中在投影位置上具有相 同符号的次数在矩阵中符号子序列的交叉位置上记录下来,即在图6所示的矩阵中横轴为 第1行纵轴为第5行的交叉位置上记录为1,在横轴为第1行纵轴为第897行的交叉位置上 记录为1,在横轴为第5行纵轴为第897行的交叉位置上记录为1。
[0147] 在图6记录的第一次随机投影后的结果示意图的基础上,图7为对图5中未压缩 的符号子序列进行第二次随机投影的结果示意图,该第二次随机投影过程中选择的列数为 图5中的第2列。从图7中可以看出,在第二次随机投影过程中第5个符号子序列和第897 个符号子序列在投影位置上具有相同符号,由于在第一次随机投影过程中第5个符号子序 列和第897个符号子序列在投影位置上具有相同符号的次数为1次,因此,两次随机投影过 程中第5个符号子序列和第897个符号子序列在投影位置上具有相同符号的次数为2次, 在矩阵中符号子序列的交叉位置上记录下来,即在图7中所示的矩阵中横轴为第5行纵轴 为第897行的交叉位置上记录为2。由于在第二次随机投影过程中第1个符号子序列和第 5个符号子序列在投影位置上不具有相同符号,第1个符号子序列和第897个符号子序列在 投影位置上也不具有相同符号,因此,两次随机投影过程中第1个符号子序列和第5个符号 子序列在投影位置上具有相同符号的次数为1次,第1个符号子序列和第897个符号子序 列在投影位置上具有相同符号的次数为1次,将两次随机投影的结果记录下来,即在图7中 所示的矩阵中横轴为第1行纵轴为第5行的交叉位置上记录为1,在横轴为第1行纵轴为第 897行的位置上记录为1。
[0148] 需要说明的是,上述仅以第1个符号子序列、第5个符号子序列和第897个符号子 序列为例进行说明,图中其他未压缩的符号子序列的第一次和第二次随机投影的原理与图 5中第1个符号子序列、第5个符号子序列和第897个符号子序列的投影原理相同,具体参 见对第1个符号子序列、第5个符号子序列和第897个符号子序列的分析,此处不再一一说 明。
[0149] 207:计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离,将 距离小于第一预设距离的两个数据子序列作为识别出的标准模体。
[0150] 其中,阈值可以是2、3、4等,本实施例不对阈值的大小进行限定。由于在随机投影 时,两个符号子序列在投影位置上具有相同符号的次数越多,说明这两个符号子序列的相 似度越高,即这两个符号子序列具有相同的模体的可能性较大;两个符号子序列在投影位 置上具有相同符号的次数越少,说明这两个符号子序列的相似度越低,即这两个符号子序 列具有相同的模体的可能性较小。因此,为了获取相似度较高的模体,在获取记录的次数中 超过阈值的次数所对应的两个数据子序列之前时,可根据随机投影的预设次数,选取较高 的阈值。例如,若进行随机投影的次数为4次,则可选取较为接近投影次数的值,如选取3 作为阈值;若进行随机投影的次数为6次,则可选取较为接近投影次数的值,如选取4作为 阈值。
[0151] 具体实施时,无论选取的阈值为多少,将上述步骤206中记录的次数直接与阈值 进行比较后,比较结果有两种:记录的次数超过阈值,记录的次数未超过阈值。其中,未超过 阈值包括等于和小于阈值。虽然记录的次数中超过阈值的次数所对应的两个数据子序列具 有较高相似度,但为了使识别出的时序数据的模体更为精准,在确定记录的次数中超过阈 值的次数所对应的两个数据子序列后,可通过计算记录的次数中超过阈值的次数所对应的 两个数据子序列之间的距离作进一步地确认。
[0152] 具体地,在计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距 离时,两个数据子序列之间的距离包括但不限于欧氏距离、马氏距离、兰氏距离等,本实施 例中以计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离为欧氏距 离为例进行说明。
[0153] 其中,欧氏距离也称欧几里得距离,它是m维空间中两点之间的真实距离。若A (at,a2, ......,am)和B(bpb2, ......,bm)是m维空间中的两点,那么m维空间中A、B两点 之间的欧氏距尚为:(afbi) 2+ (a2_b2) 2+......+ (am_bm) 2 具体地,若A(a17a^B(b2,b2)是 二维空间中的两点,那么在二维空间中A、B两点之间的欧氏距离为;若A(,a2,a3)、B(h,b2,b3)是三维空间中的两点,那么在三维空间中A和B两点之间的欧氏 距尚为:() 2+ (a2_b2) 2+ (a3_b3)2。
[0154] 进一步地,在计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的 欧氏距离时,由于分割后的每个数据子序列的长度相同,每个数据子序列中包含的点的个 数也是相同的,因此,本实施例中将两个数据子序列中的每一个点之间的欧氏距离相加求 和作为两个数据子序列之间的欧氏距离。由于需要分析的时序数据为统计时间内的变化曲 线,因而时序数据上的每一个点都可以用坐标系来表示。且由于数据子序列为二维空间内 的子序列,因此,在计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的欧 氏距离时,可采用二维空间中两点之间的欧氏距离的计算公式进行计算。
[0155] 对于上述过程,为了便于理解,下面将以一个具体的例子进行详细地解释说明。
[0156] 例如,将记录的次数与阈值进行比较后,得到记录的次数中超过阈值次数的两个 数据子序列分别为数据子序列A和数据子序列B。若数据 〇!;10。,71。。)丨,数据子序列8={(£11, 1:|1),(32,132),~(31(|(|,13 1(|(|)}。则在二维空间中数据子序 列A和B之间的欧氏距离为:sqrt{ (Xfai) 2+ (yfb)2}+sqrt{ (x2_a2) 2+ (y2_b2)2} +...... +sqrt{ (x1Q(|-a1(l(l) 2+(y1Q(|-b1(l(l)2}。其中,sqrt表示平方根。
[0157] 进一步地,由于第一预设距离为两个数据子序列能否构成模体的误差范围,当两 个数据
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1