时序数据的模体识别方法和装置的制造方法_5

文档序号:8395873阅读:来源:国知局
子序列之间的距离在误差范围内,说明这两个数据子序列的相似度较高,这两个数 据子序列可以构成模体;当两个数据子序列之间的距离在误差范围以外,说明这两个数据 子序列的相似度较低,这两个数据子序列无法构成模体。因此,为了提高模体识别的准确 性,本实施例提供的方法在计算记录的次数中超过阈值的次数所对应的两个数据子序列之 间的欧氏距离后,还将得到的两个数据子序列之间的欧氏距离与第一预设距离进行比较, 并将距离小于第一预设距离的两个数据子序列作为识别出的标准模体。对于上述过程,为 了便于理解,下面将以第一预设距离为2个数据长度为例,进行详细地解释说明。
[0158] 例如,将记录的次数与阈值进行比较后,记录的次数超过阈值的次数所对应的数 据子序列有:数据子序列1和数据子序列2、数据子序列3和数据子序列4。若数据子序列 1和数据子序列2之间的欧氏距离为3个数据长度,数据子序列3和数据子序列4之间的欧 氏距离为1个数据长度。由于数据子序列1和数据子序列2之间的欧氏距离为3个数据长 度,3个数据长度大于2个数据长度,因此,数据子序列1和数据子序列2不能作为识别出的 标准模体。由于数据子序列3和数据子序列4之间的欧氏距离为1个数据长度,1个数据长 度小于2个数据长度,因此,数据子序列3和数据子序列4作为识别出的标准模体。
[0159] 为了将上述过程直观地展现出来,下面以坐标系为例,详细介绍得到标准模体的 过程。该过程在具体执行时,分为如下几步:
[0160] 第一步,将记录的次数超过阈值的符号子序列在坐标系中标记下来。具体标记的 符号子序列为setM={(xi,yi,Li)}。其中,xi表示在随机投影过程中标号小的符号子序列, yi表示在随机投影过程中标号大的符号子序列,Li表示符号子序列的长度。
[0161] 第二步,根据第一步中标记的符号子序列,确定标记的符号子序列在时序数据中 对应的数据子序列S={sl,s2, ......,sn}。
[0162] 第三步,设定欧氏距离阈值B。
[0163] 第四步,根据设定的欧氏距离阈值B,判断第二步中确定的时序数据中的子序列能 否成为标准模体。
[0164] 针对第四步,在具体判断时,可通过执行下面程序实现:
[0165]
【主权项】
1. 一种时序数据的模体识别方法,其特征在于,所述方法包括: 获取需要分析的时序数据,将所述需要分析的时序数据分割成至少两个数据子序列, 并对每个数据子序列进行符号化处理,得到至少两个符号子序列; 对所述符号子序列进行预设次数的随机投影,并记录投影的每个符号子序列与投影的 其他符号子序列在投影位置上具有相同符号的次数; 计算记录的次数中超过阔值的次数所对应的两个数据子序列之间的距离,将距离小于 第一预设距离的两个数据子序列作为识别出的标准模体; 对每个预设范围内的标准模体进行聚类,得到每个预设范围内的一个中也数据子序 列,并根据每个预设范围内的标准模体与中也数据子序列计算每个预设范围的方差; 缩小所述阔值,并计算记录的次数中超过缩小后的阔值的次数所对应的两个数据子序 列与其所在预设范围内的中也数据子序列之间的距离,将距离小于所在预设范围的方差的 数据子序列作为识别出的模体。
2. 根据权利要求1所述的方法,其特征在于,所述得到至少两个符号子序列之后,还包 括: 将所述符号子序列中至少两个连续的符号相同的符号子序列进行压缩,得到压缩符号 子序列; 所述对所述符号子序列进行预设次数的随机投影,包括: 对所述符号子序列中未压缩的符号子序列进行预设次数的随机投影。
3. 根据权利要求1所述的方法,其特征在于,所述根据每个预设范围内的标准模体与 中也数据子序列计算每个预设范围的方差,包括: 计算每个预设范围内的标准模体与中也数据子序列之间的距离平方的平均值,并将计 算得到的距离平方的平均值作为每个预设范围的方差。
4. 根据权利要求1所述的方法,其特征在于,所述缩小所述阔值,并计算记录的次数中 超过缩小后的阔值的次数所对应的两个数据子序列与其所在预设范围内的中也数据子序 列之间的距离,包括: 由大到小依次缩小所述阔值,直至识别出的模体数量大于预设数量为止; 计算记录的次数中超过每次缩小后的阔值的次数所对应的两个数据子序列与其所在 预设范围内的中也数据子序列之间的距离。
5. 根据权利要求2所述的方法,其特征在于,所述得到压缩符号子序列之后,还包括: 计算相邻两个压缩符号子序列对应的数据子序列之间的距离,将距离小于所述第一预 设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。
6. 根据权利要求1所述的方法,其特征在于,所述将距离小于第一预设距离的两个数 据子序列作为识别出的标准模体之后,还包括: 将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体; 所述对每个预设范围内的标准模体进行聚类,包括: 对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类; 所述根据每个预设范围内的标准模体与中也数据子序列计算每个预设范围的方差,包 括: 计算每个预设范围内的组合模体及未构成组合模体的标准模体分别与中也数据子序 列之间的距离平方的平均值,并将计算得到的距离平方的平均值作为每个预设范围的方 差。
7. 根据权利要求1至6中任一权利要求所述的方法,其特征在于,所述将距离小于所在 预设范围的方差的数据子序列作为识别出的模体之后,还包括: 将相邻且距离小于第二预设距离的至少两个识别出的模体构成大模体。
8. -种时序数据的模体识别装置,其特征在于,所述装置包括: 获取模块,用于获取需要分析的时序数据; 分割模块,用于将所述需要分析的时序数据分割成至少两个数据子序列; 处理模块,用于对每个数据子序列进行符号化处理,得到至少两个符号子序列; 投影模块,用于对所述符号子序列进行预设次数的随机投影; 记录模块,用于记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具 有相同符号的次数; 第一识别模块,用于计算记录的次数中超过阔值的次数所对应的两个数据子序列之间 的距离,将距离小于第一预设距离的两个数据子序列作为识别出的标准模体; 聚类模块,用于对每个预设范围内的标准模体进行聚类,得到每个预设范围内的一个 中也数据子序列; 计算模块,用于根据每个预设范围内的标准模体与中也数据子序列计算每个预设范围 的方差; 第二识别模块,用于缩小所述阔值,并计算记录的次数中超过缩小后的阔值的次数所 对应的两个数据子序列与其所在预设范围内的中也数据子序列之间的距离,将距离小于所 在预设范围的方差的数据子序列作为识别出的模体。
9. 根据权利要求8所述的装置,其特征在于,所述装置,还包括: 压缩模块,用于将所述符号子序列中至少两个连续的符号相同的符号子序列进行压 缩,得到压缩符号子序列; 所述投影模块,用于对所述符号子序列中未压缩的符号子序列进行预设次数的随机投 影。
10. 根据权利要求8所述的装置,其特征在于,所述计算模块,用于计算每个预设范围 内的标准模体与中也数据子序列之间的距离平方的平均值,并将计算得到的距离平方的平 均值作为每个预设范围的方差。
11. 根据权利要求8所述的装置,其特征在于,所述第二识别模块,用于由大到小依次 缩小所述阔值,直至识别出的模体数量大于预设数量为止;计算记录的次数中超过每次缩 小后的阔值的次数所对应的两个数据子序列与其所在预设范围内的中也数据子序列之间 的距离。
12. 根据权利要求9所述的装置,其特征在于,所述装置,还包括: 第H识别模块,用于计算相邻两个压缩符号子序列对应的数据子序列之间的距离,将 距离小于所述第一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的 模体。
13. 根据权利要求8所述的装置,其特征在于,所述第一识别模块,还用于将相邻且距 离小于第二预设距离的至少两个标准模体构成组合模体; 所述聚类模块,用于对每个预设范围内的组合模体及未构成组合模体的标准模体进行 聚类; 所述计算模块,用于计算每个预设范围内的组合模体及未构成组合模体的标准模体分 别与中也数据子序列之间的距离平方的平均值,并将计算得到的距离平方的平均值作为每 个预设范围的方差。
14.根据权利要求8至13中任一权利要求所述的装置,其特征在于,所述装置,还包 括: 第四识别模块,用于将相邻且距离小于第二预设距离的至少两个识别出的模体构成大 模体。
【专利摘要】本发明公开了一种时序数据的模体识别方法和装置,属于时序数据分析领域。包括:将需要分析的时序数据分割成至少两个数据子序列,将每个数据子序列转化为符号子序列;对符号子序列进行随机投影,记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次数;将记录的次数中超过阈值的次数所对应的两个数据子序列间的距离小于第一预设距离的两个数据子序列作为识别出的标准模体;对每个预设范围内的标准模体进行聚类得到一个中心数据子序列,根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差;缩小阈值,计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方差的数据子序列作为识别出的模体。本发明在保证模体识别速度的情况下,可提高模体识别的准确性。
【IPC分类】G06F17-30
【公开号】CN104714953
【申请号】CN201310681366
【发明人】刘博 , 陈成, 李建强
【申请人】日本电气株式会社
【公开日】2015年6月17日
【申请日】2013年12月12日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1