时序数据的模体识别方法和装置的制造方法_2

文档序号:8395873阅读:来源:国知局
0051] 结合第二方面,在第二方面的第五种可能的实现方式中,所述第一识别模块,还用 于将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体;
[0052] 所述聚类模块,用于对每个预设范围内的组合模体及未构成组合模体的标准模体 进行聚类;
[0053] 所述计算模块,用于计算每个预设范围内的组合模体及未构成组合模体的标准模 体分别与中心数据子序列之间的距离平方的平均值,并将计算得到的距离平方的平均值作 为每个预设范围的方差。
[0054] 结合第二方面或第二方面的第一种可能的实现方式至第五种可能的实现方式,在 第二方面的第六种可能的实现方式中,所述装置,还包括:
[0055] 第四识别模块,用于将相邻且距离小于第二预设距离的多个模体识别为一个大的 模体。
[0056] 本发明实施例提供的技术方案带来的有益效果是:
[0057] 对需要分析的时序数据进行符号化处理及随机投影,并记录投影的每个符号子序 列与投影的其他符号子序列在投影位置上具有相同符号的次数后,将记录的次数中超过阈 值的次数所对应的两个数据子序列之间的距离小于第一预设距离的两个数据子序列作为 识别出的标准模体,该模体中的两个数据子序列的位移差不会太大,保证了重复出现的概 率,进而可提高模体识别的准确性。
[0058] 此外,通过对每个预设范围内的标准模体进行聚类得到每个预设范围内的一个中 心数据子序列,根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方 差后,缩小阈值,计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与 其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方差的数据 子序列作为识别出的模体,从而提高了识别出的模体数量,进一步提高了模体识别的准确 性。
【附图说明】
[0059] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。
[0060] 图1是本发明实施例一提供的时序数据的模体识别方法流程图;
[0061] 图2是本发明实施例二提供的时序数据的模体识别方法流程图;
[0062] 图3是本发明实施例二提供的时序数据的示意图;
[0063] 图4是本发明实施例二提供的记录符号子序列的矩阵的示意图;
[0064] 图5是本发明实施例二提供的将符号子序列进行压缩后的示意图;
[0065]图6是本发明实施例二提供的一种随机投影的结果示意图;
[0066]图7是本发明实施例二提供的另一种随机投影的结果示意图;
[0067]图8是本发明实施例二提供的坐标系中标记的标准模体的示意图;
[0068]图9是本发明实施例二提供的识别大模体的示意图;
[0069] 图10是本发明实施例三提供的第一种时序数据的模体识别装置;
[0070] 图11是本发明实施例三提供的第二种时序数据的模体识别装置;
[0071] 图12是本发明实施例三提供的第三种时序数据的模体识别装置;
[0072] 图13是本发明实施例三提供的第四种时序数据的模体识别装置。
【具体实施方式】
[0073] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方 式作进一步地详细描述。
[0074] 实施例一
[0075] 本发明实施例提供了一种时序数据的模体识别方法,参见图1,本实施例提供的方 法流程包括:
[0076] 101 :获取需要分析的时序数据,将需要分析的时序数据分割成至少两个数据子序 列,并对每个数据子序列进行符号化处理,得到至少两个符号子序列。
[0077] 102 :对符号子序列进行预设次数的随机投影,并记录投影的每个符号子序列与投 影的其他符号子序列在投影位置上具有相同符号的次数。
[0078] 103:计算记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离,将 距离小于第一预设距离的两个数据子序列作为识别出的标准模体。
[0079] 104 :对每个预设范围内的标准模体进行聚类,得到每个预设范围内的一个中心 数据子序列,并根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方 差。
[0080] 105:缩小阈值,并计算记录的次数中超过缩小后的阈值的次数所对应的两个数据 子序列与其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方 差的数据子序列作为识别出的模体。
[0081] 作为一种可选实施例,得到至少两个符号子序列之后,还包括:
[0082] 将符号子序列中符号相同的连续至少两个符号子序列进行压缩,得到压缩符号子 序列;
[0083] 对符号子序列进行预设次数的随机投影,包括:
[0084] 对符号子序列中未压缩的符号子序列进行预设次数的随机投影。
[0085] 作为一种可选实施例,根据每个预设范围内的标准模体与中心数据子序列计算每 个预设范围的方差,包括:
[0086] 计算每个预设范围内的标准模体与中心数据子序列之间的距离平方的平均值,并 将计算得到的距离平方的平均值作为每个预设范围的方差。
[0087] 作为一种可选实施例,缩小阈值,并计算记录的次数中超过缩小后的阈值的次数 所对应的两个数据子序列与其所在预设范围内的中心数据子序列之间的距离,包括:
[0088] 由大到小依次缩小阈值,直至识别出的模体数量大于预设数量为止;
[0089] 计算记录的次数中超过每次缩小后的阈值的次数所对应的两个数据子序列与其 所在预设范围内的中心数据子序列之间的距离。
[0090] 作为一种可选实施例,得到压缩符号子序列之后,还包括:
[0091] 计算相邻两个压缩符号子序列对应的数据子序列之间的距离,将距离小于第一预 设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。
[0092] 作为一种可选实施例,将距离小于第一预设距离的两个数据子序列作为识别出的 标准模体之后,还包括:
[0093] 将相邻且距离小于第二预设距离的至少两个标准模体构成组合模体;
[0094] 对每个预设范围内的标准模体进行聚类,包括:
[0095] 对每个预设范围内的组合模体及未构成组合模体的标准模体进行聚类;
[0096] 根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方差,包 括:
[0097] 计算每个预设范围内的组合模体及未构成组合模体的标准模体分别与中心数据 子序列之间的距离平方的平均值,并将计算得到的距离平方的平均值作为每个预设范围的 方差。
[0098] 作为一种可选实施例,将距离小于所在预设范围的方差的数据子序列作为识别出 的模体之后,还包括:
[0099] 将相邻且距离小于第二预设距离的至少两个识别出的模体构成大模体。
[0100] 本发明实施例提供的方法,对需要分析的时序数据进行符号化处理及随机投影, 并记录投影的每个符号子序列与投影的其他符号子序列在投影位置上具有相同符号的次 数后,将记录的次数中超过阈值的次数所对应的两个数据子序列之间的距离小于第一预设 距离的两个数据子序列作为识别出的标准模体,该模体中的两个数据子序列的位移差不会 太大,保证了重复出现的概率,进而可提高模体识别的准确性。
[0101] 此外,通过对每个预设范围内的标准模体进行聚类得到每个预设范围内的一个中 心数据子序列,根据每个预设范围内的标准模体与中心数据子序列计算每个预设范围的方 差后,缩小阈值,计算记录的次数中超过缩小后的阈值的次数所对应的两个数据子序列与 其所在预设范围内的中心数据子序列之间的距离,将距离小于所在预设范围的方差的数据 子序列作为识别出的模体,从而提高了识别出的模体数量,进一步提高了模体识别的准确 性。
[0102] 实施例二
[0103] 由于通过对这些时序数据的模体进行分析研究,可揭示事物运动、变化及发展的 重要规律,对人们正确的认识事物并据此作出科学的决策具有重要的意义。例如,通过研究 城市每年的交通状况的时序数据,可以获知城市交通情况的重要指标,而这些指标可为我 们预测城市未来的交通情况提供依据。为此,本发明实施例提供了一种时序数据的模体识 别方法,现结合上述实施例一的内容,对本实施例提供的方法进行详细地解释说明。参见图 2,本实施例提供的方法流程包括:
[0104] 201:获取需要分析的时序数据。
[0105] 关于获取需要分析的时序数据的方式,本实施例不作具体限定,包括但不限于通 过如下方式获取:
[0106] 首先,统计某一事物在一段时间内的数据;
[0107] 其次,将统计得到的数据按时间顺序在坐标系中标记出来,得到该事物在统计时 间内的变化曲线,该统计时间内的变化曲线即为获取到的时序数据;
[0108] 其中,坐标系的X轴表示统计时间,Y轴表示统计的数据。
[0109] 为了便于理解,以统计股票市场在一天内的波动数据为例,得到股票市场在一天 内的波动数据之后,将统计得到的股票市场的波动数据按时间顺序在坐标系中标记出来, 得到股票市场在一天内的变化曲线,将该股票市场在一天内的变化曲线作为获取到的时序 数据。
[0110] 202 :将需要分析的时序数据分割成至少两个数据子序列。
[0
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1