时序数据的模体识别方法和装置的制造方法_3

文档序号：8395873阅读：来源：国知局

111] 由于获取到的时序数据一般较长，从较长的时序数据中识别时序数据的模体的过程较为复杂，因此，为了简化时序数据的模体识别难度，本实施例提供的方法在对时序数据的模体进行识别之前，将需要分析的时序数据进行分割。具体地，包括但不限于通过如下方式进行分割：
[0112] 以滑动窗口按照预设滑动距离将需要分析的时序数据分割成至少两个数据子序列。
[0113] 其中，滑动窗口是一种将时序数据分割成数据子序列的方法，在识别时序数据的模体时被广泛的应用。滑动窗口大小是将时序数据分割成数据子序列的分割尺度。其中，滑动窗口大小可以为1个数据长度、2个数据长度、3个数据长度，当然也可以是其他的数据长度，本实施例不对滑动窗口大小作具体限定。为了保证识别结果的可靠性及准确性，分割的数据子序列数量不宜太多，也不宜太少，本实施例不对分割的数据子序列数量进行限定。具体实施时，可结合需要分析的时序数据的长度确定滑动窗口大小，从而确定分割的数据子序列的数量。无论确定的滑动窗口大小是多少，根据滑动窗口将时序数据分割为数据子序列时，分割的数据子序列数量至少为两个。
[0114] 此外，为了保证识别出的时序数据的模体的准确性，本实施例提供的方法，在以滑动窗口将需要分析的时序数据分割为至少两个数据子序列之前，还需设置滑动距离。其中，预设滑动距离可以是1个数据长度、2个数据长度、3个数据长度等，本实施例不对预设滑动距离的大小作具体的限定。
[0115] 具体地，以滑动窗口按照预设滑动距离将需要分析的时序数据分割成至少两个数据子序列时，包括但不限于如下方式：
[0116] 首先，确定分割方式。关于以滑动窗口将需要分析的时序数据分割成至少两个数据子序列的分割方式，可以采用从需要分析的时序数据的起点到终点依次分割的方式，也可以采用从需要分析的时序数据的终点到起点依次分割的方式。为了便于后续的分析和计算，本实施例中采用从需要分析的时序数据的起点到终点依次分割的方式。
[0117] 其次，以滑动窗口大小为分割尺度，将滑动窗口从需要分析的时序数据的起点滑动到终点，且滑动窗口每次滑动的长度为滑动距离的大小。在滑动的过程中，滑动窗口每滑动一个滑动距离的长度，便将需要分析的时序数据分割成一个数据子序列。
[0118] 采用上述方法后，时序数据被分割成一系列的数据子序列，为了便于对分割得到的数据子序列进行分析和计算，本实施例中还将分割得到的数据子序列从时序数据的起点到终点依次顺序进行编号，分别为第1个数据子序列，第2个数据子序列，第3个数据子序列，……，直到最后一个数据子序列。
[0119] 为了便于理解上述过程，下面以将时序数据从起点到终点依次分割的方式为例，进行详细地解释说明。
[0120] 以长度为100个数据长度的时序数据T，滑动窗口大小为2个数据长度，预设滑动距离为1个数据长度为例。将滑动窗口从时序数据T的起点每次滑动1个数据长度到时序数据的终点的过程中，时序数据T被分割成一系列的数据子序列，分别为第1个数据子序列，第2个数据子序列，第3个数据子序列，……，直到第99个数据子序列。
[0121] 203:对每个数据子序列进行符号化处理，得到至少两个符号子序列。
[0122] 由于时序数据具有高维度、噪声干扰以及非稳态等特性，导致在原始时序数据上直接进行时序数据的模体识别，不仅会降低计算效率，而且会影响识别出的时序数据的模体的准确性和可靠性。因此，为了提高识别时序数据的模体时的计算效率，使识别出的时序数据的模体准确性更高，本实施例提供的方法在将需要分析的时序数据分割成至少两个数据子序列之后，还将对分割得到的数据子序列进行降维处理。由于在低维空间对数据子序列进行计算的计算量相对原空间要小的多，因此，通过降维处理可以减小对数据子序列进行模体识别的计算量。目前，模体识别时的主要降维方法有奇异值分解法、符号集近似法等，其中应用最广的方法是符号集近似SAX方法。具体实施时，本实施例以采用SAX方法为例进行说明。
[0123] 其中，SAX方法作为一种典型的降维方法，对数据子序列进行降维处理时，首先采用分段总额逼近方法，将数据子序列表示成离散化序列，然后根据高斯距离将离散化序列进行符号化处理，进而得到了符号子序列。进一步地，在根据SAX方法将数据子序列转化为符号子序列时，表示符号子序列的符号数和所用的符号种类可以由用户设定。在用户设定表示符号子序列的符号数和所用符号的种类后，每个符号子序列将代替相应的数据子序列参与后续的计算。
[0124] 对于上述过程，为了便于理解，下面将以一个具体的例子进行详细地解释说明。
[0125] 仍以时序数据T为例，将时序数据T分割得到100个数据子序列后，采用SAX方法将每个数据子序列转化为符号子序列时，如果用户设定表示符号子序列的符号数为4个，表示符号子序列的符号种类为a、b和c，则根据用户确定的符号子序列的表示规则，将时序数据T中任意一个数据子序列A1转化为符号子序列时，若A1表示为abca，则在后续的计算中abca将代替数据子序列A1进行计算。
[0126] 需要说明的是，将时序数据进行降维处理得到至少两个符号子序列后，为了便于后续对符号子序列进行识别，本步骤将符号子序列进行存储。关于存储符号子序列的方式，包括但不限于通过矩阵、表格等方式进行存储，本实施例不对存储符号子序列的方式进行限定。
[0127] 204:将符号子序列中至少两个连续的符号相同的符号子序列进行压缩，得到压缩符号子序列。
[0128] 在对时序数据进行符号化处理，得到至少两个符号子序列后，从得到的符号子序列的表示符号中可以看出，有些符号子序列的表示符号相同，且这些符号子序列连续出现。其中，符号相同的符号子序列即符号子序列的所有表示符号均相同，也就是说，如果符号子序列中的所有符号相同，贝 1J认为该符号子序列为符号相同的符号子序列。例如，一个符号子序列为aaaa，则认为该符号子序列为符号相同的符号子序列。由于这些连续出现的符号相同的符号子序列无需通过后续步骤，就可将相似的子序列识别出来，因此，为了提高后续识别时序数据的模体的效率，本实施例中将符号子序列中至少两个连续的符号相同的符号子序列进行压缩，以便于后续模体的识别。
[0129] 具体地，将符号子序列中至少两个连续的符号相同的符号子序列进行压缩，包括但不限于：
[0130] 将符号子序列中至少两个连续的符号相同的符号子序列用任意一个连续的符号子序列的符号及连续出现的符号子序列的数量表示。
[0131] 例如，若符号子序列的符号数为n个，表不符号子序列的符号种类为a、b和c，当连续的符号相同的子序列的符号为a，符号相同的子序列连续次数为m次时，压缩子序列可以表示为：aa......m，其中，a的数量为n-1个。
[0132] 对于上述过程，为了便于理解，下面将以用户设定表示符号子序列的符号数为4 个，表示符号子序列的符号种类为a、b和c为例，进行详细地解释说明。
[0133] 如图3所示，时序数据T经过分割和符号化处理后，时序数据T被转化为100个符号子序列。由图3可知，符号子序列1的表不符号为aaaa、符号子序列2的表不符号为 aaaa、......、符号子序列10的表不符号为aaaa。由此可以看出，符号数n为4,且符号子序列1、符号子序列2、......、符号子序列10为连续的符号相同的符号子序列，即符号相同的子序列连续次数m为10,因此，可将符号子序列1、符号子序列2、……、符号子序列 10进行压缩，得到压缩子序列，该压缩子序列可以表示为aaa10。
[0134] 由于压缩子序列同样具有较高的相似度，也有可能成为时序数据的模体，因此，为了识别出更多的模体，本实施例提供的方法还将计算相邻的两个压缩符号子序列对应的数据子序列之间的距离，将距离小于第一预设距离的相邻两个压缩符号子序列对应的数据子序列作为识别出的模体。其中，第一预设距离可以为1个数据长度、2个数据长度、3个数据长度等，本实施例不对第一预设距离进行限定。
[0135] 205:对符号子序列中未进行压缩的符号子序列进行预设次数的随机投影。
[0136] 其中，随机投影是一种在概率寻找模体中广泛应用的方法，通过随机投影可以用较少的操作时间从较长的时序数据中识别出时序数据的模体。随机投影的主要原理是越是出现次数多的模体，在离散化以后子序列相同位置越有可能出现相同的符号。因此，通过比较预设次数的随机投影过程中符号子序列在不同位置上出现相同符号的次数即可以帮助发现模体。关于随机投影的预设次数，可以是1次，也可以是2次，当然也可以是其他值，本实施例不对预设次数的具体值进行限定。
[0137] 由于压缩符号子序列无需通过随机投影过程即可进行模体识别，因此，为了提高识别时序数据的模体的效率，本实施例提供的方法将不再对符号子序列中压缩符号子序列进行随机投影，而是对未压缩符号子序列进行预设次数的随机投影。
[0138] 具体地，在对符号子序列中未压缩的符号子序列进行预设次数的随机投影时，可以随机地选择投影的未压缩的符号子序列的列数。如可以选择2列进行投影，也可以选择3 列进行投影。具体投影时，可根据未压缩的符号子序列的情况进行设定。在确定投影的未压缩的符号子序列的列数后，具体对未压缩的符号子序列的哪些列进行投影也可以是随机选择的。例如，如果确定投影的未压缩的符号子序列的列数为2列，那么在随机投影时未压缩的符号子序列的任意两列都可以被选择。具体可以选择未压缩的符号子序列的第1列和第2列进行投影，也可以选

完整全部详细技术资料下载

当前第3页1 2 3 4 5