一种时序数据异常变化过程的挖掘系统及方法_2

文档序号：9453112阅读：来源：国知局

0028]
[0029] 其中，C表示数据周期，N表示窗口个数，T表示采样间隔At，k表示最大傅里叶系数所对应的倍频数；然后把时序数据划分成不相交的观察窗口，在每个观察窗口提取多种类型特征构成综合特征向量；对于周期数据，则取数据的最小完整周期作为窗口大小；对于非周期数据，则指定一个固定值作为窗口大小；窗口特征包括窗口内的均值、方差、小波特征、傅里叶特征构成特征向量；小波特征通过小波分解得到；小波分解层数L根据窗口大小k和阈值h自适应得到；阈值h是期望得到小波系数的最大长度；L初始为1，对于固定长度的窗口大小，如果k/2M、于阈值h，则分解层数为L，否则L加1，重复上述过程，直到 k/2M、于阈值h;窗口数据通过L层小波分解后，得到相同长度的小波近似系数和小波细节系数；傅里叶特征由固定数目的傅里叶系数及其对应频率组成；观察窗口经过傅里叶变换后得到一系列傅里叶系数；忽略直流分量，选择前n个最大的傅里叶系数及其对应频率作为傅里叶特征；n取值为2 ;
[0030] 第三步：SDMC聚类模块使用观察窗口的综合特征向量对数据进行聚类；SDMC聚类模块的聚类方法具体包括以下步骤：首先取第一条综合特征向量单独为一个簇，并作为簇中心；然后依次取后续综合特征向量并计算该综合特征向量与当前所有簇中心的距离；如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇中，并调整该簇中心；如果该距离大于给定阈值则将该综合特征向量单独生成一个簇，并作为簇中心；按照上述过程把所有综合特征向量处理完之后，再次遍历所有综合特征向量，依次取一条综合特征向量，计算该综合特征向量与当前所有簇中心的距离，然后将该综合特征向量放入与其最近的族中；如此处理完一遍所有综合特征向量之后调整当如所有的族中心；如果族中心有变化，则重复前述过程直至簇中心不再变化为止；当簇中心不再变化时，计算两两簇中心之间的距离；如果簇心之间的距离小于给定阈值，则合并该两簇；然后重复执行该过程直至任意两个簇心之间的距离均大于给定阈值；至此SDMC聚类过程结束；
[0031] 第四步：特征字符串生成模块根据聚类结果找到每个观察窗口对应特征向量所属的簇，然后用该簇的特征字符表示该观察窗口，把N个观察窗口序列转换为N个特征字符序列，即把原始时序数据转换为长度为N的特征字符串；
[0032] 第五步：异变过程学习模块首先给定待考察单词大小；然后把特征字符串划分成单词序列；接着统计每个单词的出现概率；大于给定概率阈值的单词就是频繁单词，否则就是非频繁单词；然后在特征字符串中连续的频繁单词构成频繁模式，而相邻频繁模式的间隙就是非频繁模式；从频繁模式变化到非频繁模式以及从非频繁模式变化到频繁模式的过程就是异常变化过程，非频繁模式所对应的特征字符串就是该异变过程的特征。
[0033] 相对于现有技术，本发明具有以下有益效果：本发明综合了多种时序特征，改进了聚类方法，从而比较稳定地挖掘出时序数据异变过程，并能以特征字符串给出抽象化表示，较好处理了时序数据的不确定性。【【附图说明】】
[0034] 图1是本发明系统的模块框架图。
[0035] 图2是本发明SDMC聚类模块流程图。
[0036] 图3是本发明异变过程学习模块流程图。
[0037] 图4是本发明示例参数数据曲线图。
[0038] 图5是本发明示例参数所得到的频繁模式和非频繁模式。
[0039] 图6是本发明示例参数所挖掘出的异常变化过程图示。【【具体实施方式】】
[0040] 以下是本方法较佳实施示例。
[0041] 参照图1，本发明一种时序数据异常变化过程的挖掘系统，包括数据预处理模块 1-1、综合特征向量提取模块1-2、SDMC聚类模块1-3、特征字符串生成模块1-4、异变过程学习模块1-5。
[0042] 数据预处理模块，用于对原始时序数据进行清洗、插值处理，获得归一化数据。
[0043] 数据预处理模块包括去野值、生成单参数文件（清洗）、等间隔处理（插值）以及归一化处理工作；为了去除噪音干扰，获取有效数据值，本发明通过"去野值处理"删除原始时序数据中的无效野值，保留有效值。具体为，对每个数据设定上下限，把大于上限的数值变为上限，小于下限的数值变为下限，以此达到去野值的目的。本发明提取单参数特征，不考虑多参数之间的关系。因此我们将每个有效参数单独写成一个数据文件。本发明对数据进行等间隔处理以保证在连续时间段内任意两个数据点之间的时间间隔相同。等间隔处理程序中，我们默认对数据每隔1秒进行采样。等间隔处理后的数据，每分钟都从0秒开始， 59秒结束。数据经过等间隔处理之后还要进行归一化处理，将其取值范围转换到[0，1]区间上，以消除量纲对结果的影响。具体采用线性归一化方法，其中最大最小值由等间隔处理后的数据统计得到，也可以人为设置。
[0044] 综合特征向量提取模块，用于自动分析所得归一化数据，求出数据的最小完整周期，然后对于周期数据以其最小完整周期为一个观察窗口，然后提取该窗口内的均值、方差、小波特征、傅里叶特征构成综合特征向量。
[0045] 综合特征向量提取模块在观察窗口上获取多种特征综合构成特征向量，而非单一特征向量。综合特征向量具体构成为：[均值，方差，小波特征，傅里叶特征];本发明自动识别出时序数据的最小完整周期，而不用人工逐一计算：首先设定一个初始观察窗口，然后该窗口向后滑动At时间得到一个新窗口，以此类推，得到N个窗口，每个窗口之间间隔 At时间；然后每个窗口内的参数值构成该窗口向量，接着分别计算t+0时刻窗口向量与 {t+A t, t+2 At,…，t+N At}时刻窗口向量之间的内积，得到内积值序列；然后对内积值序列进行傅里叶变换，求取傅里叶系数最大值所对应的频率，最后按照如下公式计算出数据的周期：
[0046]
[0047] 其中，C表示数据周期，N表示窗口个数，T表示采样间隔A t，k表示最大傅里叶系数所对应的倍频数；然后把时序数据划分成不相交的观察窗口，在每个观察窗口提取多种类型特征构成综合特征向量；对于周期数据，则取数据的最小完整周期作为窗口大小；对于非周期数据，则人工指定一个固定值作为窗口大小；窗口特征包括窗口内的均值、方差、小波特征、傅里叶特征构成特征向量；小波特征通过小波分解得到；本发明根据数据自适应确定小波分解层数，以获得合适的特征向量长度；小波分解层数L根据窗口大小k和阈值 h自适应得到；阈值h是期望得到小波系数的最大长度；L初始为1，对于固定长度的窗口大小，如果k/2M、于阈值h，则分解层数为L，否则L加1，重复上述过程，直到k/2M、于阈值 h;窗口数据通过L层小波分解后，可以得到相同长度的小波近似系数和小波细节系数；傅里叶特征由固定数目的傅里叶系数及其对应频率组成；观察窗口经过傅里叶变换后得到一系列傅里叶系数；忽略直流分量，选择前n个（n默认为2)最大的傅里叶系数及其对应频率作为傅里叶特征。
[0048] SDMC聚类模块，用于对综合特征向量进行聚类并对聚类结果进行簇间合并，提升聚类效果。
[0049] SDMC聚类模块使用观察窗口的综合特征向量对数据进行聚类；传统的K-Means聚类并不能保证簇间的距离足够大；当有些数据点比较分散的时候，传统K-Means聚类要么把大量相似度不够高的点强行聚集在一个簇中，导致簇很松散；要么会生成很多小簇，而小簇之间比较相似；这两种聚类结果都没有客观准确地反映出数据真实结构；本发明提出的 SDMC(Similar Density Merge Clustering)聚类方法类似于传统K-Means方法，但是最后进行了簇间合并过程，保证每个簇内的点足够相似，并且相似的小簇被适当合并；SDMC聚类方法具体包括以下步骤：首先取第一条综合特征向量单独为一个簇，并作为簇中心；然后依次取后续综合特征向量并计算该综合特征向量与当前所有簇中心的距离；如果该距离不大于给定阈值则将该综合特征向量放入与其距离最小的簇中，并调整该簇中心；如果该距离大于给定阈值则将该综合特征向量单独生成一个簇，并作为簇中心；按照上述过程把所有综合特征向量处理完之后，再次遍历所有综合特征向量，依次取一条综合特征向量，计算该综合特征向量与当前所有簇中心的距离，然后将该综合特征向量放入与其最近的簇中；如此处理完一遍所有综合特征向量之后调整当前所有的簇中心；如果簇中心有变化，则重复前述过程直至簇中心不再变化为止；当簇中心不再变化时，计算两两簇中心之间的距离；如果簇心之间的距离小于给定阈值，则合并该

完整全部详细技术资料下载

当前第2页1 2 3 4