一种分布式系统中高维流量数据变化点检测方法

文档序号：6548577阅读：405来源：国知局

一种分布式系统中高维流量数据变化点检测方法
【专利摘要】本发明提供了一种分布式系统中高维流量数据变化点检测方法，该方法包括以下步骤：获取所述分布式系统中标准化的高维原始流量数据；高维原始流量数据降维；主成分表征的有序样本数据聚类，确定主成分数据的非平凡点；判定原始各维流量数据在对应的非平凡点处是否发生显著变化。该方法用于检测分布式系统中高维流量数据的变化点，进一步用于帮助管理人员更好的对分布式系统中的流量数据进行监测、分析。
【专利说明】一种分布式系统中高维流量数据变化点检测方法

【技术领域】
[0001] 本发明涉及一种数据挖掘【技术领域】的检测方法，具体讲涉及一种分布式系统中高维流量数据变化点检测方法。

【背景技术】
[0002] 分布式系统中对流量数据的监测与分析可帮助管理人员快速掌握系统内不同应用的负载情况，进而分析软件系统结构的合理性和实时检测异常情况。分布式系统的流量数据的分析也能帮助对网站访问热度、访问内容热点、用户访问习惯等信息的调查。
[0003] 然而，由于分布式系统中服务器数量大，各服务器上部署的应用程序不断产生大量流量数据，产生的流量数据维度较高的高维（高维指二维及以上维度）流量数据，并且数据具有周期性，管理人员难以直接地对数据进行观察与分析。例如，对于一台http服务器，页面点击量往往会具有周期性，即白天的数据量比夜里的数据大得多；若某天白天的数据量明显减小很但仍比夜里大，管理人员很可能无法监测到这种变化。产生与数据周期性波动不同的变化称为非平凡变化，产生非平凡变化的数据点称为非平凡变化点，即为数据变化点。另外，由于分布式系统中服务器数量大，产生的流量数据多，而管理人员相对较少，直接观察这些数据代价很大甚至不可行。现有技术中并未提出对高维流量数据变化的检测方法，提出一种有效的流量数据变化点检测方法非常必要。
[0004] 本发明涉及的技术包括主成分分析法（PCA)、有序样本聚类方法和F检验方法。
[0005] 主成分分析方法用少数主成分特征描述原始高维流量数据，以达到降低特征空间维数并保留样本最主要的信息的目的。主成分分析的原理是将一个分量可能相关的高维向量X，通过特征向量矩阵投射到新的正交的由主成分表征的空间中，主成分的顺序由原始数据投影到该主成分的方差的大小顺序决定，用位列前位的若干主成分作为低维向量y表征原始高维数据，并且仅仅损失了一些次要信息。同时，根据低维主成分向量和特征向量矩阵，可以基本重构出所对应的原始高维向量。
[0006] 最优分割算法（也称"有序样本聚类方法"）为对有序样本序列进行最优分割。最优分割算法基本思路是给定一个样本序列和类别数，通过搜索所有可能的划分方案，找到段内离差平方和的总和最小的一种方案作为最终划分方案。由于一个数据序列的总离差平方和等于段内离差平方和与段间离差平方和之和，故段内离差平方和最小意味着段间离差平方和最大，也就是每段内都有最均匀的物理性质，而段间达到最大差异，故为最优划分。最早由Fisher在1958年提出复杂度为0(η 2)的最优分割算法，以各类内部样本差异最小为原则，对有序样本进行分类。
[0007] F检验是一种统计学方法，也称"方差齐性检验"，该方法为通过检验两组样本的方差是否具有显著差异，即方差齐性，来判断两组样本是否有显著性差异。主要通过比较两组数据的组间方差和组内方差得到的F统计量，如果比值大于F分布临界值，则认为具有显著差异，如果小于F分布临界值则认为不具有显著差异。F分布临界值与自由度和置信度有关，可以通过查F分布临界值表得到。

【发明内容】

[0008] 为克服上述现有技术的不足，本发明提供了一种分布式系统中高维流量数据变化点检测方法。
[0009] 实现上述目的所采用的解决方案为：
[0010] 一种分布式系统中高维流量数据变化点检测方法，其改进之处在于：所述方法包括以下步骤：
[0011] I、获取所述分布式系统中标准化的高维原始流量数据；
[0012] II、高维原始流量数据降维；
[0013] III、主成分表征的有序样本数据聚类，确定主成分数据的非平凡点；
[0014] IV、判定原始各维流量数据在非平凡点处是否发生非平凡变化。
[0015] 进一步的，所述步骤I包括：
[0016] S101、所述分布式系统的服务器设有流量采集器，获取单位时间内应用程序的原始流量数据；

【权利要求】
1. 一种分布式系统中高维流量数据变化点检测方法，其特征在于：所述方法包括以下步骤： 1、获取所述分布式系统中标准化的高维原始流量数据； II、高维原始流量数据降维； III、主成分表征的有序样本数据聚类，确定主成分数据的非平凡点； IV、判定原始各维流量数据在非平凡点处是否发生非平凡变化。
2. 如权利要求1所述的方法，其特征在于：所述步骤I包括： 5101、所述分布式系统的服务器设有流量采集器，获取单位时间内应用程序的原始流量数据； 5102、将获得的同一时间不同所述服务器的原始流量数据表示为高维向量，不同时间
3. 如权利要求1所述的方法，其特征在于：所述步骤II中，运用主成分分析法对原始流量数据进行主成分分析，并确定所述标准原始流量的主成分。
4. 如权利要求1所述的方法，其特征在于：所述步骤III中，将所述步骤II获得的主成分作为所述高维流量数据的特征进行聚类；运用周期性的有序样本聚类方法确定有序数据样本的最优分割点为流量数据的非平凡点。
5. 如权利要求1所述的方法，其特征在于：所述步骤IV中，根据所述非平凡点，对每一维原始流量数据在所述非平凡点的两侧流量数据进行周期性的方差齐性检验，判断所述非平凡点是否存在非平凡变化，若F统计值超出F检验临界值，则存在非平凡变化，否则不存在非平凡变化。
6. 如权利要求4所述的方法，其特征在于：所述步骤III包括以下步骤： S301、主成分分量ii(t)包括一维或多维的PC分量y' k(t)，b(n，m)表示将η个有序样品分为 m 类，b (n，m) A = {ip h+l，…，i2-l}，G2 = {i2，i2+l，…，i3-l}，…，Gm = {im，im+l，· · ·，n}，其分点为 1 = h < i2 < - < im < im+1-l，im+1 = n+1 ; S304、运用动态规划方法确定非平凡点。
7. 如权利要求5所述的方法，其特征在于：所述步骤IV包括以下步骤： 5401、设定％表示应用程序产生的流量数据在分割时间点不存在非平凡变化，氏表示应用程序产生的流量数据在分割时间点存在非平凡变化； 5402、通过类间变化SSA和类内变化SSE获得确定F统计值，包括： 5403、给定显著水平α，确定置信度为α的Fa值，若F>Fa，则认为X' jt)在时刻点t存在非平凡变化，否则X' ^t)在时刻点t不存在非平凡变化。
8. 如权利要求6所述的方法，其特征在于：所述步骤S402包括以下步骤： S4021、如下式确定所述类间变化SSA :
【文档编号】G06F11/30GK104050070SQ201410243426
【公开日】2014年9月17日申请日期:2014年3月28日优先权日:2014年3月28日
【发明者】赵丽, 刘欣然, 曹玮, 付戈, 刘谦申请人:国家计算机网络与信息安全管理中心

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵丽;刘欣然;曹玮;付戈;刘谦
技术所有人：国家计算机网络与信息安全管理中心
我是此专利的发明人

上一篇：一种划分网页语义模块的方法
上一篇：一种具有童锁功能的网络电视的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。