一种分布式系统中高维流量数据变化点检测方法

文档序号:6548577阅读:405来源:国知局
一种分布式系统中高维流量数据变化点检测方法
【专利摘要】本发明提供了一种分布式系统中高维流量数据变化点检测方法,该方法包括以下步骤:获取所述分布式系统中标准化的高维原始流量数据;高维原始流量数据降维;主成分表征的有序样本数据聚类,确定主成分数据的非平凡点;判定原始各维流量数据在对应的非平凡点处是否发生显著变化。该方法用于检测分布式系统中高维流量数据的变化点,进一步用于帮助管理人员更好的对分布式系统中的流量数据进行监测、分析。
【专利说明】一种分布式系统中高维流量数据变化点检测方法

【技术领域】
[0001] 本发明涉及一种数据挖掘【技术领域】的检测方法,具体讲涉及一种分布式系统中高 维流量数据变化点检测方法。

【背景技术】
[0002] 分布式系统中对流量数据的监测与分析可帮助管理人员快速掌握系统内不同应 用的负载情况,进而分析软件系统结构的合理性和实时检测异常情况。分布式系统的流量 数据的分析也能帮助对网站访问热度、访问内容热点、用户访问习惯等信息的调查。
[0003] 然而,由于分布式系统中服务器数量大,各服务器上部署的应用程序不断产生大 量流量数据,产生的流量数据维度较高的高维(高维指二维及以上维度)流量数据,并且数 据具有周期性,管理人员难以直接地对数据进行观察与分析。例如,对于一台http服务器, 页面点击量往往会具有周期性,即白天的数据量比夜里的数据大得多;若某天白天的数据 量明显减小很但仍比夜里大,管理人员很可能无法监测到这种变化。产生与数据周期性波 动不同的变化称为非平凡变化,产生非平凡变化的数据点称为非平凡变化点,即为数据变 化点。另外,由于分布式系统中服务器数量大,产生的流量数据多,而管理人员相对较少,直 接观察这些数据代价很大甚至不可行。现有技术中并未提出对高维流量数据变化的检测方 法,提出一种有效的流量数据变化点检测方法非常必要。
[0004] 本发明涉及的技术包括主成分分析法(PCA)、有序样本聚类方法和F检验方法。
[0005] 主成分分析方法用少数主成分特征描述原始高维流量数据,以达到降低特征空间 维数并保留样本最主要的信息的目的。主成分分析的原理是将一个分量可能相关的高维向 量X,通过特征向量矩阵投射到新的正交的由主成分表征的空间中,主成分的顺序由原始数 据投影到该主成分的方差的大小顺序决定,用位列前位的若干主成分作为低维向量y表征 原始高维数据,并且仅仅损失了一些次要信息。同时,根据低维主成分向量和特征向量矩 阵,可以基本重构出所对应的原始高维向量。
[0006] 最优分割算法(也称"有序样本聚类方法")为对有序样本序列进行最优分割。最 优分割算法基本思路是给定一个样本序列和类别数,通过搜索所有可能的划分方案,找到 段内离差平方和的总和最小的一种方案作为最终划分方案。由于一个数据序列的总离差平 方和等于段内离差平方和与段间离差平方和之和,故段内离差平方和最小意味着段间离差 平方和最大,也就是每段内都有最均匀的物理性质,而段间达到最大差异,故为最优划分。 最早由Fisher在1958年提出复杂度为0(η 2)的最优分割算法,以各类内部样本差异最小 为原则,对有序样本进行分类。
[0007] F检验是一种统计学方法,也称"方差齐性检验",该方法为通过检验两组样本的方 差是否具有显著差异,即方差齐性,来判断两组样本是否有显著性差异。主要通过比较两组 数据的组间方差和组内方差得到的F统计量,如果比值大于F分布临界值,则认为具有显著 差异,如果小于F分布临界值则认为不具有显著差异。F分布临界值与自由度和置信度有 关,可以通过查F分布临界值表得到。


【发明内容】

[0008] 为克服上述现有技术的不足,本发明提供了一种分布式系统中高维流量数据变化 点检测方法。
[0009] 实现上述目的所采用的解决方案为:
[0010] 一种分布式系统中高维流量数据变化点检测方法,其改进之处在于:所述方法包 括以下步骤:
[0011] I、获取所述分布式系统中标准化的高维原始流量数据;
[0012] II、高维原始流量数据降维;
[0013] III、主成分表征的有序样本数据聚类,确定主成分数据的非平凡点;
[0014] IV、判定原始各维流量数据在非平凡点处是否发生非平凡变化。
[0015] 进一步的,所述步骤I包括:
[0016] S101、所述分布式系统的服务器设有流量采集器,获取单位时间内应用程序的原 始流量数据;

【权利要求】
1. 一种分布式系统中高维流量数据变化点检测方法,其特征在于:所述方法包括以下 步骤: 1、 获取所述分布式系统中标准化的高维原始流量数据; II、 高维原始流量数据降维; III、 主成分表征的有序样本数据聚类,确定主成分数据的非平凡点; IV、 判定原始各维流量数据在非平凡点处是否发生非平凡变化。
2. 如权利要求1所述的方法,其特征在于:所述步骤I包括: 5101、 所述分布式系统的服务器设有流量采集器,获取单位时间内应用程序的原始流 量数据; 5102、 将获得的同一时间不同所述服务器的原始流量数据表示为高维向量,不同时间
3. 如权利要求1所述的方法,其特征在于:所述步骤II中,运用主成分分析法对原始 流量数据进行主成分分析,并确定所述标准原始流量的主成分。
4. 如权利要求1所述的方法,其特征在于:所述步骤III中,将所述步骤II获得的主 成分作为所述高维流量数据的特征进行聚类;运用周期性的有序样本聚类方法确定有序数 据样本的最优分割点为流量数据的非平凡点。
5. 如权利要求1所述的方法,其特征在于:所述步骤IV中,根据所述非平凡点,对每一 维原始流量数据在所述非平凡点的两侧流量数据进行周期性的方差齐性检验,判断所述非 平凡点是否存在非平凡变化,若F统计值超出F检验临界值,则存在非平凡变化,否则不存 在非平凡变化。
6. 如权利要求4所述的方法,其特征在于:所述步骤III包括以下步骤: S301、主成分分量ii(t)包括一维或多维的PC分量y' k(t),b(n,m)表示将η个有序 样品分为 m 类,b (n,m) A = {ip h+l,…,i2-l},G2 = {i2,i2+l,…,i3-l},…,Gm = {im,im+l,· · ·,n},其分点为 1 = h < i2 < - < im < im+1-l,im+1 = n+1 ; S304、运用动态规划方法确定非平凡点。
7. 如权利要求5所述的方法,其特征在于:所述步骤IV包括以下步骤: 5401、 设定%表示应用程序产生的流量数据在分割时间点不存在非平凡变化,氏表示 应用程序产生的流量数据在分割时间点存在非平凡变化; 5402、 通过类间变化SSA和类内变化SSE获得确定F统计值,包括: 5403、 给定显著水平α,确定置信度为α的Fa值,若F>Fa,则认为X' jt)在时刻 点t存在非平凡变化,否则X' ^t)在时刻点t不存在非平凡变化。
8. 如权利要求6所述的方法,其特征在于:所述步骤S402包括以下步骤: S4021、如下式确定所述类间变化SSA :
【文档编号】G06F11/30GK104050070SQ201410243426
【公开日】2014年9月17日 申请日期:2014年3月28日 优先权日:2014年3月28日
【发明者】赵丽, 刘欣然, 曹玮, 付戈, 刘谦 申请人:国家计算机网络与信息安全管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1