检测集群异常的方法及应用、管理集群的系统的制作方法

文档序号:10515289阅读:517来源:国知局
检测集群异常的方法及应用、管理集群的系统的制作方法
【专利摘要】本发明公开了检测集群异常的方法及应用、管理集群的系统。其中,检测集群异常的方法包括下述步骤。获取指示集群性能的一个待检测的性能数据点。确定与该性能数据点相似度最高的性能数据类。判断性能数据点与所确定的性能数据类的相似度是否超过相似度阈值。在超过阈值时,将性能数据点聚合到所确定的性能数据类中,并计算数据点总数占当前所有性能数据类的数据点总数的比例是否超过异常类阈值。在未超过异常类阈值时,对性能数据点与中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阈值。在大于距离分布阈值时,确定该待检测的性能数据点为一个异常点。
【专利说明】
检测集群异常的方法及应用、管理集群的系统
技术领域
[0001] 本发明设及互联网领域,尤其设及检测集群异常的方法及应用、管理集群的系统。
【背景技术】
[0002] 随着互联网技术的进步,基于云计算架构的集群被越来越多的应用在各领域中。 集群通常可W包括多台计算设备(例如,应用服务器或者数据库服务器等)。集群可W被配 置为执行分布式应用或者被配置为均衡提供多个类似的计算服务。集群具有高可扩展性, 通常具有大量的设备节点。为了对集群性能进行维护,对集群性能进行检测是非常必要的。
[0003] 面对集群大数量级的性能数据,高自动化和高准确度的性能检测手段是亟需的。 目前,已公开的一些性能检测手段(或者称为异常检测手段)采用机器学习的方式对性能数 据分类并确定异常数据。针对性能检测的机器学习包括对性能数据的有监督和无监督学 习。例如,基于kmeans的聚类算法对性能数据进行聚类和异常检测。然而,现有的异常检测 手段在准确度、稳定度等方面还很不足。
[0004] 因此,本发明提出了一种新的异常检测方案。

【发明内容】

[0005] 为此,本发明提供一种新的异常检测方案,有效的解决了上面至少一个问题。
[0006] 根据本发明的一个方面,提供一种检测集群异常的方法,包括下述步骤。获取指示 集群性能的一个待检测的性能数据点。该性能数据点包括归一化的多维性能指标。从已有 的由之前所获取的性能数据点所聚合生成的性能数据类中,确定与该待检测的性能数据点 相似度最高的性能数据类。判断该待检测的性能数据点与所确定的性能数据类的相似度是 否超过该性能数据类当前的相似度阔值。在超过当前的相似度阔值时,将该待检测的性能 数据点聚合到所确定的性能数据类中,并计算聚合后该性能数据类中数据点总数占当前所 有性能数据类的数据点总数的比例是否超过异常类阔值。在未超过异常类阔值时,对该待 检测的性能数据点与该性能数据类的中屯、质点的每个维度性能指标的距离进行排序,并计 算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阔值。在大于距 离分布阔值时,确定该待检测的性能数据点为一个异常点。
[0007] 根据本发明又一个方面,提供一种检测集群异常的应用,包括数据获取单元、相似 度计算单元、第一判断单元、聚合单元、第二判断单元和第Ξ判断单元。数据获取单元适于 获取指示集群性能的一个待检测的性能数据点。该性能数据点包括归一化的多维性能指 标。相似度计算单元,适于从已有的由之前所获取的性能数据点所聚合生成的性能数据类 中,确定与该待检测的性能数据点相似度最高的性能数据类。第一判断单元适于判断该待 检测的性能数据点与所确定的性能数据类的相似度是否超过该性能数据类当前的相似度 阔值。聚合单元适于在第一判断单元确定超过当前的相似度阔值时,将该待检测的性能数 据点聚合到所确定的性能数据类中。第二判断单元适于计算聚合后该性能数据类中数据点 总数占当前所有性能数据类的数据点总数的比例是否超过异常类阔值。第Ξ判断单元适于 在未超过异常类阔值时,对该待检测的性能数据点与该性能数据类的中屯、质点的每个维度 性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之比、是 否大于距离分布阔值。在大于距离分布阔值时,第Ξ判断单元确定该待检测的性能数据点 为一个异常点。
[0008] 可选地,在根据本发明的检测集群异常的应用中,数据获取单元进一步包括接收 模块和归一化模块。接收模块适于接收来自性能收集器所采集的指示集群性能的一个性能 数据组。该性能数据组包括多维性能指标。归一化模块适于归一化该性能数据组为性能数 据点。多维性能指标包括所述集群中内存利用率、CPU利用率、任务吞吐量、任务响应时间、 垃圾回收频率中至少一种。
[0009] 可选地,在根据本发明的检测集群异常的应用中,相似度计算单元适于根据下述 方式确定所述待检测的性能数据点相似度最高的性能数据类。计算待检测的性能数据点与 已有的每个性能数据类的中屯、质点的距离。根据与每个性能数据类的中屯、质点的距离,计 算待检测的性能数据点与运个性能数据类的相似度。确定与待检测的性能数据点相似度最 高的性能数据类。其中,相似度计算单元适于根据下述方式计算待检测的性能数据点与已 有的每个性能数据类的中屯、质点的距离:计算待检测的性能数据点与每个性能数据类的中 屯、质点的欧式距离。
[0010] 可选地,在根据本发明的检测集群异常的应用中,相似度计算单元适于根据下述 公式计算待检测的性能数据点与运个性能数据类的相似度:
[0011]
[0012] 其中,d为计算得到的待检测的性能数据点与运个性能数据类中屯、质点的距离, Sim为与运个性能数据类的相似度。
[0013] 可选地,在根据本发明的检测集群异常的应用中,聚合单元还适于根据下述公式 更新加入待检测的性能数据点之后的性能数据类的中屯、质点和相似度阔值:
[0016] 其中,cr为中屯、质点,吨为类中数据点总数,pt为所加入的性能数据点,Sim为pt与 性能数据类的相似度,th为异常类阔值,lr为用于调节th的学习率阔值。
[0017] 可选地,在根据本发明的检测集群异常的应用中,第Ξ判断单元适于根据下述方 式执行所述对该待检测的性能数据点与该性能数据类的中屯、质点的每个维度性能指标的 距离进行排序,并计算预定比例的最大距离和与所有维度的距离和之比、是否大于距离分 布阔值:
[001 引 pt= {ni,.. . ,m}cr= {ci,. .. ,ci}di=|m-ci |m为待检测的性能数据点pt中第i维 性能指标,ci为中屯、质点cr的第i维数值,di为po int第i维与cr中第i维的距离,
[0019] 对所有维度的di进行排序,并计算
痒中,N为所有维度总数,Μ为N中预定比 例的维度数量
为腺隹距离中最大的Μ个值的和,玄?化为Ν个距离的和,
[0020] 判断pr是否大于距离分布阔值。
[0021] 可选地,根据本发明的检测集群异常的应用还包括窗口判断单元,适于将待检测 的性能数据点加入到一个滑动窗口中。该滑动窗口保持有最新获取到的预定数量的性能数 据点。在第Ξ判断单元确定该待检测的性能数据点为一个异常点时,窗口判断单元判断该 滑动窗口中异常点的比例是否超过窗口阔值。
[0022] 可选地,根据本发明的检测集群异常的应用还包括告警单元。告警单元适于在窗 口判断单元确定超过所述窗口阔值时,根据每个维度性能指标的距离,确定待检测的性能 数据点中的异常性能指标。
[0023] 可选地,在根据本发明的检测集群异常的应用中,在第一判断单元确定所述待检 测的性能数据点与所确定的性能数据类的相似度未超过该性能数据类当前的相似度阔值 时,聚合单元还适于将该待检测的性能数据点新生成为一个性能数据类并将运个类加入到 已有的性能数据类中。聚合单元还适于判断当前所有的性能数据类的类别总数是否超过类 别阔值,并在超过时将距离最近的两个性能数据类合并为一个。其中,聚合单元适于根据下 述方式将距离最近的两个性能数据类合并为一个:计算所有的性能数据类中,两两之间中 屯、质点的距离,确定距离最近的两个类ch和Cl2。将ch和Cl2两个类合并为类Cl3。根据下述 公式确定cl3的中屯、质点、相似度阔值和数据点总数:
[0024] cr3 = cri*npi+cr2*np2
[0025] 地3= (npi*thi+吨 2*化2)/(吨 1+吨 2)
[0026] 吨3 =吨1+吨2
[0027] 其中,cn为cl3的中屯、质点,cn为cl2的中屯、质点,cri为ch的中屯、质点,吨功ch的 数据点总数,吨2为Cl2的数据点总数,化功Ch相似度阔值,th劝cl細似度阔值,th3为Cl3的 相似度阔值,吨3为Cl3的数据点总数。
[0028] 可选地,在根据本发明的检测集群异常的应用中,第二判断单元还适于在超过异 常类阔值时,确定待检测的性能数据点非异常点。第Ξ判断单元还适于在未超过距离分布 阔值时,确定待检测的性能数据点非异常点。
[0029] 可选地,根据本发明的检测集群异常的应用还包括类检测单元。类检测单元适于 在计算相似度单元确定与该待检测的性能数据点相似度最高的性能数据类之前,判断当前 已有的性能数据类总数是否非零,和\或判断待检测的性能数据点的维度是否与已有的性 能数据类一致。
[0030] 可选地,在根据本发明的检测集群异常的应用中,类检测单元还适于在确定当前 已有的性能数据类总数为零,或者确定所述维度与已有的性能数据类不一致时,指示聚合 单元将该待检测的性能数据点生成一个性能数据类。
[0031] 根据本发明的又一个方面,提供一种管理集群的系统,包括性能收集器、检测集群 的应用和资源管理应用。性能收集器适于收集集群的性能指标。资源管理应用适于根据检 测集群异常的应用生成的告警消息,调节集群的资源配置。
[0032] 根据本发明的异常检测方案,可W对实时获取的包括多维性能指标的性能数据点 进行增量式聚类,并且在聚类过程中通过自适应阔值判断性能数据点所加入的类是否属于 异常类。运样,本发明的异常检测方案所聚合的类和所进行的异常点检测操作的准确度具 有鲁棒性。进一步,通过对性能数据点与类中屯、质点每个维度的距离进行统计评价,本发明 的异常检测方案能够对类中相似度高和相似度低的点进行更好的区分。运样,异常检测方 案可w降低误报率。此外,本发明的异常检测方案,通过基于滑动窗口而判断异常点在窗口 中的比例,进一步可W提高异常告警的准确度。本发明的异常检测方案还可W控制聚类模 型的类别总数,并在数据维度发生变化,及时重新创建聚类模型,从而保证了异常检测的稳 定性。
【附图说明】
[0033] 为了实现上述W及相关目的,本文结合下面的描述和附图来描述某些说明性方 面,运些方面指示了可W实践本文所公开的原理的各种方式,并且所有方面及其等效方面 旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述 W及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的 部件或元素。
[0034] 图1示出了根据本发明的一些实施列的集群100的示意图;
[0035] 图2示出了根据本发明一些实施例的检测集群异常的应用200的示意图;
[0036] 图3示出了根据本发明一些实施例的检测集群异常的应用300的示意图;
[0037] 图4示出了根据本发明一些实施例的检测集群异常的方法400的流程图;W及
[0038] 图5示出了根据本发明一些实施例的检测集群异常的方法500的流程图。
【具体实施方式】
[0039] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可各种形式实现本公开而不应被运里阐述的实施例 所限制。相反,提供运些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0040] 图1示出了根据本发明的一些实施列的集群100的示意图。
[0041] 如图1所示,集群100包括多个计算设备。每个计算设备为集群中一个设备节点。集 群系统100包括应用服务器110和120,数据库服务器130和140,管理服务器150和监测服务 器160,但不限于此。其中,管理服务器150中驻留有资源管理应用151。监测服务器160中驻 留有性能收集器161和检测集群异常的应用162。
[0042] 资源管理应用151适于对集群100中设备节点进行资源调度管理,例如,指示一个 设备节点创建一个服务器实例、隔离一个设备节点或者添加一个新的设备节点到集群等。 取决于集群100的架构(例如化doop或Spark等),资源管理应用151可W是多种公知的集群 管理应用,运里不再寶述。
[0043] 性能收集器161适于收集集群100至少一部分的性能指标数据。性能指标数据的类 型可W是设备节点硬件、操作系统和应用等多方面的指标数据。性能指标数据的类型例如 包括内存利用率、CPU利用率、磁盘占用率、任务吞吐量、任务响应时间、垃圾回收频率等,但 不限于此。其中,任务吞吐量可W是设备节点单位时间能够处理的任务(例如是访问请求、 计算任务等)的数量。在根据本发明一个实施例中,性能收集器161可W周期性收集性能数 据组。每个性能数据组包括多个维度的性能指标。运里,每个维度的性能指标可W是同一类 型,例如多个设备节点的内存利用率。每个性能数据组也可W包括多个种类的性能指标。例 如,一个性能数据组包括一个设备节点的多种性能指标值。又例如,一个性能数据组可W包 括多个设备节点中每一个的多个性能指标。另外,性能收集器161收集数据的具体方式可W 采用多种公知的技术方式,例如,每个设备节点中部署有采集性能指标数据的探针agent。 多个探针可W将所采集的性能指标数据汇集到性能收集器161。根据来自多个设备节点的 性能指标数据,性能收集器161被配置为生成包括多个维度的性能数据组。一般而言,性能 数据组中每个维度的性能指标的采集时间是一致的,尽管可能存在一定的时间误差。为了 简化描述,运里对性能收集器更多的公知实现方式不再寶述,而运些方式都可W应用在本 发明中。
[0044] 检测集群异常的应用162适于根据性能收集器所收集的性能数据组,进行基于聚 类学习的异常检测。应用162在确定集群100异常时,还可W生成相应的告警消息,并传输到 资源管理应用151。运样,资源管理应用151可W根据该告警消息进行集群资源调度管理等 操作。
[0045] 需要说明的是,尽管图1示出的检测集群异常的应用162和性能收集器161都驻留 在监测服务器160中,但本发明对此不做过多限制。在一个实施例中,性能收集器16巧日应用 162分布在不同的设备节点中。例如,性能收集器161可W被配置为驻留在管理服务器150 中。另外,根据本发明的应用15U161和162都不局限于驻留在单个节点设备。在根据本发明 又一个实施例中,每个应用都可W是分布式应用。例如,监测集群异常的应用162分布在多 个设备节点上。运样,检测集群异常的应用162可W高实时性地完成对性能数据组的检测。 下面结合图2对根据本发明的检测集群异常的应用进行更具体的说明。
[0046] 图2示出了根据本发明一些实施例的检测集群异常的应用200的示意图。需要说明 的是,应用200既可W驻留在一个计算设备中,也可W是分布式应用,为了简化描述下文对 此不再过多说明。
[0047] 如图2所示,应用200包括数据获取单元210、相似度计算单元220、第一判断单元 230、聚合单元240、第二判断单元250和第Ξ判断单元260。
[0048] 数据获取单元210适于获取指示集群(100)性能的待检测的性能数据点。由于后续 相似度计算的需要,运里的性能数据点包括归一化的多维性能指标。
[0049] 在根据本发明一个实施例中,数据获取单元210可W从性能收集器(161)获取性能 数据组。性能数据组包括多维性能指标。性能数据组中性能指标的量化标准本身是归一化 的量纲(性能指标的取值范围为0至1)。运样,数据获取单元210可W将来自性能收集器的每 个性能数据组直接作为一个包括多维属性值的性能数据点。
[0050] 在又一个实施例中,来自性能收集器的性能数据组中至少一部分性能指标非归一 化的量纲。换言之,至少一部分性能指标的取值范围不限于0至1的区间。为此,数据获取单 元210可W被配置为包括接收模块(未示出)和归一化模块(未示出)。接收模块适于接收来 自性能收集器所采集的指示集群性能的性能数据组。归一化模块适于归一化每个性能数据 组为一个性能数据点。例如,
[0051] pt={m,...,m如为一个性能数据点,包括i维度的性能指标。每个性能指标为取 值范围处于[0,1]区间。
[0052] 相似度计算单元220适于计算并确定与当前待检测的性能数据点相似度最高的已 有性能数据类。在对运个待检测的性能数据点之前,聚合单元230通常已经生成了至少一个 性能数据类。每个性能数据类包括一个或多个性能数据点。为了与当前待检测的性能数据 点进行区分,本发明中将每个性能数据类中数据点称之为已检测的性能数据点。运里,已有 的性能数据类是应用200针对性能数据点建立的基于增量式的聚类模型。具体地,相似度计 算单元220可W分别计算待检测的性能数据点与每个已有的性能数据类的相似度,然后确 定相似度最高的性能数据类。在一个实施例中,相似度计算单元220首先计算待检测的性能 数据点与性能数据类的中屯、质点。运里的中屯、质点与性能数据类中每个性能数据点维度相 同。中屯、质点的每个维度的值是该类中所有性能数据点在该维度的均值。换言之,中屯、质点 为该类的质量中屯、。运里的距离可W是欧氏距离,也可W根据其他公知的距离计算方式来 确定。另外,本发明还可W采用例如余弦相似度等公知的相似度计算方式来确定待检测的 性能数据点与性能数据类的相似度,运里不再寶述。
[0053]在确定待检测的性能数据点与一个性能数据类的中屯、质点的距离后,相似度计算 单元220可W根据该距离来计算待检测的性能数据点与运个性能数据类的相似度。在本发 明一个实施例中,相似度计算单元根据下述公式计算性能数据点与性能数据类的相似度。
[0化4]
[0055] 其中,d为计算得到的待检测的性能数据点与运个性能数据类中线质点的距离, Sim为与运个性能数据类的相似度。
[0056] 在相似度计算单元220确定与运个待检测的性能数据点相似度最高的性能数据类 之后,第一判断单元230适于判断运个最高相似度是否超过该性能数据类当前的相似度阔 值。运里,相似度阔值可W是一个固定阔值,也可W被配置为自适应调节的阔值。在创建一 个性能数据类时,该性能数据类配置有一个初始的相似度阔值,例如为0.5。在性能数据类 每增加一个性能数据点时,相似度阔值进行一次调节。关于相似度阔值更详细的说明请见 下文。
[0057] 在第一判断单元230确定运个最高相似度超过当前的相似度阔值时,聚合单元240 适于将待检测的性能数据点聚合到运个性能数据类中。
[0058] 第二判断单元250适于计算聚合后该性能数据类中数据点总数占当前所有性能数 据类的数据点总数的比例是否超过异常类阔值。通常,所用性能数据点中,正常数据点数量 占较大比重。在计算得到的比例越高时,运个性能数据类是异常类的概率越低。
[0059] 在第二判断单元250确定未超过异常类阔值时,第Ξ判断单元260对待检测的性能 数据点与其加入的性能数据类的中屯、质点的所有维度的距离进行排序。第Ξ判断单元260 提取出预定比例(例如30%)的最大距离,并计算所提取出的最大距离之和与所有维度的距 离和之比是否大于距离分布阔值。根据本发明一个实施例,第Ξ判断单元260具体根据下述 方式来进行判断。
[0060] pt= {ni, . . .,m}cr= ki,. . .,ci}di=|m-ci I 其中,pt为一个性能数据点,cr为一 个中屯、质点,m为待检测的性能数据点pt中第i维性能指标,c功中屯、质点cr的第i维数值, di为pt第i维与cr中第i维的距离。
[0061] 第Ξ判断单元260对所有维度的di进行排序,并计算
t中,N为所有维度总 数,Μ为N中预定比例的维度数量
J维距离中最大的Μ个值的和,为Ν个距离的 和。最后,第Ξ判断单元260判断pr是否大于距离分布阔值。运里,低于距离分布阔值可W表 明性能数据点中各维度数据大小较为平均,那运个性能数据点是正常数据点的概率较高。 正常数据点可W指示集群不存在异常。在大于距离分布阔值时,第Ξ判断单元260确定待检 测的性能数据点为一个异常点。应用200还可W根据异常点生成告警消息并通知资源管理 应用(151)。运样,本发明的检测集群异常的应用200通过判断是否大于距离分布阔值,可W 提高异常点检测的准确性。
[0062] 图3示出了根据本发明一些实施例的检测集群异常的应用300的示意图。如图3所 示,应用300包括数据获取单元310、相似度计算单元320、第一判断单元330、聚合单元340、 第二判断单元350、第Ξ判断单元360、类检测单元370、窗口判断单元380和告警单元390。
[0063] 数据获取单元310的工作方式与图2中数据获取单元210-致,运里不再寶述。
[0064] 在一个实施例中,在数据获取单元310获取到一个待检测的性能数据点时,类检测 单元370可W判断当前已有的性能数据类总数是否非零。如果为零(表示还没有建立基于增 量是的聚类模型),类检测单元370适于指示聚合单元340将运个待检测的性能数据点生成 一个性能数据类(即建立新的聚类模型)。运样,运个生成的类可W作为已有的性能数据类, 并在此基础上聚合和检测后续获取的待检测性能数据点。
[0065] 在又一个实施例中,类检测单元370适于判断待检测的性能数据点的维度是否与 已有的性能数据类一致。维度若不一致,则表明该待检测的性能数据点不适合与已有的性 能数据类进行聚类。因此,相似度计算单元320不需要对该待检测的性能数据点执行操作。 运样,应用300适于重新生成性能数据类。换言之,应用300适于清空已有的性能数据点(即, 放弃已建立的聚类模型)。例如,类检测单元370可W删除已有的性能数据类,并指示聚合单 元340将运个待检测的性能数据点生成一个性能数据类。
[0066] 在又一个实施例中,类检测单元370可W同时对性能数据类总数是否非零和维度 是否一致进行判断。在类检测单元370确定已有的性能数据类总数非零且维度一致时,相似 度计算单元320可W对待检测的性能数据点执行与相似度检测单元220-致的操作,运里不 再寶述。
[0067] 第一判断单元330、聚合单元340、第二判断单元350和第Ξ判断单元360可W实现 与第一判断单元230、聚合单元240、第二判断单元250和第Ξ判断单元260相同的功能,运里 不再寶述。
[0068] 另外,在待检测的性能数据点加入到一个性能数据类之后,第二判断单元350在确 定该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例超过异常类阔 值时,确定待检测的性能数据点是正常数据点(非异常点)。第Ξ判断单元360在确定pr(具 体请参见上文中第Ξ判断单元260)未超过距离分布阔值时,确定待检测的性能数据点非异 常点。
[0069] 另外,在第一判断单元330确定待检测的性能数据点与所有性能数据类的相似度 未超过当前的相似度阔值时,聚合单元340还适于将运个待检测的性能数据点生成为一个 新的性能数据类。聚合单元340判断在加入新生成类之后性能数据类的总数是否超过类别 阔值。在超过类别阔值时,聚合单元340适于将所有性能数据类中、距离最近的两个性能数 据类合并为一个。运样,本发明的应用300可W对类别总数进行控制,W避免类别数过多。在 根据本发明一个实施例中,聚合单元340首先计算计算所有的性能数据类中,两两之间中屯、 质点的距离,然后确定距离最近的两个类ch和Cl2,并将ch和Cl2两个类合并为类Cl3。聚合 单元340可W根据下述公式确定cl3的中屯、质点、相似度阔值和数据点总数。
[0070] cr3 = cri*npi+cr2*np2
[0071 ]地3=(吨 l*thl+吨 2*化2)/(吨 1+吨 2)
[0072]吨 3 =吨 1+吨 2
[007;3] 其中,cn为cl3的中屯、质点,cn为cl2的中屯、质点,cri为ch的中屯、质点,吨功ch的 数据点总数,吨2为cl2的数据点总数,化功ch相似度阔值,th劝cl細似度阔值,th3为cl3的 相似度阔值,吨3为cl3的数据点总数。
[0074]另外,聚合单元340还适于在待检测的性能数据点加入到一个性能数据类之后,更 新运个性能数据类的中屯、质点和相似度阔值。在一个实施例中,聚合单元340根据下述公式 更新中屯、质点和相似度阔值。
[00巧]cr=(pt+c;r* 吨)/(吨+1)
[0076]
[0077] 其中,cr为中屯、质点,吨为类中数据点总数,pt为所加入的性能数据点,Sim为pt与 性能数据类的相似度,th为异常类阔值,lr为用于调节th的学习率阔值。在Sim大于更新之 前的th时,更新后相似度阔值th增大,即提高了加入数据点的标准。反之,在Sim小于更新之 前的th时,更新后的的th减小。运样,通过对相似度阔值进行自适应调节,根据本发明的应 用300在对性性能数据点进行检测时具有鲁棒性。
[0078] 综上,在数据获取单元310每获取一个待检测的性能数据点,类检测单元适于判断 当前已有的性能数据类是不是为零。
[0079] 如果为零,聚合单元340将运个性能数据点生成一个性能数据类。换言之,应用300 基于运个性能数据点,开始训练一个新的聚类模型。
[0080] 如果不为零,类检测单元370还可W检测运个性能数据点的维度是否与性能数据 类一致。如果不一致,类检测单元370清空已有的性能数据类。换言之,应用300放弃已有的 聚类模型,并基于运个性能数据点,开始训练一个新的聚类模型。
[0081] 如果已有的性能数据类不为零,且待检测的性能数据点维度与已有的性能数据类 一致,应用300通过相似度计算单元320、第一判断单元330、聚合单元340、第二判断单元350 和第Ξ判断单元360,来判断运个性能数据点是不是异常点。
[0082] 另外,窗口判断单元380还维护有一个滑动窗口。数据获取单元310每获取一个待 检测的性能数据点,窗口判断单元380都会将运个性能数据点加入到滑动窗口中。运样,滑 动窗口中始终保持应用300最新获取到的预定数量的性能数据点。在窗口判断单元380将一 个性能数据点加入到滑动窗口后,如果第Ξ判断单元360确定该性能数据点为异常点,窗口 判断单元380适于判断当前滑动窗口中异常点总数的比例是否超过窗口阔值(例如为0.5, 但不限于此)。如果超过窗口阔值,告警单元390还可W根据运个新加入到滑动窗口中的异 常点的di(具体参见上文),确定运个异常点的异常性能指标。换言之,告警单元390可W确 定多维性能指标中不正常的一个或多个性能指标。在此基础上,告警单元390可W针对异常 性能指标生成告警消息。运样,根据本发明的资源管理应用可W根据该告警消息,精确定位 发生异常的设备节点,并做出相应的资源管理操作。例如,一条性能数据点包括10个CPU占 用率指标。告警单元390确定第5个指标值存在异常。资源管理应用在获取到第5个指标值存 在异常的消息后,可W确定第5个指标对应的设备节点存在异常。
[0083] 图4示出了根据本发明一些实施例的检测集群异常的方法400的流程图。方法400 适于在根据本发明的监测服务器中执行。
[0084] 如图4所示,方法400始于步骤S410。在步骤S410中,获取指示所述集群性能的一个 待检测的性能数据点,该性能数据点包括归一化的多维性能指标。根据本发明一个实施例, 在步骤S410中,可W从性能收集器(161)获取性能数据组。性能数据组包括多维性能指标。 多维性能指标包括根据本发明的集群中内存利用率、CPU利用率、任务吞吐量、任务响应时 间、垃圾回收频率中至少一种。性能数据组中性能指标的量化标准本身是归一化的量纲(性 能指标的取值范围为0至1)。运样,方法400可W将来自性能收集器的每个性能数据组作为 一个包括多维属性值的性能数据点。在又一个实施例中,来自性能收集器的性能数据组中 至少一部分性能指标非归一化的量纲。换言之,至少一部分性能指标的取值范围不限于0至 1的区间。运样,步骤S410还需要执行归一化性能数据组为一个待检测的性能数据点的操 作。
[0085] 在步骤S410获取一个待检测的性能数据点后,方法400可W执行步骤S420。在步骤 S420中,从之前已获取的性能数据点所聚合生成的已有的性能数据类中,确定与该待检测 的性能数据点相似度最高的性能数据类。运里,已有的性能数据类实际上是一个已建立的 聚类模型。
[0086] 根据本发明一个实施例,步骤S420包括下述实施过程。首先,计算待检测的性能数 据点与已有的每个性能数据类的中屯、质点的距离。然后,根据与每个性能数据类的中屯、质 点的距离,计算待检测的性能数据点与运个性能数据类的相似度。最后,确定与待检测的性 能数据点相似度最高的性能数据类。其中,所计算的距离例如是欧氏距离,但不限于此。另 夕h相似度计算可W通过下述方式来实现。
[0087]
[0088] 其中,d为计算得到的待检测的性能数据点与运个性能数据类的中屯、质点的距离, Sim为与运个性能数据类的相似度。另外,步骤S420还可W采用例如余弦相似度等公知的相 似度计算方式来确定待检测的性能数据点与性能数据类的相似度,运里不再寶述。
[0089] 在步骤S420确定与待检测的性能数据点相似度最高的性能数据类后,方法400进 入步骤S430。在步骤S430中,判断该待检测的性能数据点与所确定的性能数据类的相似度 是否超过该性能数据类当前的相似度阔值。
[0090] 在步骤S430中确定超过当前的相似度阔值时,方法400执行步骤S440,将该待检测 的性能数据点聚合到所确定的性能数据类中,并计算聚合后该性能数据类中数据点总数占 当前所有性能数据类的数据点总数的比例是否超过异常类阔值。
[0091] 在步骤S440中确定未超过异常类阔值时,方法400进入步骤S450。在步骤S450中, 对该待检测的性能数据点与该性能数据类的中屯、质点的每个维度性能指标的距离进行排 序,并计算预定比例的最大距离之和与所有维度的距离和之比、是否大于距离分布阔值。下 面结合公式对步骤S450中操作进行更具体的示例性说明。
[0092] pt二(ni, · . ·,ni}cr=ki, · . ·,ci}
[0093] 首先,计算di二|m-ci|其中,m为待检测的性能数据点pt中第i维性能指标,Cl为中 屯、质点cr的第i维数值,di为pt第i维与cr中第i维的距离。
[0094]然后,对所有维度的di进行排序,并计算
a中,N为所有维度总数,Μ为N中 预定比例的维度数量,
为Ν维距离中最大的Μ个值的和,为Ν个距离的和。最后, 判断pr是否大于距离分布阔值。
[00M] 在步骤S450中确定大于距离分布阔值时,方法400进入步骤S460。确定该待检测的 性能数据点为一个异常点。方法400更具体的实现细节与应用200-致,运里不再寶述。
[0096] 图5示出了根据本发明一些实施例的检测集群异常的方法500的流程图。方法500 适于在根据本发明的监测服务器中执行。
[0097] 如图5所示,方法500始于步骤S501。步骤S501执行方式与步骤S410-致,运里不再 寶述。
[0098] 随后,方法进入步骤S502。在步骤S502中,判断当前已有的性能数据类总数是否非 零。
[0099] 在步骤S502中确定已有的性能数据类总数非零时,方法500可W选择执行步骤 S503。在步骤S503中,判断待检测的性能数据点的维度是否与已有的性能数据类一致。
[0100] 在步骤S503中确定维度不一致时,方法500执行步骤S504,放弃已有的性能数据 类,并且将待检测的性能数据点生成为一个性能数据类。换言之,步骤S504放弃了已有的聚 类模型,并开始一个新的聚类学习过程。
[0101] 在步骤S502中,确定已有的性能数据类总数为零时(即没有聚类模型),方法执行 步骤S505。在步骤S505中,将待检测的性能数据点生成一个性能数据类,并开始一个新的聚 类学习过程。
[0102] 在步骤S503中确定维度一致时,方法500执行步骤S506。步骤S506的实施方式与步 骤S420-致,运里不再寶述。需要说明的是,在根据本发明的实施例中性能数据点的维度保 持稳定时,方法500可W不执行步骤S503。即,在步骤S502中确定已有的性能数据类总数非 零时,直接执行步骤S506。
[0103] 在步骤S506中确定与待检测的性能数据点相似度最高的性能数据类后,方法500 进入步骤S507。步骤S507实施方式与步骤S430-致,运里不再寶述。
[0104] 在步骤S507中确定相似度未超过性能数据类当前的相似度阔值时,方法500执行 步骤S508。在步骤S508中,将待检测的性能数据点新生成一个性能数据类,并将运个类加入 到已有的性能数据类中。为了控制聚类模型中类别总数,方法500还执行步骤S509,判断当 前(加入一个新类之后)所有的类别总数是否大于类别阔值,并在超过时将距离最近的两个 性能数据类合并为一个。根据本发明一个实施例,步骤S509被实施为下述操作过程,但不限 于此。
[0105] 首先,计算所有的性能数据类中,两两之间中屯、质点的距离,确定距离最近的两个 类ch和cl2。
[0106] 然后,将ch和cl2两个类合并为类cl3。
[0107] 最后,根据下述公式确定cl3的中屯、质点、相似度阔值和数据点总数:
[0108] crs = cri 本打 pi+cr2 本打 P2
[0109] 化3二(npi*thi+np2*th2)/(npi+np2)
[0110] np3 = npi+np2
[01川其中,cn为cl3的中屯、质点,cn为cl2的中屯、质点,cri为ch的中屯、质点,吨功ch的 数据点总数,吨2为cl2的数据点总数,化功ch相似度阔值,th劝cl細似度阔值,th3为cl3的 相似度阔值,吨3为cl3的数据点总数。
[0112] 在步骤S507中确定超过当前的相似度阔值时,方法500执行步骤S510。步骤S510的 实施方式与步骤S440-致,运里不再寶述。
[0113] 在执行步骤S510之后,方法500还执行步骤S518。在步骤S518中,更新性能数据类 的中屯、质点和相似度阔值。根据本发明一个实施例,在步骤S518中,根据下述公式更新加入 待检测的性能数据点之后的性能数据类的中屯、质点和相似度阔值:
[0114] ^=(91+(3巧吨)/(吨+1)
[0115]
[0116] 其中,cr为中屯、质点,吨为类中数据点总数,pt为所加入的性能数据点,sim为pt与 性能数据类的相似度,th为异常类阔值,lr为用于调节th的学习率阔值。
[0117] 在步骤S510中确定比例超过异常类阔值时,方法执行步骤S511,确定待检测的性 能数据点为非异常点。
[011引在步骤S510中,确定比例未超过异常类阔值时,方法500进入步骤S512。步骤S512 的实施方式与步骤S450-致,运里不再寶述。
[0119] 在步骤S512中确定未大于距离分布阔值时,方法500选择执行步骤S511。
[0120] 在步骤S512中确定大于距离分布阔值时,方法500进入步骤S513。步骤S513的实施 方式与步骤S460-致,运里不再寶述。
[0121] 综上,方法500在步骤S511和S513中,确定了待检测的性能数据点是否为异常点。 通过步骤S504和S505,方法500新建一个性能数据类。运个类聚类模型的第一个类。通过步 骤S508和S509,方法500可W将一个待检测的性能数据点生成一个新的性能数据类,并将聚 类模型的类别总数控制在类别阔值的范围内。
[0122] 可选地,方法500还包括步骤S514。在步骤S514中,将待检测的性能数据点加入到 一个滑动窗口中。该滑动窗口通常保留有方法500执行过程中最新获取的预定数量(即窗口 的预定宽度)的性能数据点(即通过步骤S501获取的性能数据点)。需要说明的是,方法500 在执行步骤S504和S505时,步骤S514将清除滑动窗口中在新建的性能数据类中性能数据点 之前的数据点。
[0123] 另外,在步骤S514中加入一个性能数据点为异常点时,方法500还执行步骤S515。 在步骤S515中,判断滑动窗口中异常点的比例是否超过窗口阔值。
[0124] 在步骤S515中超过窗口阔值时,方法500执行步骤S516,根据异常点与中屯、质点在 每个维度的距离,确定待检测的性能数据点中的异常性能指标。
[0125] 方法500还包括步骤S517,生成针对异常性能指标的告警消息。方法500更具体的 实施方式与应用300-致,运里不再寶述。
[0126] A9、如A1-A8中任一项所述的方法,还包括:将待检测的性能数据点加入到一个滑 动窗口中,该滑动窗口保持有最新获取到的预定数量的性能数据点;在确定该待检测的性 能数据点为一个异常点时,判断该滑动窗口中异常点的比例是否超过窗口阔值。A10、如A9 所述的方法,还包括:在超过所述窗口阔值时,根据所述每个维度性能指标的距离,确定所 述待检测的性能数据点中的异常性能指标。All、如A1-A10中任一项所述的方法,在所述待 检测的性能数据点与所确定的性能数据类的相似度未超过该性能数据类当前的相似度阔 值时,该方法还包括:将该待检测的性能数据点新生成为一个性能数据类并将运个类加入 到已有的性能数据类中;判断当前所有的性能数据类的类别总数是否超过类别阔值,并在 超过时将距离最近的两个性能数据类合并为一个。A12、如All所述的方法,其中,所述将距 离最近的两个性能数据类合并为一个的操作包括:计算所有的性能数据类中,两两之间中 屯、质点的距离,确定距离最近的两个类ch和Cl2,
[0127] 将ch和cl2两个类合并为类cl3,
[0128] 根据下述公式确定cl3的中屯、质点、相似度阔值和数据点总数:
[0129] cr3 = cri*npi+cr2*np2
[0130] 地3=(吨1水thl+吨奸化2)/(吨1+吨2)
[0131] 吨3 =吨1+吨2
[0132] 其中,cn为cl3的中屯、质点,cn为cl2的中屯、质点,cri为ch的中屯、质点,吨功ch的 数据点总数,吨2为Cl2的数据点总数,化功ch相似度阔值,th劝cl細似度阔值,th3为Cl3的 相似度阔值,吨3为Cl3的数据点总数。
[0133] A13、如A1-A12中任一项所述的方法,还包括:在超过异常类阔值时,确定所述待检 测的性能数据点为非异常点;在未超过距离分布阔值时,确定所述待检测的性能数据点为 非异常点。A14、如A1-A13中任一项所述的方法,在执行所述确定与该待检测的性能数据点 相似度最高的性能数据类之前,该方法还包括:判断当前已有的性能数据类总数是否非零; 和\或判断待检测的性能数据点的维度是否与已有的性能数据类一致。A15、如A14所述的方 法,还包括:在确定当前已有的性能数据类总数为零,或者确定所述维度与已有的性能数据 类不一致时,将该待检测的性能数据点生成为一个性能数据类。A17、如A16所述的应用,所 述数据获取单元进一步包括:接收模块,适于接收来自性能收集器所采集的指示集群性能 的一个性能数据组,该性能数据组包括多维性能指标;和归一化模块,适于归一化该性能数 据组为所述性能数据点。A18、如A16或A17所述的应用,其中,所述多维性能指标包括所述集 群中内存利用率、CPU利用率、任务吞吐量、任务响应时间、垃圾回收频率中至少一种。A19、 如A16-A18中任一项所述的应用,其中,所述相似度计算单元适于根据下述方式确定所述待 检测的性能数据点相似度最高的性能数据类:计算待检测的性能数据点与已有的每个性能 数据类的中屯、质点的距离;根据与每个性能数据类的中屯、质点的距离,计算待检测的性能 数据点与运个性能数据类的相似度;确定与待检测的性能数据点相似度最高的性能数据 类。A20、如A19所述的应用,其中,所述相似度计算单元适于根据下述方式计算待检测的性 能数据点与已有的每个性能数据类的中屯、质点的距离:计算待检测的性能数据点与每个性 能数据类的中屯、质点的欧式距离。A21、如A19或A20所述的应用,其中,所述相似度计算单元 适于根据下述公式计算待检测的性能数据点与运个性能数据类的相似度:
[0134]
[0135] 其中,d为计算得到的待检测的性能数据点与运个性能数据类中屯、质点的距离, sim为与运个性能数据类的相似度。A22、如权利要求A16-A21中任一项所述的应用,其中,所 述聚合单元还适于:
[0136]根据下述公式更新加入待检测的性能数据点之后的性能数据类的中屯、质点和相 似度阔值:
[0139] 其中,cr为中屯、质点,吨为类中数据点总数,pt为所加入的性能数据点,Sim为pt与 性能数据类的相似度,th为异常类阔值,lr为用于调节th的学习率阔值。
[0140] A23、如权利要求A16-A22中任一项所述的应用,其中,所述第Ξ判断单元适于根据 下述方式执行所述对该待检测的性能数据点与该性能数据类的中屯、质点的每个维度性能 指标的距离进行排序,并计算预定比例的最大距离和与所有维度的距离和之比、是否大于 距离分布阔值:
[0141] pt= {ni,.. .,m}cr= {ci,. ..,ci}di=|m-ci |m为待检测的性能数据点pt中第i维 性能指标,Cl为中屯、质点cr的第i维数值,di为pt第i维与cr中第i维的距离,
[0142] 对所有维度的di进行排序,并计算
廷中,N为所有维度总数,Μ为N中预定 比例的维度数量:
为腺隹距离中最大的Μ个值的和
对Ν个距离的和,
[0143] 判断pr是否大于距离分布阔值。
[0144] A24、如A16-A23中任一项所述的应用,还包括窗口判断单元,适于:
[0145] 将待检测的性能数据点加入到一个滑动窗口中,该滑动窗口保持有最新获取到的 预定数量的性能数据点;W及
[0146] 在第Ξ判断单元确定该待检测的性能数据点为一个异常点时,判断该滑动窗口中 异常点的比例是否超过窗口阔值。
[0147] A25、如A24所述的应用,还包括告警单元,适于在所述窗口判断单元确定超过所述 窗口阔值时,根据所述每个维度性能指标的距离,确定所述待检测的性能数据点中的异常 性能指标。
[0148] A26、如A16-A25中任一项所述的应用,其中所述聚合单元还适于,在第一判断单元 确定所述待检测的性能数据点与所确定的性能数据类的相似度未超过该性能数据类当前 的相似度阔值时,
[0149] 将该待检测的性能数据点新生成为一个性能数据类并将运个类加入到已有的性 能数据类中,
[0150] 判断当前所有的性能数据类的类别总数是否超过类别阔值,并在超过时将距离最 近的两个性能数据类合并为一个。
[0151 ] A27、如A26所述的应用,其中,所述聚合单元适于根据下述方式将距离最近的两个 性能数据类合并为一个:
[0152] 计算所有的性能数据类中,两两之间中屯、质点的距离,确定距离最近的两个类ch 和 C!2,
[0153] 将ch和cl2两个类合并为类cl3,
[0154] 根据下述公式确定cl3的中屯、质点、相似度阔值和数据点总数:
[0155] cr3 = cri*npi+cr2*np2
[0156] th3= (npi*thi+吨 2*化2)/(吨 1+吨 2)
[0157] 吨3 =吨1+吨2
[015引其中,cn为cl3的中屯、质点,cn为cl2的中屯、质点,cri为ch的中屯、质点,吨功ch的 数据点总数,吨2为cl2的数据点总数,化功ch相似度阔值,th劝cl細似度阔值,th3为cl3的 相似度阔值,吨3为cl3的数据点总数。
[0159] A28、如A16-A27中任一项所述的应用,其中,
[0160] 所述第二判断单元还适于在超过异常类阔值时,确定所述待检测的性能数据点非 异常点;
[0161] 所述第Ξ判断单元还适于在未超过距离分布阔值时,确定所述待检测的性能数据 点非异常点。
[0162] A29、如A16-A28中任一项所述的应用,还包括类检测单元,适于在计算相似度单元 确定与该待检测的性能数据点相似度最高的性能数据类之前,
[0163] 判断当前已有的性能数据类总数是否非零;和\或
[0164] 判断待检测的性能数据点的维度是否与已有的性能数据类一致。
[0165] A30、如A29所述的应用,其中,所述类检测单元还适于,在确定当前已有的性能数 据类总数为零,或者确定所述维度与已有的性能数据类不一致时,指示所述聚合单元将该 待检测的性能数据点生成一个性能数据类。
[0166] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可W在没有运些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结 构和技术,W便不模糊对本说明书的理解。
[0167] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的 权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵 循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都 作为本发明的单独实施例。
[0168] 本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组 件可W布置在如该实施例中所描述的设备中,或者可替换地可W定位在与该示例中的设备 不同的一个或多个设备中。前述示例中的模块可W组合为一个模块或者此外可W分成多个 子模块。
[0169] 本领域那些技术人员可W理解,可W对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。可W把实施例中的模块或单 元或组件组合成一个模块或单元或组件,W及此外可W把它们分成多个子模块或子单元或 子组件。除了运样的特征和/或过程或者单元中的至少一些是相互排斥之外,可W采用任何 组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征W及如此公开的任 何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权 利要求、摘要和附图)中公开的每个特征可W由提供相同、等同或相似目的的替代特征来代 替。
[0170] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可任意的组合方式来使用。
[0171] 此外,所述实施例中的一些在此被描述成可W由计算机系统的处理器或者由执行 所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法 元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在 此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行 的功能。
[0172] 如在此所使用的那样,除非另行规定,使用序数词"第一"、"第二"、"第Ξ"等等来 描述普通对象仅仅表示设及类似对象的不同实例,并且并不意图暗示运样被描述的对象必 须具有时间上、空间上、排序方面或者W任意其它方式的给定顺序。
[0173] 尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域 内的技术人员明白,在由此描述的本发明的范围内,可W设想其它实施例。此外,应当注意, 本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限 定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本 技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本 发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
【主权项】
1. 一种检测集群异常的方法,包括: 获取指示所述集群性能的一个待检测的性能数据点,该性能数据点包括归一化的多维 性能指标; 从已有的由之前所获取的性能数据点所聚合生成的性能数据类中,确定与该待检测的 性能数据点相似度最高的性能数据类; 判断该待检测的性能数据点与所确定的性能数据类的相似度是否超过该性能数据类 当前的相似度阈值; 在超过当前的相似度阈值时,将该待检测的性能数据点聚合到所确定的性能数据类 中,并计算聚合后该性能数据类中数据点总数占当前所有性能数据类的数据点总数的比例 是否超过异常类阈值; 在未超过异常类阈值时,对该待检测的性能数据点与该性能数据类的中心质点的每个 维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所有维度的距离和之 比、是否大于距离分布阈值;以及 在大于距离分布阈值时,确定该待检测的性能数据点为一个异常点。2. 如权利要求1所述的方法,所述获取指示所述集群性能的一个待检测的性能数据点 的步骤包括: 接收来自性能收集器所采集的指示集群性能的一个性能数据组,该性能数据组包括多 维性能指标; 归一化该性能数据组为所述性能数据点。3. 如权利要求1或2所述的方法,其中,所述多维性能指标包括所述集群中内存利用率、 CPU利用率、任务吞吐量、任务响应时间、垃圾回收频率中至少一种。4. 如权利要求1-3中任一项所述的方法,其中,确定所述待检测的性能数据点相似度最 高的性能数据类的步骤包括: 计算待检测的性能数据点与已有的每个性能数据类的中心质点的距离; 根据与每个性能数据类的中心质点的距离,计算待检测的性能数据点与这个性能数据 类的相似度; 确定与待检测的性能数据点相似度最高的性能数据类。5. 如权利要求4所述的方法,其中,所述计算待检测的性能数据点与已有的每个性能数 据类的中心质点的距离的步骤包括: 计算待检测的性能数据点与每个性能数据类的中心质点的欧式距离。6. 如权利要求4或5所述的方法,其中,计算待检测的性能数据点与这个性能数据类的 相似度的操作包括:其中,d为计算得到的待检测的性能数据点与这个性能数据类的中心质点的距离,sim 为与这个性能数据类的相似度。7. 如权利要求1-6中任一项所述的方法,在执行所述将待检测的性能数据点聚合到所 确定的性能数据类中,并计算聚合后该性能数据类中数据点总数占当前所有性能数据类的 数据点总数的比例是否超过异常类阈值的步骤之后,该方法还包括: 根据下述公式更新加入待检测的性能数据点之后的性能数据类的中心质点和相似度 阈值: cr=(pt+cr*np)/(np+1)其中,cr为中心质点,np为类中数据点总数,pt为所加入的性能数据点,sim为pt与性能 数据类的相似度,th为异常类阈值,lr为用于调节th的学习率阈值。8. 如权利要求1-7中任一项所述的方法,其中,所述对该待检测的性能数据点与该性能 数据类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离和与 所有维度的距离和之比、是否大于距离分布阈值的步骤包括: pt={m, · · .,ru}cr={ci,· · .,ci}di=|m-ci|ni为待检测的性能数据点pt中第i维性能 指标,ci为中心质点cr的第i维数值,di为pt第i维与cr中第i维的距离, yM⑴ 对所有维度的cU进行排序,并计算pr=|^[其中,N为所有维度总数,Μ为N中预定比例的 维度数量,Σ?出为N维距离中最大的Μ个值的和,di为N个距离的和, 判断pr是否大于距离分布阈值。9. 一种检测集群异常的应用,包括: 数据获取单元,适于获取指示所述集群性能的一个待检测的性能数据点,该性能数据 点包括归一化的多维性能指标; 相似度计算单元,适于从已有的由之前所获取的性能数据点所聚合生成的性能数据类 中,确定与该待检测的性能数据点相似度最高的性能数据类; 第一判断单元,适于判断该待检测的性能数据点与所确定的性能数据类的相似度是否 超过该性能数据类当前的相似度阈值; 聚合单元,适于在第一判断单元确定超过当前的相似度阈值时,将该待检测的性能数 据点聚合到所确定的性能数据类中; 第二判断单元,适于计算聚合后该性能数据类中数据点总数占当前所有性能数据类的 数据点总数的比例是否超过异常类阈值;以及 第三判断单元,适于在未超过异常类阈值时,对该待检测的性能数据点与该性能数据 类的中心质点的每个维度性能指标的距离进行排序,并计算预定比例的最大距离之和与所 有维度的距离和之比、是否大于距离分布阈值, 并在大于距离分布阈值时,确定该待检测的性能数据点为一个异常点。10. -种管理集群的系统,包括: 性能收集器,适于收集所述集群的性能指标; 如权利要求9的检测集群异常的应用;以及 资源管理应用,适于根据所述检测集群异常的应用所生成的告警消息,调节所述集群 的资源配置。
【文档编号】H04L12/26GK105871634SQ201610380755
【公开日】2016年8月17日
【申请日】2016年6月1日
【发明人】吴海珊, 阮松松, 刘麒贇, 傅乐琳
【申请人】北京蓝海讯通科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1