基于反馈控制系统的高维流数据聚类方法

文档序号:32105718发布日期:2022-11-09 04:25阅读:67来源:国知局
基于反馈控制系统的高维流数据聚类方法

1.本发明公开涉及高维流数据降维及聚类技术领域,尤其涉及基于反馈控制系统的高维流数据聚类方法。


背景技术:

2.随着信息时代的到来,数据正以指数形式急剧增长,导致很难通过人工计算或是传统批处理模式进行数据分析以便用于辅助决策,这也对数据挖掘提出了新的挑战。聚类分析作为数据挖掘中一个重要的分支,同时也是获取数据本质的有效技术之一,它的目标就是将一个对象集合通过一定的算法分成由相似的对象组成多个簇并使簇内的相似度最大化。现有的传统聚类算法,如k-means聚类、spectral clustering、基于密度的聚类、网格聚类、层次聚类,虽然已被广泛使用,但它们总是以批处理模式进行聚类。由于批处理模式总是要求将一个完整的数据集载入内存后再进行离线计算,因此一旦数据实时产生的速度超过了处理数据的速度,批处理模式就无法对这种连续产生且无限增长的数据—流数据进行有效的聚类分析,比如直播场景所提供的视频流、战斗机执行任务时对地图的实时分析以及网购活动所产生的数据等。而针对上述视频或图片这样的数据来说,数据不再以单一维度或几个维度的形式存在,而是具有上百维度的特点,这使得对这样的高维数据进行聚类成为一个经典的难题。
3.由于高维数据的维度过高,在全维空间构成的稀疏数据使得传统聚类算法中衡量对象相对远近距离的度量指标失效。为了能找到决定高维数据中样本差异的特征,相当数量的子空间聚类算法被提出。此类算法将原始空间分为不同的子空间,并找到存在于多个可能重叠的子空间中的簇。由于子空间聚类算法是将特征选择和传统聚类算法相结合以完成对高维数据的聚类,所以此类算法仍然是基于批处理模式的并且仅能处理高维数据的聚类,而无法应用于实际生活中广泛存在的高维流数据。
4.综上所述,提出一个能够处理流数据并兼顾高维数据的聚类算法是有必要的。


技术实现要素:

5.鉴于此,本发明公开提供了基于反馈控制系统的高维流数据聚类方法,该算法能够处理流数据并兼顾高维数据的聚类;
6.本发明提供的技术方案,具体为,基于反馈控制系统的高维流数据聚类方法,包括如下步骤:
7.s1:建立基于反馈控制系统的高维流数据聚类系统,所述系统依次包括窗内主成分分析模块、反馈流聚类模块以及反馈控制器;其中所述系统为闭环体系结构;
8.s2:数据进入窗内主成分分析模块迭代降维,将高维数据处理为低维数据块;
9.s3:反馈流聚类模块接收来自上游主成分分析模块降维后的低维数据块,经过二重迭代聚类先输出一个待分析最终聚类效果的簇群,再进行簇聚合;
10.s4:二重迭代过程结束,反馈控制器收到反馈流聚类模块的聚类结果;反馈控制器
将聚类结果作为输入进行分析,根据算法得到最合适的调整策略,并传输反馈控制信号给上游的窗内主成分分析模块和反馈流聚类模块,最终反馈控制系统自适应地控制高维流数据的聚类过程。
11.进一步地,s2中窗内主成分分析模块对高维数据流降维的方法包括:
12.s21:窗内主成分分析模块从下游反馈控制器接收反馈信号,根据反馈信号信息确定降维的最小k值,并按照窗口属性对窗口数据进行调整;
13.s22:对窗口内的数据矩阵进行奇异值分解,定义窗口数据矩阵为a,求出协方差矩阵 a
t
a,aa
t
,其中对于a
t
a,特征值和特征向量是λi和vi;对于aa
t
,特征向量是λi和ui;根据公式:a
·
vi=λi·
ui,得到奇异值矩阵a;
14.s23:根据k的最大奇异值和相应的特征向量提取形式矩阵p的原始数据矩阵,再乘以p 的转置矩阵得到低维度矩阵r,即后续算法所需的低维数据块。
15.进一步地,s3中聚类过程分为两个阶段,分别是窗口内聚类阶段和簇聚合阶段;
16.所述簇聚合阶段采用滑动窗口来采集数据,通过滑动窗口的每一个数据对象都进行wc 次降维聚类;
17.若窗口中的每一次聚类都保证了当前数据对象能被正确地归纳到所属簇中,则认为当前数据对象没有聚类误差;
18.若存在任何一次当前数据对象不应属于现存簇时,则创建二重迭代的聚类形式进行处理新簇并等待合并簇阶段再次聚合;
19.所述窗口内聚类阶段用于判断fbmc是否存在,若不存在则代表算法还未开始,初始化 fbmc簇群集合,在初始化阶段,算法将样本集d

进行快速的网格聚类,完成对样本空间的简易分割,每个网格中心即为簇中心、网格长度为半径,并进入下次循环,遍历窗口中的每个数据实例xi,计算它与每个簇中心的距离,其中将距离小于阈值的xi加入对应fbmc中,若不存在这样的fbmc使其距离小于所述阈值,则以该数据实例xi为中心建立新的fbmc,直到数据流终止,其中为计算fbmc的中心,使用簇中c1的加权平均值(指数加权衰减函数
·
计算权重)除以总节点数;利用c2计算簇半径。
20.进一步地,所述簇聚合阶段:将从窗内聚合阶段接收到的簇群进行二次聚合,二次聚合时,簇和簇之间存在三种情况:包含、相交、分离;其中,分离:两个簇群都不用进行任何处理,均保留;若两个簇呈现包含关系,被包含的簇不进行处理,直接保留;另一个簇在剔除了相交部分后也保留;若两个簇呈现相交关系,则输出三个簇,分别是两个簇的交集以及两个差集;
21.进一步地,所述反馈控制系统设置的超参数包括:滑动窗口尺寸、滑动距离、降低维度目标;指定簇半径、距离种类曼哈顿距离;反馈控制系统通过自动化的反馈控制策略调整超参数;其中自动化的反馈控制策略是:反馈控制系统接收来自反馈流聚类模块的簇群,并对该簇群进行评分,在系统内部发生不同的情况时依据得分选出具体的反馈措施,以及与前置模块有冲突时的解决策略。
22.进一步地,令反馈得分sf为hdbi、hdvi、svi、轮廓系数s(i)的加权和;wi代表窗口i的权重,其数学公式表示如下:
[0023][0024]
反馈策略根据各指标的加权和sf进行调整,当sf大于75%时,所述反馈控制系统保持其初始设置;当sf小于50%时,反馈控制系统则保存当前数据并将其发送回上游阶段,以便下一次迭代;
[0025]
当sf大于50%且小于75%,同时反馈控制系统的当前维数大于svi计算的最低维数时,反馈控制系统将在以下几种策略中进行轮询调用:
[0026]
(1)将初始窗口大小加倍。窗口越大,就越接近批处理环境中的集群结果;
[0027]
(2)缩小窗口的滑动步长。这将增加聚类过程中数据向量之间的比较次数,并消除投影方向所造成的偏差;
[0028]
(3)在初始的簇半径中增加1%的长度;
[0029]
(4)减小历史数据的权重值,并且增加指数加权衰减函数中的λ,以保证新到达的数据不会被过时的数据影响。
[0030]
本发明提出了基于反馈控制系统的高维流数据聚类方法,利用该算法可以执行在高维数据流环境中的聚类分析。所述算法的构建基于三阶段的闭环结构,分别为窗内主成分分析(wpca)、反馈流聚类(fsc)以及反馈控制器(fc),所述算法解决了在高维流环境下聚类的参数自适应的难题并提高了最终结果的质量。
[0031]
其中wpca模块是一种增量式的流降维方法,该算法有效地改善了维数诅咒导致的聚类效果不佳的情况,并且通过加权时间窗口解决了容易在无限数据流中出现概念漂移的现象;fsc流聚类算法通过两阶段完成系统的整个聚类过程。fsc流聚类算法使用了二重迭代技术,其中的增量式聚类方法消除了投影角度导致的偏差,以保证数据的准确性;提出了fbmc数据摘要的概念,有效减少了算法对系统内存的消耗。本发明中提出的fc反馈控制算法主要接收来自fsc流聚类算法的簇群,并对该簇群进行评分,在系统内部发生不同的情况时依据得分选出具体的反馈措施,以及与前置模块有冲突时的解决策略。
[0032]
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明的公开。
附图说明
[0033]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]
图1是本发明中一种基于反馈控制系统的高维流数据聚类方法的系统总体框架示意图;
[0036]
图2是本发明实施例1中所述奇异值指数对聚类纯度的影响结果示意图;
[0037]
图3是本发明实施例1中奇异值指数对兰德尔系数的影响示意图;
[0038]
图4是本发明实施例1中奇异值指数对聚类准确度的影响示意图;
[0039]
图5是本发明实施例1中涉及的各系统在高维数据流的聚类纯度示意图;
[0040]
图6是本发明实施例1中窗口设置对聚类纯度的影响示意图;
[0041]
图7是本发明实施例1中窗口设置对聚类纯度的影响示意图;
[0042]
图8是本发明实施例1中所述fbstream资源消耗分析示意图。
具体实施方式
[0043]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。
[0044]
为解决现有的聚类算法无法应用于实际生活中广泛存在的高维流数据等问题,本实施方案提供了一种基于反馈控制系统的高维流数据聚类方法,该算法依次由窗内主成分分析、反馈流聚类以及反馈控制器三阶段组成。其中,窗内主成分分析应用经典的指数加权衰减函数避免了数据流中的概念漂移,并通过滑动窗口进行增量式的特征提取,以提高窗内数据的迭代效率。该算法中还设计了一种窗内聚类与簇聚合交替迭代的反馈流聚类以减少投影角度不同造成的误差。针对人工调整用于高维数据流聚类中的超参数所带来的问题,该算法提出一种反馈控制器,它通过实时分析聚类结果,并引入一个判别分数以采取预备策略,调节窗内主成分分析和反馈流聚类中的超参数。
[0045]
图1展示了hscfc系统的整体框架。数据管道为整个hscfc系统提供源源不断的流数据,以便系统不断迭代更新最终数据。在系统聚类过程中,数据首先进入wpca迭代降维,该过程会将高维数据处理为低维数据块提高数据相关性,同时抽取主成分以提高样本空间的密度和准确性。fsc模块接收由上游wpca产生的低维数据块,并使用了二重迭代技术和增量式聚类方法依次迭代生成fbmc和簇。每次迭代窗口计数器ws都减一,直到为零。当系统感知到ws变为零时,即迭代过程结束,需要将fsc得到的聚类结果发送给fc。fc将聚类结果作为输入进行分析,根据算法得到最合适的调整策略,并传输反馈控制信号给上游的wpca和fsc,使得hscfc能够自适应地控制高维流数据的聚类过程,从而实现一个完整的闭环体系结构。
[0046]
基于反馈控制系统的高维流数据聚类方法,具体包括如下步骤:
[0047]
s1:建立基于反馈控制系统的高维流数据聚类系统,所述系统依次包括窗内主成分分析模块、反馈流聚类模块以及反馈控制器;
[0048]
s2:数据进入窗内主成分分析模块迭代降维,将高维数据处理为低维数据块;
[0049]
首先,wpca算法从下游反馈控制器接收奇异值指数、窗口大小、滑动步长等反馈信号。根据该信息确定降维的最小k值,并按照窗口属性对窗口数据进行调整。在这之后对窗口内的数据矩阵进行奇异值分解,称窗口数据矩阵为a,首先求出协方差矩阵a
t
a,aa
t
。对于 a
t
a,特征值和特征向量是λi和vi。对于aa
t
,特征向量是λi和ui。使用a
·
vi=λi·
ui公式,我们能找到奇异值矩阵a。根据k的最大奇异值和相应的特征向量提取形式矩阵p的原始数据矩阵,再乘以p的转置矩阵得到低维度矩阵r。即后续算法所需的低维数据块。信息量最小的特征处理也可以交由反馈控制器进行调整。在判断信息量的算法中存在着多种标准。但是通常情况下,无论使用哪种标准处理特征一般都是集中在几个特征上,本发明中使用的是曼
哈顿距离。算法1描述了wpca窗内主成分分析法的过程。
[0050][0051]
由上述算法可以看出wpca算法是pca在流环境下的改造算法,显然wpca算法也具有pca算法的特征:第一,该算法不受数据流以外的因素干扰,因为该算法只需要窗口流数据中所求的方差值来衡量从启动到目前的整体数据的信息量。第二,该算法使用了简单的计算法则,涉及最多的运算仍然是特征值分解,易于编程人员的实现。第三,窗口内数据主成分相互正交,正交的主成分可以一定程度的消除原始数据成分相互之间的扰乱,并且能够减少数据对象相互进行干扰,避免数据回声。
[0052]
s3:反馈流聚类模块接收来自上游主成分分析模块降维后的低维数据块,经过二重迭代聚类先输出一个待分析最终聚类效果的簇群,再进行簇聚合;
[0053]
具体地,反馈流聚类模块接收来自wpca降维后的低维数据块,经过二重迭代聚类先输出一个待分析最终聚类效果的簇群,再进行簇聚合。为了有利于算法的并行化,整个聚类过程分为两个阶段,分别是窗口内聚类阶段和簇聚合阶段。
[0054]
在实际投影或者降维过程中,虽然相似的数据对象应该在同一个簇中,但由于投影角度的不同,有可能出现不相似的数据对象却出现在了同一个簇内。为了避免这种偏差,将通过二重迭代的聚类形式进行处理。首先使用滑动窗口来采集数据,通过滑动窗口的每一个数据对象都会需要进行wc次降维聚类。若窗口中的每一次聚类都保证了当前数据对象能被正确地归纳到所属簇中,则认为当前数据对象没有聚类误差。若存在任何一次当前数据对象不应属于现存簇时,则会创建一个新簇并等待合并簇阶段再次聚合。
[0055]
在窗内聚类阶段,将同时接收反馈控制阶段的超参数以及降维阶段产生的低维块,并且对窗口内的低维数据进行一个初步的聚类。首先判断fbmc是否存在,不存在代表算法还未开始,应初始化fbmc簇群(集合)。在初始化阶段,算法将样本集d

进行快速的网格聚类。完成对样本空间的简易分割,每个网格中心即为簇中心、网格长度为半径。并进入下次循环,遍历窗口中的每个数据实例xi,计算它与每个簇中心的距离,其中将距离小于阈值的xi加入对应fbmc中。若不存在这样的fbmc使其距离小于上述阈值,则以该数据实例xi为中心建立新的fbmc,直到数据流终止。其中为计算fbmc的中心,使用簇中c1的加权平均值 (指数加权衰减函数
·
计算权重)除以总节点数;同样地,利用c2计算簇半径,并以欧式距离为例,可得具体过程如算法2所示。
[0056][0057]
在窗内聚类阶段中不可避免地会产生由于投影方向导致不同数据对象聚合到同一个簇的情况,由于系统使用的是流数据,所以每一个窗口内的投影方向有极大的可能性是完全不同的两个方向。然而,即便是不同的投影方向,也有可能导致十分接近(以角相似度衡量)的两个投影方向产生相同的结果,使得两个本不应在一个簇中的数据对象,实际上在一个簇中,由此造成的偏差将在簇聚合阶段消除。此外,通过使用滑动窗口将会引起大量数据对象被重复聚类,在本阶段也将根据规则消除重复的数据对象以保证最终结果的准确,减少对后续反馈信号的误读。
[0058]
为了解决数据对象会因为投影角度被分配到本不属于它的簇的问题,簇聚合阶段需要将从窗内聚合阶段接收到的簇群进行二次聚合。二次聚合时,簇和簇之间存在三种情况:包含、相交、分离。其中,分离显然是最简单的情况,在这种情况中,两个簇群都不用进行任何处理,均保留。若两个簇呈现包含关系,被包含的簇不进行处理,直接保留;另一个簇在剔除了相交部分后也保留。若两个簇呈现相交关系,则输出三个簇,分别是两个簇的交集以及两个差集。在本系统中,簇的比较没有采用簇中心点比较距离的方法,因为这样的方法在比较时会产生较大偏差。此外,设置滑动窗口能够保证每个窗口内的数据至少有一个滑动窗口步长不同,从而实现不同的投影方向。对于窗口内的两个数据对象而言,它们会进行窗口尺寸减去步长次数的比较。这样迭代数据的比较是整个消除偏差的最关键的部分,显而易见,偏差的消除效果跟窗口尺寸以及步长的设置关系密切,过大的窗口参数设置将导致流处理系统执行效率低下,过小的窗口参数设置将影响聚类分析结果。这样的超参数设置具有颇高难度,所以在反馈控制阶段将根据系统评分动态地调整窗口尺寸以及步长。簇聚合模块的详细描述如算法3所示:
[0059][0060]
s4:二重迭代过程结束,反馈控制器收到反馈流聚类模块的聚类结果;反馈控制器将聚类结果作为输入进行分析,根据算法得到最合适的调整策略,并传输反馈控制信号给上游的窗内主成分分析模块和反馈流聚类模块,最终反馈控制系统自适应地控制高维流数据的聚类过程,形成一个完整的闭环体系结构。
[0061]
具体地,经过系统前置各个模块的数据处理,系统只关注不符合用户要求的情况。在聚类结果不符合用户要求的情况下,即最终数值不达标时,系统需要根据既有策略进行反馈控制。整个系统需要设置的超参数包括:滑动窗口尺寸、滑动距离、降低维度目标;除此之外,根据窗口聚类方法的不同,还可以指定簇半径、距离种类(例如欧式距离、曼哈顿距离等)。若不进行反馈控制,仅仅依靠人为的方式调整这些数值会浪费大量的精力,最终的聚类结果也未必是最优解,因为验证结果也将是一项极其消耗精力的工作。实际上根据研究人员的经验,虽然可供调整的超参数众多,但是能够使用的策略却是有限的。本系统通过自动化的反馈控制策略调整超参数来提高流聚类结果。
[0062]
令反馈得分sf为hdbi、hdvi、svi、轮廓系数s(i)的加权和。wi代表窗口i的权重,其数学公式表示如下:
[0063][0064]
反馈策略将根据各指标的加权和sf进行调整。当sf大于75%时,hscfc保持其初始设置。当sf小于50%时,反馈控制器会保存当前数据并将其发送回上游阶段,以便下一次迭代。出现sf小于50%的情景主要有以下两种:(1)当hscfc没有收到足够的数据进行聚类时,fbmc之间的距离会变得非常远,以至于所有的距离都趋于相同,最终导致得分较低。对于这种情况需要将数据发送回上游,使得数据量有所增加,从而完成聚类过程;(2)hscfc 已经收到了足够的数据,但仍然没有给出一个高分。在这种情况下若不进行反馈控制,hscfc 将会退化为传统的高维聚类算法,即先对数据进行降维再聚类。因此,为了避免此类事件的发生,hscfc将启动原有预案,即搜索满足解决冲突策略的模式进行转换以提高聚类效果。一旦sf值仍然较低,甚至在20%以下,则大概率说明数据集分布是随机的,不需要聚类;或者存在无效预处理以及稀疏数据矩阵的可能性。当sf大于50%且小于75%,同时hscfc 系统
的当前维数大于svi计算的最低维数时,hscfc将在以下几种策略中进行轮询调用。
[0065]
(1)将初始窗口大小加倍。窗口越大,就越接近批处理环境中的集群结果。
[0066]
(2)缩小窗口的滑动步长。这将增加聚类过程中数据向量之间的比较次数,并消除投影方向所造成的偏差。
[0067]
(3)在初始的簇半径中增加1%的长度。
[0068]
(4)减小历史数据的权重值,并且增加指数加权衰减函数中的λ,以保证新到达的数据不会被过时的数据影响。
[0069]
下面结合附图对本发明作进一步描述,便于更加清楚地说明本发明的技术方案,但不能将它们理解为对本发明保护范围的限定。
[0070]
实施例1
[0071]
本实施例通过了多组基于真实数据集的实验,实验以clustream和hpstream作为比较对象评测了不同参数对hscfc系统的性能影响。主要包括相关数据的svi对聚类纯度的影响,窗口参数对系统预热以及聚类各项指标的影响,fbstream系统的资源消耗分析;
[0072]
本实施例实验是在一台拥有16g内存、intel core(tm)i7-3470 4.20ghz cpu以及windows10操作系统的pc机上进行的。整个算法的开发语言采用scala(工作版本 1.8.0),流处理模型使用flink(工作版本1.9.2)。并且基于两个真实数据集kdd cup 99 和forest covertype进行实验。此外在开发期间值得注意的是,由于flink不支持动态窗口,编程时要使用其内置的窗口触发器,窗口驱逐器来实现动态化窗口。
[0073]
本实施例为了评估基于反馈控制系统的高维数据流聚类方法的效果,使用聚类纯度、数据流速,窗口设置,聚类准确度,兰德尔系数五种指标作为流聚类效果的评价标准并用clustream和hpstream两大主流算法作为比较对象。
[0074]
由图2可知,随着svi数值的不断提升,聚类纯度也随之从低值逐渐增大。这说明过低的奇异值将导致数据损失过大,从而使得聚类纯度不高。然而在面对超大量数据损失的情况,目前还没有有效的算法能够提高聚类纯度。通过svi-纯度的实验,我们认为数值大的奇异值更有利于聚类的效果,因此在本算法中推荐将奇异值指数设定为 [0.9,1.0]。
[0075]
观察图3,容易发现svi在[0.90,0.98]范围内效果最好。svi的取值从宏观代表数据的保留程度,从微观代表了维度的压缩率。当其数值越低说明数据的损失越严重,而越高则说明数据保留的比例越大。但是在面对高维流数据时,无论是追求低数值的降维率,还是要求较高的数据保留程度,都无法满足此类数据对聚类的需求。由于兰德系数反应了数据和真实情况的吻合程度,因此由图3可知,一个能够使数据中特征高度压缩且信息保留相对完整的svi是本算法行之有效的关键,即svi∈[0.90,0.98]。
[0076]
实验结果说明兰德系数和聚类纯度与svi呈现明显的相关性。综合图2和3,分析可得本算法最终将从[0.90,0.98]中选取svi一值。
[0077]
本实施例将hscfc算法分别在kdd cup 99和forest covertype数据集上进行高维流数据聚类的准确度测试。如图4所示,该算法在kdd cup 99数据集上整体聚类效果不错,尤其当svi=0.92或0.96时,聚类效果最好。然而在forest covertype数据集上的表现并不理想,其原因在于forest covertype数据集中数据不足,使得hscfc算法在聚类过程中迭代次数过少,因此hscfc更适合应用于大样本数据集。
[0078]
由图5可知,针对forest covertype中的小样本数据,三种方法的聚类效果差别不
大,由于hpstream和hscfc主要面向高维流数据,因此clustream的优势在一定的接受范围内。clustream在高维流数据kdd cup 99上的聚类纯度最低,这是由于随着高维流数据流速的增大,数据量不断上升造成了拥挤的数据空间,使得所有数据对象之间的距离都趋于相同,从而导致clustream中度量距离的方法失效。而hpstream在clustream 的基础上引入了投影聚类的思想,因此在处理kdd cup 99数据集上拥有较高性能,但它仅能依靠批处理模式进行聚类。hscfc以流处理模式快速且正确地完成对高维流数据的聚类,在满足这个前提的基础上,hscfc成功地实现了系统的并行化,并且令聚类分析过程形成了闭环系统。这样的做法不仅实现了计算资源的充分利用,同时也减少了人工调参带来的误差。
[0079]
由于hscfc需要一定的预热时间以积累一定的数据量满足fc的控制条件,所以算法需要在预热时间内提前对数据集进行聚类,这就使得用户提供的窗口设置发挥了重要作用。在实验中,将窗口滑动步长固定为5,svi设置为0.95,并以窗口尺寸为自变量、预热时间为因变量进行测试。由表1可以看出,在数据集kdd cup 99中小于1000的窗口大小会严重延长算法的预热时间;当窗口大小达到20000时,预热时间明显降低且开始趋于平稳。而在数据集forest covertype中,虽然整体预热时间变化不大,但显然窗口尺寸处于1000以下时,预热时间处于最高值。原因是窗口太小会减少窗口聚类阶段的数据量,造成在稀疏空间中数据呈离散点会显著影响最终的结果。综上所述,当用户设置窗口大小时,在内存允许的情况下应该设置的更大一些,这样不仅有利于缩短系统的预热时间,还可以增强聚类效果。
[0080]
表1多个数据集中的窗口设置对系统预热的影响
[0081][0082][0083]
从图6可以看出,hscfc的聚类纯度会随着窗口尺寸的增加而增加,但达到一定程度后基本不会变化。因为窗口过大导致数据空间稀疏且产生大量冗余数据,从而影响算法的时效性和准确性。根据图7可得,窗口越大兰德系数越高,说明随着窗口的不断增大,聚类效果也会越与真实情况相吻合。值得注意的是,当窗口尺寸扩大到和数据集一样大时,hscfc算法将退化成传统的批处理聚类算法。因此通过实验分析可知,盲目地增大窗口尺寸并不能提高hscfc的聚类效果,但过小的窗口则会大大降低最终的聚类。
[0084]
在两个不同数据集上,通过调整窗口尺寸分析hscfc算法的有效性。由图8所示,对于数据样本较小的forest covertype,窗口尺寸的改变并无法提高算法整体聚类的准确
度;而面对拥有大样本高维流数据的kdd cup 99时,当窗口尺度处于1000以上时,聚类效果明显增强。并且窗口尺度达到5000时,所提算法的聚类效果最好。
[0085]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改变和变形也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1