对含噪声点的实时数据流进行聚类和聚类边界界定的方法

文档序号:6568327阅读:687来源:国知局
专利名称:对含噪声点的实时数据流进行聚类和聚类边界界定的方法
对含噪声点的实时数据流进行聚类和聚类边界界定的方法技术领域
本发明属于数据流的数据处理技术领域。具体涉及一种对含噪声点的实时数据流进行聚类和聚类边界界定的方法。
背景技术
对含噪声点的实时数据流进行聚类和聚类边界界定的方法能够提高聚类的精度和数据分类的精度,能快速发现实时数据流中的聚类和聚类边界,也可对工业生产中的实时生产工艺数据进行监测,有助于生产设备和产品质量监控。目前,有关数据聚类边界点的界定和检测技术存在以下缺陷(1)现有算法仅针对静态数据集,提取界定聚类的边界点, 没有针对实时数据流的聚类边界的界定方法;( 把聚类和边界检测两者分开,分别进行处理;(3)在大型数据处理中算法的复杂度高。
BORDER是一个有代表性的基于静态数据集的聚类边界点检测算法,它利用数据的反向k-近邻性质来检测边界点。该算法首先计算数据集中每一个数据点的反向k-近邻个数,然后根据每个对象的反向k-近邻个数按从小到大的顺序排列整个数据集中的数据点, 把前η个数据点作为聚类的边界点。BORDER算法在不含噪声点的数据集中能够检测出聚类的边界点,但其缺点是(1)在含有噪声的数据集中不能正确地识别出边界点,因为噪声点的反向k-近邻个数比聚类边界点的反向k-近邻个数更少;(2)该算法要找出每个对象的k 个最近邻,进而计算出每个对象的反向k-近邻个数,算法的执行效率不高;C3)需要用户有先验知识,给出数据集的边界点个数η。发明内容
本发明能克服现有技术缺陷,目的是提供一种能对含噪声点的实时数据流进行任意形状、任意大小、不同密度的聚类和聚类边界界定的方法,该方法聚类效率高,边界界定效果好。
为实现上述目的,本发明采用的技术方案是先将本方法中所涉及到的标记统一说明如下
D是含噪声点的实时数据流;λ是衰减因子;β是阈值调节系数;k是数据空间每一维的区间个数;δ是相似阈值;X是含噪声点的实时数据流D中的数据点;G是数据空间中的所有网格;g表示数据点X能够映射到的网格是高密度网格;gl是低密度网格;gmax 是还没有聚类的具有最大密度值的高密度网格,Smx e ’是大于或等于相似阈值δ的低密度网格,gl,e gl ;gl”是小于相似阈值δ的低密度网格,gl-gl,= gl”,gl,U g,= gl ;speed是数据流的流速;N是数据空间中网格的总数;ggHd是聚类网格,知U gl’ = ggrid ; gbo^dary是聚类边界网格,gboundary ^ ggrid Anext是下一次聚类请求时刻。
对含噪声点的实时数据流进行聚类和聚类边界界定的步骤是
步骤1、先把含噪声点的实时数据流D中的数据点X能够映射到的网格g中,更新数据点X能够映射到的网格g的密度,更新后的密度为
权利要求
1. 一种对含噪声点的实时数据流进行聚类和聚类边界界定的方法,其特征在于先将本方法中所涉及到的标记统一说明如下D是含噪声点的实时数据流;λ是衰减因子;β是阈值调节系数;k是数据空间每一维的区间个数;δ是相似阈值;X是含噪声点的实时数据流D中的数据点;G是数据空间中的所有网格;g表示数据点X能够映射到的网格是高密度网格;gl是低密度网格;gmax是还没有聚类的具有最大密度值的高密度网格^max e ’是大于或等于相似阈值δ的低密度网格,g/ e gx ”是小于相似阈值δ的低密度网格,gl_gl’ =而”,gl’ U gl”= gl ;speed 是数据流的流速;N是数据空间中网格的总数;ggrid是聚类网格,知U gl’ = ggrid ;gb_toy是聚类边界网格,gboundary e ggrid ;tnext是下一次聚类请求时刻;对含噪声点的实时数据流进行聚类和聚类边界界定的步骤是 步骤1、先把含噪声点的实时数据流D中的数据点X能够映射到的网格g中,更新数据点X能够映射到的网格g的密度,更新后的密度为Density(g,tn)=於―tlDmsUy、g, t) + \( 1 )式(1)中:tn-当前时刻, tftn的上一次时刻;步骤2、在有聚类请求时,再更新数据点X能够映射到的网格g的密度,再更新后的密度为Densiiy(g, t) = ^^'Densityig, f)( 2 )此时刻的密度阈值为β{\ - 2 +l)speed. ΛdensityThreshold(t) =-—--{3 )#(1-/1)步骤3、将密度大于或等于密度阈值densityThreshold(t)的网格g标记为高密度网格知,将密度小于密度阈值densityThreshold(t)的网格g标记为低密度网格而;步骤4、在所有网格G中反复寻找一个还没有聚类的具有最大密度值的高密度网格 gmax,以所述最大密度值的高密度网格Smx为始点进行深度优先搜索,遍历所有网格G,将最大密度值的高密度网格gmax或者与最大密度值的高密度网格gmax相邻的高密度网格&标记为聚类网格如果此时聚类网格ggHd和相似值大于给定相似阈值δ的低密度网格gl’ 相邻,则把这些低密度网格gl’也标记为聚类网格gmd,所有的聚类网格gmd结合为一个聚类;步骤5、扫描聚类网格ggHd,如果聚类网格有相邻的未被聚类的网格或者聚类网格g^d是位于网格空间的边缘,则把所述聚类网格g^d有相邻的未被聚类的网格和位于网格空间的边缘聚类网格ggHd标记为聚类边界网格gb_toy,所有的聚类边界网格 gbomdary构成了聚类的边界;步骤6、输出数据空间的所有聚类和聚类边界;步骤7、在某一聚类时刻的聚类过程结束和下一次聚类请求还没有到达时,对于数据流中后续输入的数据点X,如果这些数据点X能够映射到聚类网格g#id,这些数据点X就被提取出来,同时被标记属于哪个聚类;步骤8、预测数据流中有聚类消失或者有新聚类出现时,计算出下一次聚类请求时刻tnext ;当数据流到达时刻tMxt时,转到步骤2继续进行聚类和聚类边界界定; 步骤9、反复循环步骤2到步骤8,直到含噪声点的数据流D结束。
2.根据权利1所述的对含噪声点的实时数据流进行聚类和聚类边界界定的方法,其特征在于所述的“能够映射到的网格g”的映射的过程是首先把数据点X的所有属性值全部规格化到
区间内,如下式所示
3.根据权利1所述的对含噪声点的实时数据流进行聚类和聚类边界界定的方法,其特征在于所述的相似值为相似函数的值,相似函数的定义如下
4.根据权利1所述的对含噪声点的实时数据流进行聚类和聚类边界界定的方法,其特征在于所述的计算出下一次聚类请求时刻tnrart的计算过程是假设数据空间里面有η个聚类模式,最新聚类的时间为、,则下一次聚类时刻tMxt如下tnext = t0+min ( P \ P 2, . . . , Pn)(5)式(5)中
全文摘要
本发明具体涉及一种对含噪声点的实时数据流进行聚类和聚类边界界定的方法。其方案是更新数据点X能映射到的网格g的密度;将密度大于或等于密度阈值densityThreshold(t)的网格g标记为高密度网格gh;将相邻的高密度网格gh或与高密度网格gh相邻的大于相似阈值的低密度网格gl’标记为聚类网格ggrid;所有聚类网格ggrid形成聚类;若聚类网格ggrid有相邻的未被聚类的网格gl”或聚类网格ggrid是位于网格空间边缘,则标记为聚类边界网格gboundary,所有聚类边界网格gboundary构成了聚类的边界;输出所有聚类和聚类边界;计算下一次聚类请求时刻tnext;当数据流到达时刻tnext时循环上述步骤,直到数据流D结束。本发明具有聚类效率高和边界界定效果好的优点。
文档编号G06F19/00GK102495938SQ20111031835
公开日2012年6月13日 申请日期2011年10月19日 优先权日2011年10月19日
发明者张晓龙, 曾伟, 梁小波 申请人:武汉科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1