基于密度搜索与快速划分的混合数据聚类方法

文档序号：8299148阅读：252来源：国知局

基于密度搜索与快速划分的混合数据聚类方法
【技术领域】
[0001] 本发明涉及数据聚类技术领域，具体涉及一种基于密度搜索与快速划分的混合数据聚类方法。
【背景技术】
[0002] 随着通信技术和硬件设备的不断发展，数据挖掘技术在实时监控系统、气象卫星遥感、网络通信量监测等方面有着巨大应用前景，针对数据快速连续到达、持续增长的特点，传统聚类算法无法适用于数据对象，数据对聚类算法提出了如下新的要求对自然簇个数无须假设；2.能够发现任意形状的簇；3.具有处理离群点的能力。而且面对现实中的大部分数据都是混合属性数据，其中既包含了数值属性数据和分类属性数据，如何有效的从这种混合属性的数据中挖掘出具有价值的信息已显得尤为重要。
[0003] 近年来数据聚类研宄工作广泛展开，但现有的数据聚类算法大部分局限于处理只具有数值属性的数据，另外有少量算法局限于处理只有分类属性的数据，针对混合属性数据的算法较少。Aggarwal等人提出了进化数据聚类框架CluStream，该算法首次采用了两阶段处理框架：在线的微聚类和离线的宏聚类。在线阶段算法提出了微簇结构，不断对到达的数据点进行维护，生成概要信息。离线阶段算法负责相应的用户请求，根据概要数据生成最终聚类结果。但是CluStream算法也存在一些缺点：首先该算法不能处理任意形状的簇；其次对于噪声的适应性较差；最后需要人为指定聚类微簇的数量，严重影响了原始数据聚类的形状分布。曹峰等人提出了Den-Stream算法，该算法沿用了CluStream的两阶段处理框架，并将微簇分为潜在核心微簇和孤立点微簇结构，能够支持任意形状的聚类。但是由于 Den-Stream算法采用全局一致的绝对密度作为参数，所以使得聚类结果对参数的选择非常敏感。针对Den-Stream算法问题，MuhammedZR等人提出了HECES算法，采用椭球型聚类集群，能够处理变密度数据。张建朋等人提出了StrDenAP算法，该算法在StrAP算法的基础上，借鉴了CluStream的两阶段框架，采用近邻传播算法，能够取得较好的聚类效果。
[0004] 鉴于现实中大部分数据都是混合属性数据这一问题，研宄学者也提出了一些直接处理混合属性数据的算法。杨春宇等人提出了HCluSteam算法，该算法在CluStream的基础上，对混合属性的分类属性部分，提出了微聚类的直方图表示方式，并利用泊松过程对样本到达的时间进行建模。该算法存在的问题是是不能够处理任意形状的簇。在HCluStrea 的基础上提出的MCStream算法，使用两阶段框架，在在线微聚类中使用面向维度的距离来度量对象之间的距离，宏聚类中使用改进的M-DBSCAN密度聚类算法进行最终聚类。该算法能够处理任意形状的簇，但存在的问题是面向维度的距离的参数是用户给出，且需要的参数较多。

【发明内容】

[0005] 针对现有聚类在处理混合属性数据中出现的几个问题：（1)无法直接有效处理混合数据类型数据距离计算方法；（2)无法确定距离计算方法是否合理，没有相应的评价方法；（3)传统基于密度的数据计算复杂度高，准确率不稳定。本发明提供了一种基于密度搜索与快速划分的混合数据聚类方法。
[0006] -种基于密度搜索与快速划分的混合数据聚类方法，包括如下步骤：
[0007] S1 :确定混合属性数据集中混合数据的占优类型，具体基于如下原则确认：
[0008]
【主权项】
1. 一种基于密度搜索与快速划分的混合数据聚类方法，其特征在于，包括如下步骤： 51 :确定混合属性数据集中混合数据的占优类型； 52 :根据混合数据的占优类型计算混合数据集中任意两个混合数据之间的距离； 53 :根据任意两个混合数据之间的距离，基于密度搜索算法在预设的聚类半径取值范围内对聚类半径进行优化，并以最优的聚类半径对应聚类结果作为最终聚类结果。
2. 如权利要求1所述的基于密度搜索与快速划分的混合数据聚类方法，其特征在于，所述步骤S1通过如下原则确定混合属性数据集中混合数据的占优类型： ^
，则认为混合属性数据集中的混合数据为数值占优型数据； a ^
则认为混合属性数据集中的混合数据为分类占优型数据；否则，认为混合属性数据集中的混合数据为均衡型混合属性数据；其中，d为混合数据的属性维度，m为混合数据中数值属性的维度，n为混合数据中分类属性的维度。
3. 如权利要求2所述的基于密度搜索与快速划分的混合数据聚类方法，其特征在于，所述步骤S2中当混合属性数据集中的混合数据为数值占优型数据时，通过如下方法计算任意两个混合数据之间的距离： (al)计算任意两个混合数据X,.，X冲数值属性部分的距离d(Xi，乂人为：
采用二元化的方法计算任意两个混合数据乂」中的分类属性部分在每一维上距离，如混合数据Xi，Xj在第p维上的距离为：
则混合数据Xi，X」中分类属性部分的距离d(Xi,Xj)。为：
(a2)利用数值属性部分的距离和分类属性部分的距离计算混合数据XpXj的距离cKX^Xj)： cKx^Xj) = cKx^Xj^+cKx^Xj)^
4. 如权利要求2所述的基于密度搜索与快速划分的混合数据聚类方法，其特征在于，所述步骤S2中当混合属性数据集中的混合数据为分类占优型数据时，通过如下方法计算任意两个混合数据之间的距离： (bl)对任意一个混合型数据的数值属性部分的每一维均进行标准化处理得到各数值属性的标准值，其中混合型数据\的第p个数值属性的标准值为：
其中，Xf:为混合数据Xi的第p个数值属性的取值，4a:为所有混合数据中该维的最大值，为所有混合数据中该维的最小值，为混合数据i中该维取值；则数值属性部分的距离为：
任意两个对象Xi，Xj的分类属性部分每一维的距离则采用二元化的方法，即Xi，Xj的第P维之间的距离为：
则分类属性部分的距离为：
(b2)利用所述的数值属性部分的距离和分类属性部分的距离计算D(Xi，Xj): D(Xi,XJ) =cKX^Xj^+cKX^Xj)^
5. 如权利要求2所述的基于密度搜索与快速划分的混合数据聚类方法，其特征在于，所述步骤S2中当混合属性数据集中的混合数据为均衡型混合属性数据时，通过如下公式计算任意两个混合数据之间的距离：
其中，dH，xp表示混合型数据\和X」在第p维上的距离，根据如下公式计算：
dpq(X" Xj表示Xi和Xj在第p维上相对于第q维的距离（实际上为条件概率），根据如下公式计算：
其中，为混合数据Xi在第P维上的取值，I；为混合数据乂」在P维上的取值，以混合数据在第p维上的取值为I/'时第q维上所有可能取值的组成的集合作为全集，Z是该全集的子集，Ze为Z的补集，P(z|xf)表示当混合数据X^p维上的取值是#时，在q维上的取值属于z的概率，|Xf)表示当混合数据^在p维上的取值是巧时，在q维上的取值属于P的概率。
6. 如权利要求2所述的基于密度搜索与快速划分的混合数据聚类方法，其特征在于，所述步骤S3包括如下步骤： S3-1 :设定粒子群算法的粒子数、最大迭代次数，并根据预设的聚类半径对粒子群进行初始化以对各个粒子赋予速度和位置； S3-2 :在当前密度半径下计算各个混合数据的密度，并根据所有混合数据的密度以及任意两个混合数据的距离确定该数据混合数据的距离； S3-3 :对所有混合数据的密度和距离进行拟合得到当前密度半径下的聚类中心集； S3-4 :根据聚类中心，基于距离对所述的混合属性数据集进行快速划分得到若干个簇，簇的个数与聚类中心集中聚类中心的个数相同； S3-5 :根据如下公式计算当前快速划分结果的适应度Fitness :
其中，k为聚类中心的总数，nk表示第k个簇中混合数据的总数，i为混合数据的标号， 4为第1个聚类中心，d(x i，Cl)表示混合数据Xi到聚类中心c ^勺距离； S3-6 :针对任意一个粒子，以该粒子的当前的适应度为该粒子的最优个体极值，当前的位置为最优位置，并根据各个粒子的个体极值确定全局最优极值和全局最优位置，更新迭代次数 iter = iter+1 ; S3-7 :当迭代次数iter〈 =Maxiter时根据如下公式更新各个粒子位置和速度，然后转向步骤S3-3 ;否则转向步骤S3-8,其中Maxiter为最大迭代次数，第m个离子的粒子位置和速度根据如下公式更新： vm (t+1) = w*vm (t) + a 1* 0 1* (pbestd_dcm (t)) + a 2* 0 2*gbestd_dcm (t))， dCm(t+l) = dcm(t)+vm(t+l), 其中，vm(t)表示第m个粒子在t代（即第t次迭代）的飞行速度，vm(t+l)表示第m个粒子在t+1代的速度，w是惯性权重，a 1和a 2是常量系数，pbestd是第m个粒子第t次进化迭代的得到的最优位置，gbestd是第t次进化迭代得到的全局最优位置，M和0 2是 [〇，1]的随机数，dM(t)表示第m个粒子在第t代的位置，dM(t+l)表示粒子在t+1代的位置； S3-8 :输出全局极值和全局极值位置，以此时的输出的全局极值作为当前最优密度半径，并以最优密度半径对应聚类结果作为最终聚类结果。
7. 如权利要求6所述的基于密度搜索与快速划分的混合数据聚类方法，其特征在于，所述步骤S3-2根据如下公式计算第i个混合数据的密度P i:
d。为当前密度半径。
8. 如权利要求6所述的基于密度搜索与快速划分的混合数据聚类方法，其特征在于，所述步骤S3-2根据如下公式计算第i个混合数据的距离S i:
其中，p i为第i个混合数据的密度，p」第j个混合数据的密度。
【专利摘要】本发明公开了一种基于密度搜索与快速划分的混合数据聚类方法，其特征在于，包括如下步骤：确定混合属性数据集中混合数据的占优类型；根据混合数据的占优类型计算混合数据集中任意两个混合数据之间的距离；根据任意两个混合数据之间的距离，基于密度搜索算法在预设的聚类半径取值范围内对聚类半径进行优化，并以最优的聚类半径对应的对应聚类结果作为最终聚类结果。本发明对混合数据进行占优分析方法确定混合数据的专有类型，针对不同的混合数据采用不同距离计算方法，能有效发挥属性占优的数据维度信息在整体数据信息的重要性并准确计算数据的距离；且采用基于密度搜索与快速划分的数据聚类算法，速度快、准确率高。
【IPC分类】G06F17-30
【公开号】CN104615722
【申请号】CN201510063814
【发明人】陈晋音, 何辉豪, 杨东勇, 陈军敢, 卢瑾, 顾东袁, 张健
【申请人】浙江工业大学
【公开日】2015年5月13日
【申请日】2015年2月6日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈晋音;何辉豪;杨东勇;陈军敢;卢瑾;顾东袁;张健;
技术所有人：浙江工业大学;
我是此专利的发明人

上一篇：查询词权重值的确定方法和装置的制造方法
上一篇：用于基于退货关联信息推荐商品的方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。