基于随机采样聚类的带噪音数据分类方法及用户分类方法

文档序号:34653111发布日期:2023-06-29 21:34阅读:30来源:国知局
基于随机采样聚类的带噪音数据分类方法及用户分类方法

本发明属于数据处理领域,具体涉及一种基于随机采样聚类的带噪音数据分类方法及用户分类方法。


背景技术:

1、聚类作为无监督学习的最基本问题之一,在生物信息、金融分析、数据挖掘等领域均有着广泛的应用。给定一组数据对象,聚类分析可以根据数据对象的特征属性,将其划分为若干组,使得组内数据对象之间的相似度尽可能的小,同时保证组间数据对象之间的相似度尽可能的大。常用的聚类模型k-均值聚类,k-中值聚类和k-中心聚类等。在目前已知的聚类问题中,np难(nphard)问题是相对较为经典的问题之一,即:除非假定np=p,否则无法在多项式时间内找到问题的最优解;目前常选择近似算法用于解决聚类分析问题。

2、k-均值聚类模型作为聚类问题的基础模型之一,其主要原理是在给定空间内找到k个中心点,同时将数据分配到聚类中心点对应形成的k个类簇,使得给定数据点到其最近的聚类中心点的欧氏距离之和最小。

3、k-中值聚类模型的下界问题是近似比为在实际的应用中,数据聚类问题存在不可避免的噪声干扰,同时目前常用的k-均值聚类模型对噪声数据极为敏感,一些较小的数据点的噪声扰动都会使得聚类结果出现聚类变化。在数据分析的过程中,这些噪声的干扰往往会严重影响最终的聚类结果分析,而如何在聚类的过程中去除噪音点的影响,这就是带噪音的聚类问题。

4、目前针对带噪音的数据聚类问题,尽管已经存在相应的聚类方法,但是现有的聚类方法大多存在聚类精度较差、时间复杂度较高、实际应用过程的效果较差等诸多问题。

5、类似的,目前基于上述带噪音的数据聚类方法的用户分类方法,尽管能够进行用户分类,但是现有的方法在实际的使用过程中仍然存在聚类的精度差,用户分类结果的可靠性不高的问题。


技术实现思路

1、本发明的目的之一在于提供一种精度较高、可靠性强、实用性好且算法复杂度低的基于随机采样聚类的带噪音数据分类方法。

2、本发明的目的之二在于提供一种包括了所述基于随机采样聚类的带噪音数据分类方法的用户分类方法。

3、本发明提供的这种基于随机采样聚类的带噪音数据分类方法,包括如下步骤:

4、s1.获取待分类的带噪音数据;

5、s2.针对步骤s1获取的带噪音数据进行随机采样处理,选择若干个处理后的数据构建部分中心点集;

6、s3.针对步骤s1获取的带噪音数据进行迭代处理,选择若干个处理后的数据加入到步骤s2构建的部分中心点集中,构建中心点集;

7、s4.针对步骤s3构建的中心点集,构建带权实例;

8、s5.采用带权噪声方法完成带噪音数据的分类。

9、步骤s2所述的针对步骤s1获取的带噪音数据进行随机采样处理,具体包括:

10、选择如下的公式作为目标函数:

11、

12、其中,x为给定数据集,z为去除的噪音点集合,p为给定数据集x中的数据点;将数据集x分为k个簇,ci为所选的第i个中心点集的中心点;d(p,cj)为数据点p到第j个中心点集的中心点cj的距离;根据随机采样方法选取个数据点作为中心点,其中ε和η为输入参数;随机采样处理后的数据中至少存在一个不是噪音点的正常点的概率为1-η;目标函数在优化处理的过程中去除了z个噪音点的影响。

13、步骤s3所述的针对步骤s1获取的带噪音数据进行迭代处理,选择若干个处理后的数据加入到步骤s2构建的部分中心点集中,构建中心点集,具体包括:

14、采用增强的d2-sampling分布独立采样若干数据点作为采样候选集,在迭代处理的过程中对被采样的数据集进行集合大小的判断:

15、如果采样候选集的集合大小介于(1+ε)z和之间,其中,ε和δ为给定的输入参数,z为给定的噪音点的数量,则根据层级采样的原理,针对步骤s2随机采样处理后的数据,从中随机选取个数据点,加入到步骤s2构建的部分中心点集中,用于构建中心点集;

16、如果采样候选集的集合大小不在(1+ε)z和之间,则放弃当前的采样处理,重新进行采样候选集的选取。采用分层采样的方式保证了每次采样后找到至少一个非噪音点数据,使得聚类结果在分机上保证4-近似,每一次迭代处理的过程中需要重新计算两个数据点之间的距离;迭代处理保证了每次迭代选取的中心点是以较高的概率来自非相同的最优簇中的数据点,重复迭代o(k)次,得到k个正常数据点,将得到的所有数据点全部加入步骤s2构建的部分中心点集,构建中心点集;其中,o(k)=βk,β为设定的常数。

17、步骤s4所述的针对步骤s3构建的中心点集,构建带权实例,具体包括:针对步骤s3构建的中心点集,从中选取个中心点,β为设定的常数;首先移除最远的z个中心点,将剩余的全部数据点分配给距离自身最近的中心点,每个中心点的权值为分配给该中心点的数据点的数量。

18、步骤s5所述的选择带权噪声方法完成带噪音数据的分类,具体包括:采用规约的方式选择k个中心点,将数据的带噪音问题转换为带惩罚问题;每次的迭代处理过程中,利用增强的d2-sampling分布选取一个中心点,重复处理直至选取出k个中心点。

19、本发明还提供了一种包括了所述基于随机采样聚类的带噪音数据分类方法的用户分类方法,包括获取原始的用户基本信息,并将其作为带噪音的待分类数据;采用上述的基于随机采样聚类的带噪音数据分类方法,对待分类数据进行分类处理;根据得到的分类结果进行用户分类,在进行用户分类处理时依据用户之间存在的信息差异进行分类,选择欧式距离表示用户之间的信息差异。

20、本发明提供的这种基于随机采样聚类的带噪音数据分类方法及用户分类方法,通过随机采样的方式处理待分类的带噪音数据,选择迭代处理的方法,采用分层采样的方式进行数据的采样,实现带噪音数据的分类;而且本发明的分类精度较高、可靠性强、实用性好且算法复杂度低。



技术特征:

1.一种基于随机采样聚类的带噪音数据分类方法,包括如下步骤:

2.根据权利要求1所述的基于随机采样聚类的带噪音数据分类方法,其特征在于步骤s2所述的针对步骤s1获取的带噪音数据进行随机采样处理,具体包括:

3.根据权利要求2所述的基于随机采样聚类的带噪音数据分类方法,其特征在于步骤s3所述的针对步骤s1获取的带噪音数据进行迭代处理,选择若干个处理后的数据加入到步骤s2构建的部分中心点集中,构建中心点集,具体包括:

4.根据权利要求3所述的基于随机采样聚类的带噪音数据分类方法,其特征在于步骤s4所述的针对步骤s3构建的中心点集,构建带权实例,具体包括:针对步骤s3构建的中心点集,从中选取个中心点;首先移除最远的z个中心点,将剩余的全部数据点分配给距离自身最近的中心点,每个中心点的权值为分配给该中心点的数据点的数量。

5.根据权利要求4所述的基于随机采样聚类的带噪音数据分类方法,其特征在于步骤s5所述的选择带权噪声方法完成带噪音数据的分类,具体包括:采用规约的方式选择k个中心点,将数据的带噪音问题转换为带惩罚问题;每次的迭代处理过程中,利用增强的d2-sampling分布选取一个中心点,重复处理直至选取出k个中心点。

6.一种包括了权利要求1~5之一所述的基于随机采样聚类的带噪音数据分类方法的用户分类方法,其特征在于包括获取原始的用户基本信息,并将其作为带噪音的待分类数据;采用权利要求1~5之一所述的基于随机采样聚类的带噪音数据分类方法,对待分类数据进行分类处理;根据得到的分类结果进行用户分类。


技术总结
本发明公开了一种基于随机采样聚类的带噪音数据分类方法,包括获取待分类的带噪音数据;针对获取的带噪音数据进行随机采样处理,选择若干处理后的数据构建部分中心点集;针对获取的带噪音数据进行迭代处理,选择若干处理后的数据加入到构建的部分中心点集中,构建中心点集;针对构建的中心点集,构建带权实例;选择带权噪声方法完成带噪音数据的分类。本发明还公开了包括所述基于随机采样聚类的带噪音数据分类方法的用户分类方法。通过随机采样的方式处理待分类的带噪音数据,选择迭代处理的方法,采用分层采样的方式进行数据的采样,实现带噪音数据的分类;而且本发明的分类精度较高、可靠性强、实用性好且算法复杂度低。

技术研发人员:冯启龙,黄俊予,马康,王建新
受保护的技术使用者:中南大学
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1