一种基于k-means聚类的分箱方法

文档序号:8223589阅读:1673来源:国知局
一种基于k-means聚类的分箱方法
【技术领域】
[0001] 本发明属于数据分析挖掘的数据预处理领域,具体涉及一种基于k-means聚类的 分箱方法。
【背景技术】
[0002] 在各种数据分析挖掘中,数据预处理的其中一种手段是将连续变量离散化,而最 常用的离散化手段是对连续变量做分箱处理。一个优秀的分箱方法能够有效地去除连续变 量的噪声,平滑数据,增加数据粒度,降低数据计算复杂度,为之后的分析挖掘提供更好的 定性以及定量分析基础。
[0003] 目前常用的分箱方法有等深法、等距法以及专家定义法。等深法是将数据排序,每 箱具有相同的数据量;等距法是将数据集排序,在数据值区间上平均分布,即每箱的区间范 围相等;专家定义法是专家根据经验及观察自定义分箱区间。这些分箱方法对全体数据进 行相等的划分,对于数据密度分布偏向明显的数据集容易造成误差。
[0004] 聚类分析是数据挖掘的重要方法之一,它是将数据集合分成相似的对象类或者簇 的过程,同一类中的数据对象彼此相似而与其他类中的对象相异。随着大数据时代的来临, 聚类分析正在蓬勃的发展,受到包括数据挖掘、统计学、机器学习、空间数据库技术研宄、市 场营销、金融及医疗等多领域的广泛关注。
[0005] 由Q. J. Mac提出的k-means聚类算法,由于其实现简单,对类内成团聚状的数据集 聚类效果优秀,已成为应用最为广泛的聚类算法。K-means算法是一个经典的基于距离的 聚类算法,采用距离作为相似性的评价指标,即认为两个对象距离越近,其相似性越大。该 算法认为同类对象距离应尽可能靠近。K-means算法的处理流程如下:首先,随机地选择k 个对象,每个对象代表一个类的初始均值或者中心;对剩余对象,根据其与各个类均值的距 离,将它加入到最接近的类中;然后重新计算每个类的均值;多次迭代这个过程,直到约束 函数收敛。通常约束函数采用平方误差,其定义如下:
【主权项】
1. 一种基于k-means聚类的分箱方法,其特征在于包括W下步骤: 51、 对连续变量进行预处理; 52、 对步骤S1预处理后的数据进行归一化处理; 53、 将归一化处理过的数据,应用k-means聚类算法,划分为多个区间: 531、 采用等距法设定k-means聚类算法的初始中屯、,得到聚类中屯、; 532、 在得到聚类中屯、后将相邻的聚类中屯、的中点作为分类的划分点,将各个对象加入 到距离最近的类中,从而将数据划分为多个区间; 533、 重新计算每个聚类中屯、; 534、 重复步骤S32及S33,直到每个聚类中屯、不再变化,得到最终的聚类结果。
2. 根据权利要求1所述的分箱方法,其特征在于,所述步骤S31中等距法设定k-means 聚类算法的初始中屯、,为:使用d = I p-m; 12为距离约束函数,导入k-means算法得到聚类结 果,得到聚类中屯、。
3. 根据权利要求1所述的分箱方法,其特征在于,所述步骤S1对连续变量进行预处理, 包括剔除数据集中的缺失值和异常值。
4. 根据权利要求3所述的分箱方法,其特征在于,所述缺失值直接去除。
5. 根据权利要求3所述的分箱方法,其特征在于,所述异常值采用统计学中的常用异 常点判别方法GESR进行判别。
【专利摘要】本发明公开了一种基于k-means聚类的分箱方法,包括以下步骤:对连续变量进行预处理;对预处理后的数据进行归一化处理;将归一化处理过的数据,应用k-means聚类算法,划分为多个区间:采用等距法设定k-means聚类算法的初始中心,得到聚类中心;在得到聚类中心后将相邻的聚类中心的中点作为分类的划分点,将各个对象加入到距离最近的类中,从而将数据划分为多个区间;重新计算每个聚类中心,然后重新划分数据,直到每个聚类中心不再变化,得到最终的聚类结果。本发明解决了现有分箱方法对于数据密度分布偏向明显的数据集容易造成误差的技术问题,k-means聚类算法在选取初始中心时不再是随机选取,数据分箱结果准确。
【IPC分类】G06F17-30
【公开号】CN104537067
【申请号】CN201410839779
【发明人】吴广财, 莫玉纯, 严宇平, 杨秋勇, 桂媛, 江疆
【申请人】广东电网有限责任公司信息中心
【公开日】2015年4月22日
【申请日】2014年12月30日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1