基于网格快速搜寻密度峰值的教育数据聚类方法与流程

文档序号:19074920发布日期:2019-11-08 21:19阅读:来源:国知局

技术特征:

1.一种基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,依次包括以下步骤,

步骤1:读取数据库中数据,进行数据预处理形成待聚类数据集,所述数据集包括学生在校学习和生活的若干属性,所述属性包括学生个人信息,学生选课成绩信息,学生的毕业情况信息,把所述信息的子属性当作聚类算法的输入属性,所述子属性包括学号 、成绩、性别、政治面貌、民族、籍贯和考生类别,设每个所述子属性上的值在区间[li,hi)中,i=1,2,…,d,d为自然数,则S=[l1,h1)×[l2,h2)×…×[ld,hd)构成数据集;

步骤2:计算单个网格单元的边长side,以及每维区间数,根据计算结果,对数据集的每一个维度进行划分,将其划分成边长相等且互不相交的网格单元,对于每一维的网格单元,保证取值区间都是左闭右开的,所述每一个维度为每个所述子属性;

步骤3:对数据点进行映射,映射至对应的网格单元中,获取每维上对应的下标,所述数据点为所述数据集中的子属性的值;

步骤4:对每一网格单元,计算其包含的数据点数,考察任一网格单元P相邻的网格单元,与相邻网格单元比较密度大小,并向密度大于网格单元P的网格单元进行扩展,得到网格单元合集,形成数据分区;

步骤5:计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值=dc ,根据决策图确定聚类中心及其个数;

步骤6:对非聚类中心的数据点进行归类,根据密度阈值dc确定各类的核心区域和边界区域,并指定边界区域中最高点密度值ρb作为去除噪声点的阈值;

步骤7:假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中,则把该点p直接划分到包含这些核心点的簇中;假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内,那么就把该边界点划入距离最近的簇中;

步骤8:计算类间相似度,合并两个满足类间相似条件的类;

步骤9:输出聚类结果。

2.根据权利要求1所述的基于网格快速搜寻密度峰值的教育数据聚类方法,其特征在于,所述类间相似条件为类间相似度小于等于类密度阈值的较小值。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1