基于网格快速搜寻密度峰值的教育数据聚类方法与流程

文档序号：19074920发布日期：2019-11-08 21:19阅读：来源：国知局

技术特征：

1.一种基于网格快速搜寻密度峰值的教育数据聚类方法，其特征在于，依次包括以下步骤，

步骤1：读取数据库中数据，进行数据预处理形成待聚类数据集，所述数据集包括学生在校学习和生活的若干属性，所述属性包括学生个人信息，学生选课成绩信息，学生的毕业情况信息，把所述信息的子属性当作聚类算法的输入属性，所述子属性包括学号、成绩、性别、政治面貌、民族、籍贯和考生类别，设每个所述子属性上的值在区间[li，hi)中，i＝1，2，…，d，d为自然数，则S＝[l1，h1)×[l2，h2)×…×[ld，hd)构成数据集；

步骤2：计算单个网格单元的边长side，以及每维区间数，根据计算结果，对数据集的每一个维度进行划分，将其划分成边长相等且互不相交的网格单元，对于每一维的网格单元，保证取值区间都是左闭右开的，所述每一个维度为每个所述子属性；

步骤3：对数据点进行映射，映射至对应的网格单元中，获取每维上对应的下标，所述数据点为所述数据集中的子属性的值；

步骤4：对每一网格单元，计算其包含的数据点数，考察任一网格单元P相邻的网格单元，与相邻网格单元比较密度大小，并向密度大于网格单元P的网格单元进行扩展，得到网格单元合集，形成数据分区；

步骤5：计算各数据分区中各数据点xi的局部密度ρi和距离δi并确定密度阈值=dc ，根据决策图确定聚类中心及其个数；

步骤6：对非聚类中心的数据点进行归类，根据密度阈值dc确定各类的核心区域和边界区域，并指定边界区域中最高点密度值ρb作为去除噪声点的阈值；

步骤7：假设边界点p的密度阈值dc邻域中包含的核心点同属于一个聚类中，则把该点p直接划分到包含这些核心点的簇中；假设边界点p同时落在几个分属于不同簇的核心点的dc邻域内，那么就把该边界点划入距离最近的簇中；

步骤8：计算类间相似度，合并两个满足类间相似条件的类；

步骤9：输出聚类结果。

2.根据权利要求1所述的基于网格快速搜寻密度峰值的教育数据聚类方法，其特征在于，所述类间相似条件为类间相似度小于等于类密度阈值的较小值。

完整全部详细技术资料下载

当前第2页1 2 3