一种基于相邻点连接的数据聚类方法与流程

文档序号：20920350发布日期：2020-05-29 14:04阅读：来源：国知局

技术特征：

1.一种基于相邻点连接的数据聚类方法，其特征是通过数据变换将所有数据转换到一个正整数范围的网格内，将网格中每个转换数据近似的正整数对应的位置赋值为1，其他位置赋值为0，通过迭代形态学膨胀的方法对被赋值为1的位置的临近位置也赋值为1，将相邻点连接成为连通域，每次迭代形态学膨胀之后都要计算网格中所有区域的面积，设置所有区域的面积平均值为面积阈值，计算出所有面积大于面积阈值的区域的个数，如果计算的大面积区域的个数不等于输入的聚类个数，那么继续形态学膨胀相邻点连接的迭代过程，如果个数与输入的聚类个数相同，那么终止迭代，用连续整数对所有连通域进行自动标识，计算出单个数据点到每个连通域的距离，通过与其距离最近的连通域的标识整数标记该数据点，对于含有噪音的数据，设置距离阈值，如果某个数据点到所有连通域的距离都大于距离阈值，那么该数据点被标记为噪音，在所有的数据点被标记以后，再将它们转换回原来的区间范围内。

2.按照权利要求1所述的方法，其特征在于所描述的数据变换方法是通过位移，尺度变换与四舍五入将原来的数据变换为正整数。

3.按照权利要求1所述的方法，其特征在于所描述的相邻点连接方法是通过迭代形态学膨胀方法，将相邻点连接成连通域。

4.按照权利要求1所述的方法，其特征在于所描述的相邻点连接方法是通过计算网格中所有区域的面积，设置所有区域的面积平均值为面积阈值，通过计算出所有面积大于面积阈值的区域的个数，来判断是否终止迭代。

5.按照权利要求1所述的方法，其特征在于所描述的相邻点连接方法是当计算出所有面积大于面积阈值的区域的个数与输入的聚类个数相同时，终止形态学膨胀的迭代。

6.按照权利要求1所述的方法，其特征在于所描述的数据标识方法是通过连续整数对所有连通域进行自动标识，计算出单个数据点到每个连通域的距离，通过与其距离最近的连通域的标识整数标记该数据点。

7.按照权利要求1所述的方法，其特征在于所描述的噪音识别方法是通过设置距离阈值，如果单个数据点到所有连通域的距离大于距离阈值，那么该数据点被标记为噪音。

技术总结
本发明公开了一种基于相邻点连接的数据聚类方法。通过数据变换将所有数据转换到一个正整数范围的网格内，将网格中每个转换数据近似的正整数对应的位置赋值为1，其他位置赋值为0，通过迭代形态学膨胀方法对赋值为1的位置的临近位置也赋值为1，将相邻点连接成为连通域，用连续整数对所有连通域进行自动标识，计算出单个数据点到每个连通域的距离，通过与其距离最近的连通域的标识整数标记该数据点，对于含有噪音的数据，设置距离阈值，如果某个数据点到所有连通域的距离都大于距离阈值，那么该数据点被标记为噪音，在所有的数据点被标记以后，再将它们转换回原来的区间范围内。实验结果表明本发明的聚类精度明显高于任何一种现有聚类算法。

技术研发人员：王振洲
受保护的技术使用者：山东理工大学
技术研发日：2018.11.22
技术公布日：2020.05.29

完整全部详细技术资料下载

当前第2页1 2