一种基于内存计算的并行化聚类方法与流程

文档序号：11952092阅读：来源：国知局

技术特征：

1.一种基于内存计算的并行化聚类方法，包括如下步骤：

S1：基于简单随机抽样的数据划分，以<ID,Raw_data>作为此阶段的输入，通过对原始数据进行简单随机抽样来完成数据的切分，并将切分的结果保存到不同的RDD；

S2：利用内存计算模型在各个计算节点并行执行DBSCAN算法，对不同的RDD中的原始数据进行聚类，产生局部类簇；

S3：基于重心合并所有的局部类簇，利用内存计算模型对局部类簇进行合并，从而产生全局聚类结果。

2.根据权利要求书1所述的一种基于内存计算的并行化聚类方法，包括如下步骤：

S11：在集群中启动实现map接口的作业，各个节点以原始数据作为输入，通过自定义的random()函数所产生的随机数作为当前数据的key值，生成带有新的划分标识的原始数据RDD集合；

S12：将S11中产生的RDD集合按照划分标识分解成对应的局部RDD集合。

3.根据权利要求书1所述的一种基于内存计算的并行化聚类方法，包括如下步骤：

S21：对每个局部RDD集合，首先根据数据划分个数确定聚类的邻域半径ε以及阈值MinPts；

S22：选取任一数据对象进行邻域查询，若该对象为核心对象，则将其邻域内所有的数据加入到list中，进行递归调用；若该对象为噪声对象，则将其标记为Noise；

S23：重复S22，直到所有的对象均被标记，同时尽可能的归到某个类簇中，或者找出那些不属于任何类簇的噪声对象；

S24：生成局部类簇RDD。

4.根据权利要求书1所述的一种基于内存计算的并行化聚类方法，包括如下步骤：

S31：计算各个数据划分中局部类簇之间的距离，求得最小值局部d_min；

S32：根据局部d_min求得在整个数据集下的全局D_min,D_min表示两个局部类簇之间的最小距离；

S33：根据D_min确定合并阈值σ；

S34：构建重心距离矩阵；

S35：根据合并阈值σ，产生合并序列RDD；

S36：根据合并序列RDD对局部类簇进行合并，从而产生最终的全局聚类结果。

完整全部详细技术资料下载

当前第2页1 2 3