一种基于内存计算的并行化聚类方法与流程

文档序号:11952092阅读:来源:国知局

技术特征:

1.一种基于内存计算的并行化聚类方法,包括如下步骤:

S1:基于简单随机抽样的数据划分,以<ID,Raw_data>作为此阶段的输入,通过对原始数据进行简单随机抽样来完成数据的切分,并将切分的结果保存到不同的RDD;

S2:利用内存计算模型在各个计算节点并行执行DBSCAN算法,对不同的RDD中的原始数据进行聚类,产生局部类簇;

S3:基于重心合并所有的局部类簇,利用内存计算模型对局部类簇进行合并,从而产生全局聚类结果。

2.根据权利要求书1所述的一种基于内存计算的并行化聚类方法,包括如下步骤:

S11:在集群中启动实现map接口的作业,各个节点以原始数据作为输入,通过自定义的random()函数所产生的随机数作为当前数据的key值,生成带有新的划分标识的原始数据RDD集合;

S12:将S11中产生的RDD集合按照划分标识分解成对应的局部RDD集合。

3.根据权利要求书1所述的一种基于内存计算的并行化聚类方法,包括如下步骤:

S21:对每个局部RDD集合,首先根据数据划分个数确定聚类的邻域半径ε以及阈值MinPts;

S22:选取任一数据对象进行邻域查询,若该对象为核心对象,则将其邻域内所有的数据加入到list中,进行递归调用;若该对象为噪声对象,则将其标记为Noise;

S23:重复S22,直到所有的对象均被标记,同时尽可能的归到某个类簇中,或者找出那些不属于任何类簇的噪声对象;

S24:生成局部类簇RDD。

4.根据权利要求书1所述的一种基于内存计算的并行化聚类方法,包括如下步骤:

S31:计算各个数据划分中局部类簇之间的距离,求得最小值局部dmin

S32:根据局部dmin求得在整个数据集下的全局Dmin,Dmin表示两个局部类簇之间的最小距离;

S33:根据Dmin确定合并阈值σ;

S34:构建重心距离矩阵;

S35:根据合并阈值σ,产生合并序列RDD;

S36:根据合并序列RDD对局部类簇进行合并,从而产生最终的全局聚类结果。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1