1.一种基于内存计算的并行化聚类方法,包括如下步骤:
S1:基于简单随机抽样的数据划分,以<ID,Raw_data>作为此阶段的输入,通过对原始数据进行简单随机抽样来完成数据的切分,并将切分的结果保存到不同的RDD;
S2:利用内存计算模型在各个计算节点并行执行DBSCAN算法,对不同的RDD中的原始数据进行聚类,产生局部类簇;
S3:基于重心合并所有的局部类簇,利用内存计算模型对局部类簇进行合并,从而产生全局聚类结果。
2.根据权利要求书1所述的一种基于内存计算的并行化聚类方法,包括如下步骤:
S11:在集群中启动实现map接口的作业,各个节点以原始数据作为输入,通过自定义的random()函数所产生的随机数作为当前数据的key值,生成带有新的划分标识的原始数据RDD集合;
S12:将S11中产生的RDD集合按照划分标识分解成对应的局部RDD集合。
3.根据权利要求书1所述的一种基于内存计算的并行化聚类方法,包括如下步骤:
S21:对每个局部RDD集合,首先根据数据划分个数确定聚类的邻域半径ε以及阈值MinPts;
S22:选取任一数据对象进行邻域查询,若该对象为核心对象,则将其邻域内所有的数据加入到list中,进行递归调用;若该对象为噪声对象,则将其标记为Noise;
S23:重复S22,直到所有的对象均被标记,同时尽可能的归到某个类簇中,或者找出那些不属于任何类簇的噪声对象;
S24:生成局部类簇RDD。
4.根据权利要求书1所述的一种基于内存计算的并行化聚类方法,包括如下步骤:
S31:计算各个数据划分中局部类簇之间的距离,求得最小值局部dmin;
S32:根据局部dmin求得在整个数据集下的全局Dmin,Dmin表示两个局部类簇之间的最小距离;
S33:根据Dmin确定合并阈值σ;
S34:构建重心距离矩阵;
S35:根据合并阈值σ,产生合并序列RDD;
S36:根据合并序列RDD对局部类簇进行合并,从而产生最终的全局聚类结果。