本申请涉及大数据,尤其涉及一种基于分布式分裂融合的初始化kmeans日志分类方法、装置、设备和存储介质。
背景技术:
1、用户在使用应用程序的过程中由于其个人习惯可能会导致应用程序产生错误,这些错误都会被应用程序的日志记录,在分析各用户在使用应用程序过程中发生的错误问题时,需要将错误类型相同的日志划分到一个组里,然后分门别类的去挖掘用户使用的习惯的可能存在的错误方法,由此以对后续遇到类似问题给出针对性的建议。
2、目前现有技术通常是采用k均值聚类算法(k-means clustering algorithm,简称kmeans聚类算法)进行文本聚类,其在初始化阶段存在一个步骤就是将数据分为k组,然后随机在每个组中选取一个对象作为该组的初始聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
3、但是,现有的k-means聚类算法在初始化阶段进行随机抽取初始质心,这样会导致聚类收敛速度缓慢且聚类效果不好。
技术实现思路
1、本申请提供一种基于分布式分裂融合的初始化kmeans日志分类方法,用以解决目前kmeans聚类算法聚类速度慢效果差的问题。
2、第一方面,本申请提供一种基于分布式分裂融合的初始化kmeans日志分类方法,该方法包括:
3、获取n个日志样本集合,对每个日志样本集合进行备份,得到该日志样本集合对应的副本,所述日志样本集合中包括至少一个日志样本,n为正整数;
4、对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的k个中心,k为正整数;
5、根据每个日志样本集合中的k个中心,确定该日志样本集合的副本中的k个中心和该副本的k个簇;
6、获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理;
7、获取分裂处理后的簇,组成簇集合;
8、根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,直到所有的簇的簇中心的距离都满足预设条件;
9、获取该簇集合中的簇中心,作为初始质心,进行kmeans聚类。
10、第二方面,本申请提供一种基于分布式分裂融合的初始化kmeans日志分类装置,包括:
11、获取模块,用于获取n个日志样本集合,对每个日志样本集合进行备份,得到该日志样本集合对应的副本,所述日志样本集合中包括至少一个日志样本,n为正整数;
12、中心确定模块,用于对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的k个中心,k为正整数;
13、簇划分模块,用于根据每个日志样本集合中的k个中心,确定该日志样本集合的副本中的k个中心和该副本的k个簇;
14、簇分裂模块,用于获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理;
15、簇集合模块,用于获取分裂处理后的簇,组成簇集合;
16、簇融合模块,用于根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,直到所有的簇的簇中心的距离都满足预设条件;
17、聚类模块,用于获取该簇集合中的簇中心,作为初始质心,进行kmeans聚类。
18、第三方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如上述的方法。
19、第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的方法。
20、第五方面,本申请一种计算机程序产品,该计算机程序产品被处理器执行时用于实现如上述的方法。
21、本申请提供的基于分布式分裂融合的初始化kmeans日志分类方法,通过将海量的日志样本划分为n个不同的日志样本集合,可以分布式并行的对日志样本进行处理,减少初始化的时间,同时对日志样本集合中的簇进行分裂融合处理,可以更加准确的选取出初始质心,实现了对kmeans聚类算法初始化阶段的改进,能够提高聚类的效果以及提高收敛速度,减少聚类所花费的时间。
1.一种基于分布式分裂融合的初始化kmeans日志分类方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取n个日志样本集合,包括:
3.根据权利要求1所述的方法,其特征在于,所述对每个日志样本集合中的日志样本进行筛选删除,确定出每个日志样本集合中的k个中心,包括:
4.根据权利要求1所述的方法,其特征在于,所述根据每个日志样本集合中的k个中心,确定该日志样本集合的副本中的k个中心和该副本的k个簇,包括:
5.根据权利要求1所述的方法,其特征在于,所述获取每个副本中的每个簇的误差函数,根据该簇的误差函数,对该簇进行分裂处理,包括:
6.根据权利要求5所述的方法,其特征在于,所述对该簇进行分裂,得到分裂后的两个簇,包括:
7.根据权利要求6所述的方法,其特征在于,所述计算该簇中每个日志样本的密度,包括:
8.根据权利要求1所述的方法,其特征在于,所述根据簇集合中各个簇的簇中心之间的余弦距离,对各个簇进行融合,包括:
9.根据权利要求8所述的方法,其特征在于,所述预设条件为:簇集合中所有的簇的簇中心之间的距离均大于所述预设第二阈值。
10.一种基于分布式分裂融合的初始化kmeans日志分类装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的方法。
13.一种计算机程序产品,其特征在于,该计算机程序产品被处理器执行时用于实现如权利要求1至9任一项所述的方法。