本申请涉及数据处理,特别涉及一种类别划分方法、文本分类方法及装置、电子设备、介质。
背景技术:
1、聚类是按照某种特定的规则,将数据集划分成不同的簇,使得相同簇中的个体相似性尽可能大,不同簇之间相似性尽可能小。聚类结果在数据中的表现是,具有相似特征的个体聚在一起的可能性大,反之可能性小。聚类可被用于许多领域,如:在生物学上,用于推导植物和动物的分类,对基因进行分类,获得对种群固有结构的认识;在地理信息方面,在地球观测数据库中相似区域的确定、汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对城市中房屋的分组上可以发挥作用。而且,随着聚类应用领域的扩展,聚类也被用于对文本进行分类。
技术实现思路
1、本申请提供一种类别划分方法、文本分类方法及装置、电子设备、介质,可以提升文本分类结果的准确性。
2、第一方面,本申请提供了一种类别划分方法,包括:
3、获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,所述第一待聚类文本和所述第二待聚类文本是初始待聚类文本集合中任意两个待聚类文本;所述第一待聚类文本的类别集合和所述第二待聚类文本的类别集合均包括多个候选类别,所述多个候选类别是在不同的类别数下对待聚类文本进行聚类处理后得到的类别;
4、确定所述第一待聚类文本和所述第二待聚类文本被归属于相同的候选类别的数量;
5、基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度;
6、基于所述第一待聚类文本和所述第二待聚类文本的相似度和预设的相似度阈值确定所述第一待聚类文本和所述第二待聚类文本的类别划分结果。
7、第二方面,本申请提供了一种文本分类方法,该文本分类方法包括:
8、获取初始待聚类文本集合;
9、基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果;其中,所述类别划分方法采用第一方面提供的任意一项所述的类别划分方法。
10、第三方面,本申请提供了一种类别划分装置,包括:
11、获取模块,用于获取第一待聚类文本的类别集合和第二待聚类文本的类别集合;其中,所述第一待聚类文本和所述第二待聚类文本是初始待聚类文本集合中任意两个待聚类文本;所述第一待聚类文本的类别集合和所述第二待聚类文本的类别集合均包括多个候选类别,所述多个候选类别是在不同的类别数下对待聚类文本进行聚类处理后得到的类别;
12、第一确定模块,用于确定所述第一待聚类文本和所述第二待聚类文本被归属于相同的候选类别的数量;
13、第二确定模块,用于基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度;
14、第三确定模块,用于基于所述第一待聚类文本和所述第二待聚类文本的相似度和预设的相似度阈值确定所述第一待聚类文本和所述第二待聚类文本的类别划分结果。
15、第四方面,本申请提供了一种文本分类装置,该文本分类装置包括:
16、信息获取模块,用于获取初始待聚类文本集合;
17、文本聚类模块,用于基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果;其中,所述类别划分方法采用第一方面提供的任意一项所述的类别划分方法。
18、第五方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面提供的类别划分方法或第二方面提供的文本分类方法。
19、第六方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的第一方面提供的类别划分方法或第二方面提供的文本分类方法。
20、本申请所提供的类别划分方法,根据初始待聚类文本集合中的任意两个待聚类文本进行比较来确定待聚类文本的类别划分结果,即确定第一待聚类文本和第二待聚类文本被归属于相同的候选类别的数量(第一次判断);再基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和第二待聚类文本的相似度(第二次判断),由于相似度是通过候选类别的总数量以及被归属于相同的候选类别的数量来判定,而候选类别是基于类别集合得出,因此待聚类文本是否属于同一类别是通过双重类别判断后得出的,即使待聚类文本的类别集合因噪声存在偏差,也可以通过后续的相似度判断纠偏,使得的类别划分结果更准确。
21、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
1.一种类别划分方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述类别集合的获取步骤包括:
3.根据权利要求2所述的方法,其特征在于,所述类别数的确定步骤包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一待聚类文本和所述第二待聚类文本的候选类别的总数量、以及被归属于相同的候选类别的数量,确定所述第一待聚类文本和所述第二待聚类文本的相似度,包括:
5.一种文本分类方法,其特征在于,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于类别划分方法对所述初始待聚类文本集合中的待聚类文本进行聚类,获得各个所述待聚类文本的分类结果,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述类别划分方法,依次遍历第i轮待聚类文本集合中的各个待聚类文本,确定归属于所述第i类别的待聚类文本,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述类别划分方法,判断所述第j个待聚类文本是否与已确定为第i类别的待聚类文本属于相同的类别,包括:
9.一种类别划分装置,其特征在于,包括:
10.一种文本分类装置,其特征在于,包括:
11.一种电子设备,其特征在于,包括:
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-4中任一项所述的类别划分方法或如权利要求5-8中任一项所述的文本分类方法。