本申请涉及数据处理领域,特别涉及一种文本数据的多样性检测方法、装置及电子设备。
背景技术:
1、文本数据包括各类由中文、英文、数字等字符构成的数据。文本数据的来源多样,例如,可以通过聊天软件、坐席录音软件、社交平台等多种方式获取。
2、在相关技术中,为了便于针对大量的文本数据执行处理,需要预先针对文本数据执行分类操作。在分类过程中,通常借助预先训练得到的分类模型进行分类。在训练分类模型的过程中,需要获取大量的文本数据作为训练样本。
3、训练样本中包含的文本数据的多样性越好,则最终训练得到的分类模型的分类准确性越高。但是,在实际情况中,文本数据的多样性欠佳,因而导致分类模型的分类效果较差。由此可见,如何针对文本数据的多样性进行检测成为亟待解决的技术难题。
技术实现思路
1、本申请提供一种文本数据的多样性检测方法、装置及电子设备,用于准确检测各个类别的文本数据的多样性是否符合业务需求。
2、第一方面,本申请提供了一种文本数据的多样性检测方法,该方法包括:
3、获取与m个类别标签相对应的m个类别的原始文本数据,所述m个类别的原始文本数据属于同一业务场景的文本数据;
4、分别从每个类别的原始文本数据中提取j个种子点数据,得到j组种子点集合;每组种子点集合中包含m个种子点数据,且所述m个种子点数据分别对应于m个类别;其中,m、j均为自然数;
5、根据每组种子点集合中包含的m个种子点数据,对所述m个类别的原始文本数据执行j次聚类处理,得到j次聚类结果;其中,每次聚类结果中包含m个聚类簇,且m个聚类簇分别对应于所述m个类别;
6、针对每个类别标签所对应的类别,将与所述类别的j次聚类结果相对应的j个聚类簇确定为所述类别的类别聚类簇;
7、针对每个类别,根据所述类别的类别聚类簇中包含的聚类文本数据与所述类别的类别标签所对应的原始文本数据,得到所述类别的数据多样性的检测结果。
8、第二方面,本申请提供了一种文本数据的多样性检测装置,包括:
9、获取模块,适于获取与m个类别标签相对应的m个类别的原始文本数据,所述m个类别的原始文本数据属于同一业务场景的文本数据;
10、提取模块,适于分别从每个类别的原始文本数据中提取j个种子点数据,得到j组种子点集合;每组种子点集合中包含m个种子点数据,且所述m个种子点数据分别对应于m个类别;其中,m、j均为自然数;
11、聚类模块,适于根据每组种子点集合中包含的m个种子点数据,对所述m个类别的原始文本数据执行j次聚类处理,得到j次聚类结果;其中,每次聚类结果中包含m个聚类簇,且m个聚类簇分别对应于所述m个类别;
12、确定模块,适于针对每个类别标签所对应的类别,将与所述类别的j次聚类结果相对应的j个聚类簇确定为所述类别的类别聚类簇;
13、检测模块,适于针对每个类别,根据所述类别的类别聚类簇中包含的聚类文本数据与所述类别的类别标签所对应的原始文本数据,得到所述类别的数据多样性的检测结果。
14、第三方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。
15、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述方法。
16、本申请所提供的实施例,能够针对m个类别的原始文本数据执行j次聚类处理,相应的,针对每个类别而言,将与该类别的j次聚类结果相对应的j个聚类簇确定为该类别的类别聚类簇,相应的,根据各个类别的类别聚类簇的聚类结果与该类别的类别标签所对应的原始文本数据之间的异同,能够检测出该类别的数据多样性是否符合业务需求。通常情况下,若某一类别的数据的多样性不足,将导致该类别的各次聚类结果均相同,即:该类别的类别聚类簇的聚类结果与该类别的类别标签所对应的原始文本数据高度一致。因此,通过多次聚类处理,能够准确检测各个类别的文本数据的多样性。
17、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
1.一种文本数据的多样性检测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述针对每个类别,根据所述类别的类别聚类簇中包含的聚类文本数据与所述类别的类别标签所对应的原始文本数据,得到所述类别的数据多样性的检测结果包括:
3.根据权利要求1所述的方法,其特征在于,所述针对每个类别,根据所述类别的类别聚类簇中包含的聚类文本数据与所述类别的类别标签所对应的原始文本数据,得到所述类别的数据多样性的检测结果包括:
4.根据权利要求1所述的方法,其特征在于,所述得到所述类别的数据多样性的检测结果之后,还包括:
5.根据权利要求4所述的方法,其特征在于,所述针对所述待增强类别中包含的文本数据执行数据增强类别处理包括:
6.根据权利要求5所述的方法,其特征在于,所述针对所述待增强类别中包含的文本数据执行数据增强类别处理包括:
7.根据权利要求4所述的方法,其特征在于,所述针对所述待增强类别中包含的文本数据执行数据增强处理包括:
8.一种文本数据的多样性检测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-7中任一项所述的方法。