文本分类方法、识别方法及装置、设备、存储介质与流程

文档序号:37057738发布日期:2024-02-20 21:06阅读:15来源:国知局
文本分类方法、识别方法及装置、设备、存储介质与流程

本公开涉及计算机,特别涉及一种文本分类方法、识别方法及装置、设备、存储介质。


背景技术:

1、在自然语言处理领域,大量的文本处理任务可以通过文本分类的方式来解决。文本分类是指对文本按照一定标准进行自动分类。例如,可以通过文本分类对情感分析、意图识别和问答匹配等文本处理任务进行处理,可以提升文本处理能力。

2、在执行文本识别的文本任务处理时,需要识别的文本内容可能会因存在噪音而包含相应的干扰信息,从而导致文本内容出现语义不通顺、语义混乱等问题,进而导致无法得到客观的文本识别结果的问题。因此,需要基于文本中是否存在噪音数据进行文本分类,从而在文本识别的处理过程中,可以基于该分类结果减少噪音数据带来的干扰。


技术实现思路

1、本公开提供一种文本分类方法、识别方法及装置、设备、存储介质。

2、第一方面,本公开提供了一种文本分类方法,该文本分类方法包括:获取待分类文本;基于预设的文本类特征和所述待分类文本,生成所述待分类文本的文本类特征的特征值;根据所述文本类特征的特征值,对所述待分类文本进行文本分类处理,得到文本分类结果;所述文本分类结果用于指示指定类型噪声是否存在。

3、第二方面,本公开提供了一种文本识别方法,该文本识别方法包括:对获取的待识别文本进行敏感词识别,得到敏感词识别结果;根据所述待识别文本的文本类特征的特征值,对所述待识别文本进行文本分类处理,生成文本分类结果,所述文本分类结果用于指示指定类型噪声是否存在;根据所述敏感词识别结果和所述文本分类结果,生成所述待识别文本的文本识别结果。

4、第三方面,本公开提供了一种文本分类装置,该文本分类装置包括:获取模块,用于获取待分类文本;特征值生成模块,用于基于预设的文本类特征和所述待分类文本,生成所述待分类文本的文本类特征的特征值;分类确定模块,用于根据所述文本类特征的特征值,对所述待分类文本进行文本分类处理,得到文本分类结果;所述文本分类结果用于指示指定类型噪声是否存在。

5、第四方面,本公开提供了一种文本识别装置,该文本识别装置包括:词识别模块,用于对获取的待识别文本进行敏感词识别,得到敏感词识别结果;分类模块,用于根据所述待识别文本的文本类特征的特征值,对所述待识别文本进行文本分类处理,生成文本分类结果,所述文本分类结果用于指示指定类型噪声是否存在;结果生成模块,用于根据所述敏感词识别结果和所述文本分类结果,生成所述待识别文本的文本识别结果

6、第五方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器执行,以使至少一个处理器能够执行上述的文本分类方法或文本识别方法。

7、第六方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,计算机程序在被处理器/处理核执行时实现上述的文本分类方法或文本识别方法。

8、本公开所提供的实施例,可以根据预设的文本类特征和待分类文本,生成该待分类文本的文本类特征的特征值,对生成的文本类特征的特征值进行文本分类处理,得到文本分类结果,通过该文本分类结果可以确定待分类文本中是否存在指定类型噪声;该方法可以基于文本类特征对待分类文本中是否存在指定类型噪声进行判定,从而在进行文本识别的处理过程中,可以基于该分类结果减少噪音数据带来的干扰,因此有利于得到客观的文本识别结果。

9、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种文本分类方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述预设的文本类特征包括至少一个文本类特征;所述基于预设的文本类特征和所述待分类文本,生成所述待分类文本的文本类特征的特征值,包括:

3.根据权利要求2所述的方法,其特征在于,所述待分类文本是从预先获取的对话文本中选取的文本;所述至少一个文本类特征包括如下文本类特征中的至少一者:

4.根据权利要求3所述的方法,其特征在于,所述对话文本包括:目标对象的对话文本和与所述目标对象对话的对话对象的对话文本,所述待分类文本为所述目标对象的对话文本;

5.根据权利要求1所述的方法,其特征在于,所述待分类文本属于目标对象的对话文本;所述根据所述文本类特征的特征值,对所述待分类文本进行文本分类处理,得到文本分类结果,包括:

6.根据权利要求5所述的方法,其特征在于,所述预设的画像类特征包括至少一个画像类特征;所述基于预设的画像类特征,得到所述待分类文本对应目标对象的画像类特征的特征值,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述文本类特征的特征值,对所述待分类文本进行文本分类处理,得到文本分类结果,包括:

8.根据权利要求5所述的方法,其特征在于,所述根据所述文本类特征的特征值和所述画像类特征的特征值,对所述待分类文本进行文本分类处理,得到文本分类结果,包括:

9.一种文本识别方法,其特征在于,包括:

10.根据权利要求9所述的方法,其特征在于,包括:

11.根据权利要求9或10所述的方法,其中,所述根据所述敏感词识别结果和所述文本分类结果,生成所述待识别文本的文本识别结果,包括:

12.一种文本分类装置,其特征在于,包括:

13.一种文本识别装置,其特征在于,包括:

14.一种电子设备,其特征在于,包括:

15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-8中任一项、或者权利要求9-11中任一项所述的方法。


技术总结
本公开提供了一种文本分类方法、识别方法及装置、设备、存储介质,该方法包括:获取待分类文本;基于预设的文本类特征和待分类文本,生成待分类文本的文本类特征的特征值;根据文本类特征的特征值,对待分类文本进行文本分类处理,得到文本分类结果;文本分类结果用于指示指定类型噪声是否存在。根据本公开的实施例可以提高文本分类结果准确性。

技术研发人员:李长林,肖冰,曹磊,罗奇帅
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:
技术公布日:2024/2/19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1