文本分类方法、装置、电子设备及存储介质与流程

文档序号:35916648发布日期:2023-10-30 09:23阅读:51来源:国知局
文本分类方法、装置、电子设备及存储介质与流程

本申请涉及文本处理,尤其涉及一种文本分类的方法、装置、电子设备及存储介质。


背景技术:

1、文本分类是指在给定的分类体系下,根据文本内容自动识别文本类型的过程。文本分类是计算机自然语言处理中比较基础的研究方向,目前也已经有了比较多的研究和成果,较为常见的方式是基于关键词搜索或者机器学习模型等技术来实现文本分类。但是现有技术因为受训练数据质量和文本类型多样性的影响,往往难以保证分类结果的准确性和效率。如何精确、高效地确定文本的类型成为亟待解决的问题。


技术实现思路

1、为了解决上述技术问题,本申请实施例提供了一种文本分类方法、装置、电子设备及存储介质。

2、第一方面,本申请实施例提供了一种文本分类方法,所述方法包括:

3、通过分类模型获得待分类文本的模型分类概率值;

4、根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词;

5、根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值;

6、根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重;

7、根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值;

8、根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。

9、在一实施方式中,所述根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词,包括:

10、根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值;

11、通过关键词提取算法和所述关键词提取阈值获取所述待分类文本的关键词。

12、在一实施方式中,所述根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值,包括:

13、当所述待分类文本的模型分类概率值大于所述模型分类预设阈值时,获取第一提取阈值为所述关键词提取阈值;

14、当所述待分类文本的模型分类概率值小于所述模型分类预设阈值时,获取第二提取阈值为所述关键词提取阈值。

15、在一实施方式中,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重,包括:

16、根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重。

17、在一实施方式中,所述根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重,包括:

18、当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第一概率权重为所述综合概率权重;

19、当所述模型分类概率值大于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第二概率权重为所述综合概率权重;

20、当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值大于所述关键词分类预设阈值时,获取第三概率权重为所述综合概率权重;

21、当所述模型分类概率值小于所述模型分类预设阈值,且所述关键词分类概率值小于所述关键词分类预设阈值时,获取第四概率权重为所述综合概率权重。

22、在一实施方式中,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值,包括:

23、获得所述待分类文本的所述模型分类概率值及其综合概率权重的第一乘积,以及所述关键词分类概率值及其综合概率权重的第二乘积;

24、根据所述第一乘积和所述第二乘积,生成所述待分类文本的综合分类概率值。

25、在一实施方式中,所述根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型,包括:

26、将所述待分类文本的所述综合分类概率值中最高概率值对应的预设类型确定为所述待分类文本的类型;

27、或者,将所述待分类文本的所述综合分类概率值中超过综合分类预设阈值的概率值对应的预设类型确定为所述待分类文本的类型。

28、第二方面,本发明实施例提供了一种文本分类装置,所述装置包括:

29、模型分类概率获得模块,用于通过分类模型获得待分类文本的模型分类概率值;

30、关键词获取模块,用于根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词;

31、关键词分类概率获得模块,用于根据所述待分类文本的关键词以及预设类型的特征词,获得所述待分类文本的关键词分类概率值;

32、综合概率权重确定模块,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重;

33、综合分类概率获得模块,用于根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值;

34、分类模块,用于根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型。

35、第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的文本分类方法。

36、第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的文本分类方法。

37、上述本申请提供的文本分类方法、装置、电子设备及存储介质,利用待分类文本的模型分类概率值与模型分类预设阈值的比较结果来调节待分类文本的关键词提取阈值,从而动态控制待分类文本的关键词的提取范围,进而调节待分类文本的关键词分类概率值的精度。然后再根据待分类文本的模型分类概率值和关键词分类概率值与各自预设阈值的比较结果来调节综合概率权重。最后根据模型分类概率值、关键词分类概率值和综合概率权重确定待分类文本的综合分类概率值。本发明综合利用了模型分类结果和关键词分类结果来推导待分类文本的类型,避免了由单一分类方法造成误判和漏判的情况,提高了文本分类的准确率和客观性。



技术特征:

1.一种文本分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的关键词提取阈值获取所述待分类文本的关键词,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据所述待分类文本的所述模型分类概率值与模型分类预设阈值的关系,确定所述待分类文本的关键词提取阈值,包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值确定综合概率权重,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述模型分类概率值与模型分类预设阈值的关系,以及所述关键词分类概率值与关键词分类预设阈值的关系,确定所述综合概率权重,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的所述模型分类概率值和所述关键词分类概率值,以及所述综合概率权重,获得所述待分类文本的综合分类概率值,包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述待分类文本的所述综合分类概率值,确定所述待分类文本的类型,包括:

8.一种文本分类装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器运行时执行权利要求1至7中任一项所述的文本分类方法。

10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的文本分类方法。


技术总结
本申请实施例提供了一种文本分类的方法、装置、电子设备及存储介质,其中方法包括:利用待分类文本的模型分类概率值与模型分类预设阈值的比较结果来调节待分类文本的关键词提取阈值,从而动态控制待分类文本的关键词的提取范围,进而调节待分类文本的关键词分类概率值的精度。然后再根据待分类文本的模型分类概率值和关键词分类概率值与各自预设阈值的比较结果来调节综合概率权重。最后根据模型分类概率值、关键词分类概率值和综合概率权重确定待分类文本的综合分类概率值。本发明综合利用了模型分类结果和关键词分类结果来推导待分类文本的类型,避免了由单一分类方法造成误判和漏判的情况,提高了文本分类的准确率和客观性。

技术研发人员:刘吉
受保护的技术使用者:南京文易科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1