长文本分类方法、电子设备和存储介质与流程

文档序号:33949116发布日期:2023-04-26 09:59阅读:41来源:国知局
长文本分类方法、电子设备和存储介质与流程

本申请涉及人工智能,具体而言,涉及长文本分类方法、电子设备和存储介质。


背景技术:

1、随着科学技术的飞速发展,人工智能(artificial intelligence,ai)技术越来越得到人们的重视。其中,自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向,主要用于研究人与计算机之间用自然语言进行有效通信的各种理论和方法。在实际应用中,nlp通常可以用于机器翻译、机器人问答、知识图谱等技术领域。

2、在nlp的相关技术中,对文本进行分类,从而识别该文本所属的分类类别是重要分支。目前对文本进行分类的技术方案主要应用于对短文本进行分类,这些技术方案在对长文本进行分类时的准确率通常较低。


技术实现思路

1、本申请实施例的目的在于提供长文本分类方法、电子设备和存储介质,用于解决现有技术中的问题。

2、本申请实施例第一方面提供了一种长文本分类方法,所述方法包括:

3、提取长文本语料中的各个关键词;

4、通过所提取的各个关键词的拼接,生成拼接语料;

5、获取所述拼接语料的向量表示;

6、将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,以通过所述长文本分类模型对待分类长文本进行分类。

7、于一实施例中,通过所提取的各个关键词的拼接,生成拼接语料,具体包括:

8、将所提取的各个关键词,根据在所述长文本语料中的先后顺序进行拼接,以生成所述拼接语料。

9、于一实施例中,获取所述拼接语料的向量表示,具体包括:

10、将所述拼接语料输入至bert模型,并获取所述bert模型的输出,作为所述拼接语料的向量表示。

11、于一实施例中,提取长文本语料中的各个关键词,具体包括:

12、将所述长文本语料输入至lda分词模型,并获取所述lda分词模型的输出,作为所提取的各个关键词。

13、于一实施例中,所述方法还包括:

14、从语料库获取原始长文本语料;

15、通过剔除所述述原始长文本语料中的停用词,以生成所述长文本语料。

16、于一实施例中,在提取长文本语料中的各个关键词之后,所述方法还包括:

17、确定各个关键词在所述长文本语料中的tf-idf值;

18、根据各个关键词所对应的tf-idf值的大小,从各个关键词中选取出多个高频关键词,其中,所述高频关键词具体包括tf-idf值大于预设阈值的关键词,或根据tf-idf值从大到小的顺序进行排名时,名次大于预设名次的关键词;以及,

19、通过所提取的各个关键词的拼接,生成拼接语料,具体包括:

20、通过从各个关键词中所选取出多个高频关键词的拼接,生成拼接语料。

21、于一实施例中,将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,具体包括:

22、将所述向量表示和所述长文本语料的分类标签作为样本,添加至训练集;

23、利用所述训练集中的各个样本对待训练模型进行训练,以生成所述长文本分类模型,其中,所述待训练模型具体包括textcnn模型或svm模型。

24、于一实施例中,所述方法还包括:

25、获取待分类长文本;

26、提取所述待分类长文本中的各个关键词;

27、将所述待分类长文本中的各个关键词进行拼接,以生成第二拼接语料;

28、获取所述第二拼接语料的向量表示;

29、将所述第二拼接语料的向量表示输入至所述长文本分类模型,并获取所述长文本分类模型的输出,作为所述待分类长文本的分类标签。

30、本申请实施例第二方面提供了一种电子设备,包括:

31、存储器,用以存储计算机程序;

32、处理器,用以执行本申请方法实施例中任一项所述的方法。

33、本申请实施例第三方面提供了一种存储介质,包括:程序,当其在电子设备上运行时,使得电子设备可执行本申请方法实施例中任一项所述的方法。

34、采用本申请实施例所提供的长文本分类方法,包括先提取长文本语料中的各个关键词,然后通过所提取的各个关键词的拼接,生成拼接语料,然后获取该拼接语料的向量表示,然后将该向量表示和该长文本语料的分类标签作为样本,从而用于生成长文本分类模型,这样能够通过该长文本分类模型对待分类长文本进行分类,从而提高长文本分类时的准确率。



技术特征:

1.一种长文本分类方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,通过所提取的各个关键词的拼接,生成拼接语料,具体包括:

3.根据权利要求1所述的方法,其特征在于,获取所述拼接语料的向量表示,具体包括:

4.根据权利要求1所述的方法,其特征在于,提取长文本语料中的各个关键词,具体包括:

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,在提取长文本语料中的各个关键词之后,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,具体包括:

8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

9.一种电子设备,其特征在于,包括:

10.一种存储介质,其特征在于,包括:程序,当其在电子设备上运行时,使得电子设备可执行如权利要求1至7中任一项所述的方法。


技术总结
本申请提供长文本分类方法、电子设备和存储介质。该方法包括:提取长文本语料中的各个关键词;通过所提取的各个关键词的拼接,生成拼接语料;获取所述拼接语料的向量表示;将所述向量表示和所述长文本语料的分类标签作为样本,用于生成长文本分类模型,这样能够通过该长文本分类模型对待分类长文本进行分类,从而提高长文本分类时的准确率。

技术研发人员:胡卉,周彧
受保护的技术使用者:重庆新致金服信息技术有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1