文本分类的方法、装置及电子设备与流程

文档序号:34623511发布日期:2023-06-29 13:06阅读:22来源:国知局
文本分类的方法、装置及电子设备与流程

本申请涉及自然语言处理,尤其涉及一种文本分类的方法、装置及电子设备。


背景技术:

1、文本分类指的是根据文本之间的相似度对文本进行分类。其中,常采用自监督方式完成文本分类,这是因为自监督方式完成文本分类不需要训练过程,以及不需要预先对文档手工标注类别,因此,具有一定的灵活性和较高的自动化处理能力,其已经成为对文本进行有效分类的重要手段。

2、相关技术中,对于文本进行分类时,仅仅使用标注的一级标签作为文本的分类依据,仅采用标注的一级标签作为文本的分类依据,易导致文本分类的准确性较低,因此,如何对文本进行更为精确的分类是本领域技术人员需要解决的技术问题。


技术实现思路

1、本申请提供一种文本分类的方法、装置及电子设备,以提高文本分类的准确度。

2、第一方面,本申请提供一种文本分类的方法,包括:获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签。

3、第二方面,本申请提供一种文本分类的装置,包括:获取模块,用于获取待分类文本,所述待分类文本携带一级标签和二级标签,其中,所述二级标签为所述一级标签的子标签;分词模块,用于对所述待分类文本进行分词,得到与所述待分类文本对应的多个第一词语;确定模块,用于根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词,所述主成分词为所述第一词语中的至少一个;所述获取模块,还用于获取所述主成分词的第一义素向量,所述第一义素向量指示所述主成分词的语义;所述确定模块,还用于基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签。

4、第三方面,本申请提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的方法。

5、第四方面,本申请提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面的方法。

6、可以看出,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,二级标签为一级标签的子标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,主成分词为第一词语中的至少一个,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,也就是说,通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,即以待分类文本中主成分词的义素向量指示的语义作为分类依据从一级标签和二级标签中选择出更适合于该待分类文本的类别标签,提高了待分类文本的分类精确度。



技术特征:

1.一种文本分类的方法,其特征在于,包括:

2.根据权利要求1所述的文本分类的方法,其特征在于,所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签包括:

3.根据权利要求2所述的文本分类的方法,其特征在于,所述基于所述第一词向量、所述第一义素向量、所述第一向量和所述第二向量对所述待分类文本进行分类,得到所述第一类别标签包括:

4.根据权利要求2所述的文本分类的方法,其特征在于,在所述基于所述第一义素向量从所述一级标签和所述二级标签确定所述待分类文本所属的第一类别标签之后,所述方法还包括:

5.根据权利要求4所述的文本分类的方法,其特征在于,根据所述第一词语的所述第四词向量、所述第一向量以及所述第二向量对所述待分类文本进行分类,得到所述待分类文本所属的第二类别标签的具体实现方式有:

6.根据权利要求1所述的文本分类的方法,其特征在于,所述根据所述待分类文本中各第一词语之间的语法关系从所述待分类文本中确定所述待分类文本的主成分词包括:

7.根据权利要求6所述的文本分类的方法,其特征在于,得到所述预训练语言模型的具体过程包括:

8.根据权利要求1所述的文本分类的方法,其特征在于,所述待分类文本为对话机器人与用户进行对话的对话文本,所述对话文本包括所述用户所咨询的业务信息,所述第一类别标签为所述业务信息所属的业务类别标签,在所述基于所述第一义素向量从所述一级标签和所述二级标签中确定所述文本句子所属的第一类别标签之后,所述方法还包括:

9.一种文本分类的装置,其特征在于,包括:

10.一种电子设备,其特征在于,包括:

11.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的文本分类的方法。


技术总结
本申请公开了一种文本分类的方法、装置及电子设备,通过获取待分类文本,其中,待分类文本携带一级标签和二级标签,对待分类文本进行分词,得到与待分类文本对应的多个第一词语,再根据待分类文本中各第一词语之间的语法关系从待分类文本中确定待分类文本的主成分词,再获取该主成分词的第一义素向量,第一义素向量指示主成分词的语义,即通过获取待分类文本中的主成分词可以关注到句子主干,为待分类文本的分类提取出更多的可靠信息,通过获取待分类文本中主成分词的义素向量,可以更细粒度的知晓待分类文本所表达的含义,最后基于第一义素向量从一级标签和二级标签中确定待分类文本所属的第一类别标签,提高了待分类文本的分类精确度。

技术研发人员:白安琪,蒋宁,夏粉,吴海英,肖冰
受保护的技术使用者:马上消费金融股份有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1