层级标签文本分类方法、系统、设备及存储介质与流程

文档序号：34090334发布日期：2023-05-07 02:26阅读：42来源：国知局

本发明涉及自然语言处理，具体而言，涉及一种基于多粒度特征提取和标签序列生成的层级标签文本分类方法、系统、设备及存储介质。

背景技术：

1、文本分类是自然语言处理领域中最常见的应用场景，而文本分类可以根据数据对应的标签数量分为单元标签分类任务和多元标签分类任务。进一步地，在多元标签分类任务中，可以根据标签是否包含层级关系分为平行标签分类任务和层级标签分类任务。而在实际应用场景中，大部分的文本分类任务中的标签都含有层级关系，例如文档归类任务中，每个文档的标签通常呈现“目录”形式，包含有粗粒度标签和对应粗粒度标签下的细粒度标签，因此，如何提升层级标签文本分类的性能，解决现实应用场景中的层级标签文本分类任务是一个亟待解决的问题。

2、传统的层级标签文本分类任务通常将其视为多元标签分类任务，主要包括两种处理方式，一种是基于任务转换的思想，将上一级标签、上一级标签和下一级标签的组合都视为一种类别，将层级标签分类任务转化为平行标签分类任务，考虑了层级标签之间的关联性，但是在标签数量较多的时候，会造成标签的维度灾难，另一种是基于算法适应性的思想，将算法改进以适应多元标签分类任务，并且基于神经网络的输出层对每一个标签进行二分类，最终将所有预测得到的标签组合在一起作为输出，这种将层级标签分类转换为平行标签分类的方法的缺点是完全忽视了层级标签之间的关联性。因此，综上可以看到传统的层级标签文本分类任务没有充分利用层级标签之间的关联性以及潜在的粗粒度标签对细粒度标签的限制性。

技术实现思路

1、本发明实施例提供了层级标签文本分类方法、系统、设备及存储介质，有效解决了传统层级标签分类任务中由于没有充分利用层级标签之间的关联性以及潜在的粗粒度标签对细粒度标签的限制性，导致层级标签分类性能差的问题。

2、在第一方面，本发明实施例中提供一种层级标签文本分类方法，所述方法包括以下步骤：

3、(1)基于层级标签分类任务构建序列生成模型，并且对序列生成模型进行预训练；

4、(2)将文本数据输入预训练的序列生成模型，所述序列生成模型对文本数据进行以下处理：

5、(2.1)采用序列生成的方式提取多粒度的文本特征向量；

6、(2.2)采用注意力机制对多粒度的文本特征向量和预测的上一层级标签进行编码，以获取含有上一层级标签信息的编码向量；

7、(2.3)采用时间序列网络对含有上一层级标签信息的编码向量进行解码，以预测下一层级标签向量，并且对上一层级标签进行迭代更新；

8、(2.4)利用掩码操作控制所有层级标签的生成。

9、于上述实施例中，通过充分考虑标签之间的关联性以及潜在的粗粒度标签对细粒度标签的限制性，采用序列生成的方式生成层级标签，将标签信息关联起来，进而能够高效、准确的进行层级标签文本分类；并且，通过采用掩码方式控制层级标签的生成，解决了层级标签生成任务中的不可控性。

10、作为本技术一些可选实施方式，所述序列生成模型采用seq2seq的结构，主要包括编码器和解码器，其中，编码器的作用是将文本数据转换为包含其特征的隐藏向量，解码器的作用则是相反，将包含特征的隐藏向量转化对应的标签。

11、作为本技术一些可选实施方式，对序列生成模型进行预训练的流程如下：

12、(1.1)获取训练数据，并且基于训练数据构建标签词表；

13、(1.2)将标签词表输入序列生成模型，所述序列生成模型为标签词表中的每一个标签分配初始的默认向量；

14、(1.3)将训练数据输入序列生成模型，所述序列生成模型将训练数据中的句子转换为关键词的索引向量。

15、于上述实施例中，通过对序列生成模型进行预训练即对模型进行相应的配置，使得序列生成模型能够快速、准确的按照层级标签分类任务的规则进行层级标签分类。

16、作为本技术一些可选实施方式，采用序列生成的方式提取多粒度的文本特征向量的流程如下：

17、(2.11)将文本数据输入编码器的若干编码层，编码层基于序列生成的方式对文本数据进行编码处理，以得到关键词的文本特征向量；

18、(2.12)对每一编码层的文本特征向量进行求和处理，以得到关键词对应每一编码层的编码向量。

19、作为本技术一些可选实施方式，采用注意力机制对多粒度的文本特征向量和预测的上一层级标签进行编码，以获取含有上一层级标签信息的编码向量的流程如下：

20、(2.21)将上一层级标签向量化，以获得标签向量，所述上一层级标签通过序列生成模型预测得到，并且进行迭代更新；

21、(2.22)通过字符级的编码向量映射得到值向量和键向量，通过标签向量映射得到对应的索引向量；

22、(2.23)基于索引向量和键向量进行交叉注意力计算，以获得注意力权重向量；

23、(2.24)基于注意力权重向量进行归一化计算，以获得归一化权重向量；

24、(2.25)基于归一化权重向量对值向量进行加权求和，以获取含有上一层级标签信息的编码向量。

25、于上述实施例中，从文本数据的多粒度信息中提取特征进行融合，利用注意力机制获取关键词的特性信息，丰富了模型的编码向量所含有的信息，以提升模型的分类效果。

26、作为本技术一些可选实施方式，采用时间序列网络对含有上一层级标签信息的编码向量进行解码，以预测下一层级标签，并且对上一层级标签进行迭代更新的流程如下：

27、(2.31)将含有上一层级标签信息的编码向量输入解码器进行解码，以获得中间向量；

28、(2.32)对中间向量进行线性变换，以获得下一层级标签的预测向量，并且基于预测的下一层级标签对上一层级标签迭代更新，直至所有层级标签预测结束。

29、作为本技术一些可选实施方式，利用掩码操作控制所有层级标签的生成的流程如下：

30、(2.41)对部分预测向量进行掩码处理，以得到指示向量；

31、(2.42)基于预测向量和指示向量计算所有标签的概率值。

32、于上述实施例中，为了解决层级标签分类任务的不可控性，采用掩码处理的方式进行控制，使得层级标签分类任务能够准确的进行。

33、在第二方面，本发明提供一种层级标签文本分类系统，序列生成模型构建单元，所述序列生成模型构建单元基于层级标签分类任务构建序列生成模型；

34、序列生成模型预训练单元，所述序列生成模型预训练单元用于对序列生成模型进行预训练；

35、序列生成模型单元，所述序列生成模型单用于将文本数据输入预训练的序列生成模型，并且对文本数据进行层级标签进行预测；

36、其中，所述序列生成模型单元包括：

37、文本特征向量提取模块，所述文本特征向量提取模块采用序列生成的方式提取多粒度的文本特征向量；

38、注意力机制模块，所述注意力机制模块采用注意力机制对多粒度的文本特征向量和预测的上一层级标签进行编码，以获取含有上一层级标签信息的编码向量；

39、层级标签预测模块，所述层级标签预测模块采用时间序列网络对含有上一层级标签信息的编码向量进行解码，以预测下一层级标签，并且对上一层级标签进行迭代更新；

40、掩码操作控制模块，所述掩码操作控制模块利用掩码操作控制所有层级标签的生成。

41、在第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述一种层级标签文本分类方法。

42、在第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述所述一种层级标签文本分类方法。

43、本发明的有益效果如下：

44、1、通过充分考虑标签之间的关联性以及潜在的粗粒度标签对细粒度标签的限制性，采用序列生成的方式生成层级标签，将标签信息关联起来，进而能够高效、准确的进行层级标签文本分类；并且，通过采用掩码处理的方式控制层级标签的生成，解决了层级标签分类任务中的不可控性。

45、2、通过从文本数据的多粒度信息中提取特征进行融合，利用注意力机制获取关键词的特性信息，丰富了序列生成模型的编码向量所含有的信息，以提升序列生成模型的分类效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：请求不公布姓名
技术所有人：成都数之联科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。