一种基于自构建提示模板的文本分类方法和系统与流程

文档序号:37384374发布日期:2024-03-22 10:36阅读:12来源:国知局
一种基于自构建提示模板的文本分类方法和系统与流程

本发明涉及文本分类的,尤其是一种基于自构建提示模板的文本分类方法和系统。


背景技术:

1、文本分类一直是自然语言处理领域中最受关注的任务之一,传统的文本分类的任务大致分为两类,一类基于自训练模型的文本分类方法,即利用大量有标签的样本,通过机器学习或者深度学习建模的方式进行训练,通过训练的模型对目标句子的进行类别划分,主要包括svm、textcnn、rnn、transorformer、gcn等文本分类模型。另一类则是在已有预训练模型进行微调并进行文本分类,近年来随着诸如gpt3、ernie等大语言模型的开源,利用这些预训练模型进行微调而得到的情感分类模型的效果与泛化性相比于自训练的模型有着巨大的提升。

2、在已有的基于预训练模型的文本分类的研究中,大部分的分类方法都是通过将输入文本的词或者字进行encode转化,然后对encode后的特定的高维向量进行全连接和softmax操作得到相应的类别标签。但是这种微调方法有两个明显的缺点:第一,数据标注成本高:要充分利用预训练模型的性能就需要大量的标注数据,这使得模型的标注和训练成本较高。第二,encode的向量压缩可能无法有效的利用文本间的相互信息造成信息丢失问题,例如利用bert的文本分类中常常用[cls]代表的编码进行向量压缩表示,模型可能会丢失一些细节或者上下文的信息。第三,模型通过有监督训练的数据空间的迭代效率与模型大小成反比,即预训练模型越大,向数据空间迁移的难度就越高。


技术实现思路

1、为了解决现有技术中文本分类的数据标注成本高、无法有效的利用文本间的相互信息造成信息丢失问题等诸多技术问题,本发明提出了一种基于自构建提示模板的文本分类方法和系统,以解决上述技术问题。

2、根据本发明的第一方面,提出了一种基于自构建提示模板的文本分类方法,包括:

3、s1:利用self-attention的方法,利用少量的标记样本和无监督学习的方式构建标签映射词典;

4、s2:利用软提示的方法进行模板的生成,并对模板进行如下转换:使用字向量的平均值代替词向量,使用余弦相似度的方式进行提示词标签的选择,采用transformer模型对输入的提示词进行随机掩码,将transformer模型中的位置向量编码采用乱序输入:

5、s3:利用模板进行文本分类。

6、在具体的实施例中,s1构建标签映射词典具体包括:

7、s11:从待测样本中抽取少量样本进行人工标注形成带标签的数据集d1;

8、s12:利用基类模型自带的attention机制对词语进行权重打分,将词典权重大于α的词语加入类别词典,得到类别词典w={w11,w12,...wk1…wkm},其中,wkm代表第k个类别的第m个词语,m为标签映射词典各个类别的最小词典大小,α表示权重阈值:

9、s13:使用已经训练的模型和类别词典对数据进行标签标注;

10、s14:重复上述步骤,每2-3个epoch使用新的训练模型在验证集验证其效果,当验证集的f1值大于预定数值或者某一个类别的词典大小大于预先设定的词语个数m时则停止迭代。

11、在具体的实施例中,利用已标记的数据集和textcnn-attention模型训练一个基类的文本分类器,抽取部分数据形成类别数平衡的验证集。

12、在具体的实施例中,软提示的方法进行模板的生成具体包括:构建的输入模板为:s1=[u1,u2,…[mask],...um,v1,v2,....vn],ui为待生成的提示模板的token,vi为输入的训练文本的token,[mask]为类别对应词典中的词语,输入的训练文本为从训练数据中随机抽取生成的。

13、在具体的实施例中,s2中的转化的公式为:zi=transformers(ui,ej),hi=relu(mlu(zi)),transfomers为transformer模型,mlu和relu为从bi_lstm编码以后经过的多层感知机和relu激活函数,该模型被为提示编码器,用于对提示模板进行encode编码,除了[mask]的位置,其他token采用随机字向量的初始化,[mask]对应的向量用对应类别标签的词语进行embedding操作,其中ej为位置编码的向量。

14、在具体的实施例中,模型的目标函数包括预测词语的损失函数l1和预测标签的损失函数l2,整体的损失函数为两者的损失函数之和l=l1+l2,其中u代表词的长度,m代表标签对应词典中词语的个数,pu(y)为模型预测的one-hot编码,pu(yu)为预测概率矩阵;l2为计算的类别标签与预测的类别标签之间的损失函数,其中,pk=argmaxk(cos(ci,zkm)),cos(·)代表余弦相似函数,pk代表选择相似度最大的词语对应的类别作为第k个类别的概率。

15、根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述的方法。

16、根据本发明的第三方面,提出了一种基于自构建提示模板的文本分类系统,包括:

17、标签映射词典构建单元:配置用于利用self-attention的方法,利用少量的标记样本和无监督学习的方式构建标签映射词典;

18、模板生成转换单元:配置用于利用软提示的方法进行模板的生成,并对模板进行如下转换:使用字向量的平均值代替词向量,使用余弦相似度的方式进行提示词标签的选择,采用transformer模型对输入的提示词进行随机掩码,将transformer模型中的位置向量编码采用乱序输入;

19、文本分类单元:配置用于利用模板进行文本分类。

20、在一些具体的实施例中,标签映射词典构建单元具体配置用于从待测样本中抽取少量样本进行人工标注形成带标签的数据集d1;利用基类模型自带的attention机制对词语进行权重打分,将词典权重大于α的词语加入类别词典,得到类别词典w={w11,w12,...wk1…wkm},其中,wkm代表第k个类别的第m个词语,m为标签映射词典各个类别的最小词典大小,α表示权重阈值;使用已经训练的模型和类别词典对数据进行标签标注;重复上述步骤,每2-3个epoch使用新的训练模型在验证集验证其效果,当验证集的f1值大于预定数值或者某一个类别的词典大小大于预先设定的词语个数m时则停止迭代,利用已标记的数据集和textcnn-attention模型训练一个基类的文本分类器,抽取部分数据形成类别数平衡的验证集。

21、在一些具体的实施例中,模板生成转换单元中软提示的方法进行模板的生成具体包括:构建的输入模板为:s1=[u1,u2,…[mask],...um,v1,v2,....vn],ui为待生成的提示模板的token,vi为输入的训练文本的token,[mask]为类别对应词典中的词语,输入的训练文本为从训练数据中随机抽取生成的。

22、在一些具体的实施例中,转化的公式为:zi=transformers(ui,ej),hi=relu(mlu(zi)),transfomers为transformer模型,mlu和relu为从bi_lstm编码以后经过的多层感知机和relu激活函数,该模型被为提示编码器,用于对提示模板进行encode编码,除了[mask]的位置,其他token采用随机字向量的初始化,[mask]对应的向量用对应类别标签的词语进行embedding操作,其中ej为位置编码的向量。

23、在一些具体的实施例中,模型的目标函数包括预测词语的损失函数l1和预测标签的损失函数l2,整体的损失函数为两者的损失函数之和l=l1+l2,其中u代表词的长度,m代表标签对应词典中词语的个数,pu(y)为模型预测的one-hot编码,pu(yu)为预测概率矩阵;l2为计算的类别标签与预测的类别标签之间的损失函数,其中,pk=argmaxk(cos(ci,zkm)),cos(·)代表余弦相似函数,pk代表选择相似度最大的词语对应的类别作为第k个类别的概率。

24、本发明提出了一种基于自构建提示模板的文本分类方法和系统,提出了类别标签词典的自构建,利用transformer模型进行提示模板模型的构建方法。基于提示学习的文本分类方法首先弥补了现有文本分类模型训练效率低,训练过程需要依赖大量训练数据的缺点,能够有效利用已训练好的预训练模型的资源,其次基于提示学习的模型能够更好地理解文本的语义和上下文信息。通过学习从提示信息到目标类别的映射,模型可以学习到更丰富的语义表达,从而提高文本分类的准确性和泛化能力,最后提示学习通过在训练过程中引入不同的提示信息,基于提示学习的模型可以更好地抵抗对抗性攻击。这对于在一些敏感或安全性要求较高的应用场景中是非常重要的优势。基于提示学习的文本分类可以广泛应用于大模型的任务迁移,情感分析、涉案分析等多种场景。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1