一种基于自构建提示模板的文本分类方法和系统与流程

文档序号：37384374发布日期：2024-03-22 10:36阅读：来源：国知局

技术特征：

1.一种基于自构建提示模板的文本分类方法，其特征在于，包括：

2.根据权利要求1所述的基于自构建提示模板的文本分类方法，其特征在于，所述s1构建标签映射词典具体包括：

3.根据权利要求2所述的基于自构建提示模板的文本分类方法，其特征在于，利用已标记的数据集和textcnn-attention模型训练一个基类的文本分类器，抽取部分数据形成类别数平衡的验证集。

4.根据权利要求1所述的基于自构建提示模板的文本分类方法，其特征在于，所述软提示的方法进行模板的生成具体包括：构建的输入模板为：s1＝[u1,u2，...[mask],...um,v1,v2,....vn]，ui为待生成的提示模板的token，vi为输入的训练文本的token，[mask]为类别对应词典中的词语，输入的训练文本为从训练数据中随机抽取生成的。

5.根据权利要求4所述的基于自构建提示模板的文本分类方法，其特征在于，所述s2中的转化的公式为：zi＝transformers(ui,ej)，hi＝relu(mlu(zi))，transfomers为transformer模型，mlu和relu为从bi_lstm编码以后经过的多层感知机和relu激活函数，该模型被为提示编码器，用于对提示模板进行encode编码，除了[mask]的位置，其他token采用随机字向量的初始化，[mask]对应的向量用对应类别标签的词语进行embedding操作，其中ej为位置编码的向量。

6.根据权利要求1所述的基于自构建提示模板的文本分类方法，其特征在于，模型的目标函数包括预测词语的损失函数l1和预测标签的损失函数l2，整体的损失函数为两者的损失函数之和l＝l1+l2，其中u代表词的长度，m代表标签对应词典中词语的个数，pu(y)为模型预测的one-hot编码，pu(yu)为预测概率矩阵；l2为计算的类别标签与预测的类别标签之间的损失函数，其中，pk＝argmaxk(cos(ci,zkm))，cos(·)代表余弦相似函数，pl代表选择相似度最大的词语对应的类别作为第k个类别的概率。

7.一种计算机可读存储介质，其上存储有一或多个计算机程序，其特征在于，该一或多个计算机程序被计算机处理器执行时实施权利要求1-6中任一项所述的方法。

8.一种基于自构建提示模板的文本分类系统，其特征在于，包括：

9.根据权利要求8所述的基于自构建提示模板的文本分类系统，其特征在于，所述标签映射词典构建单元具体配置用于从待测样本中抽取少量样本进行人工标注形成带标签的数据集d1；利用基类模型自带的attention机制对词语进行权重打分，将词典权重大于α的词语加入类别词典，得到类别词典w＝{w11,w12,...wl1....wkm}，其中，wkm代表第k个类别的第m个词语，m为标签映射词典各个类别的最小词典大小，α表示权重阈值；使用已经训练的模型和类别词典对数据进行标签标注；重复上述步骤，每2-3个epoch使用新的训练模型在验证集验证其效果，当验证集的f1值大于预定数值或者某一个类别的词典大小大于预先设定的词语个数m时则停止迭代，利用已标记的数据集和textcnn-attention模型训练一个基类的文本分类器，抽取部分数据形成类别数平衡的验证集。

10.根据权利要求8所述的基于自构建提示模板的文本分类系统，其特征在于，所述模板生成转换单元中所述软提示的方法进行模板的生成具体包括：构建的输入模板为：s1＝[u1,u2，...[mask],...um,v1,v2,....vn]，ui为待生成的提示模板的token，vi为输入的训练文本的token，[mask]为类别对应词典中的词语，输入的训练文本为从训练数据中随机抽取生成的。

11.根据权利要求8所述的基于自构建提示模板的文本分类系统，其特征在于，转化的公式为：zi＝transformers(ui,ej)，hi＝relu(mlu(zi))，transfomers为transformer模型，mlu和relu为从bi_lstm编码以后经过的多层感知机和relu激活函数，该模型被为提示编码器，用于对提示模板进行encode编码，除了[mask]的位置，其他token采用随机字向量的初始化，[mask]对应的向量用对应类别标签的词语进行embedding操作，其中ej为位置编码的向量。

12.根据权利要求8所述的基于自构建提示模板的文本分类系统，其特征在于，模型的目标函数包括预测词语的损失函数l1和预测标签的损失函数l2，整体的损失函数为两者的损失函数之和l＝l1+l2，其中u代表词的长度，m代表标签对应词典中词语的个数，pu(y)为模型预测的one-hot编码，pu(yu)为预测概率矩阵；l2为计算的类别标签与预测的类别标签之间的损失函数，其中，pk＝argmaxk(cos(ci,zkm))，cos(·)代表余弦相似函数，pk代表选择相似度最大的词语对应的类别作为第k个类别的概率。

技术总结
公开了一种基于自构建提示模板的文本分类方法和系统，包括利用self‑attention的方法，利用少量的标记样本和无监督学习的方式构建标签映射词典；利用软提示的方法进行模板的生成，并对模板进行如下转换：使用字向量的平均值代替词向量，使用余弦相似度的方式进行提示词标签的选择，采用transformer模型对输入的提示词进行随机掩码，将transformer模型中的位置向量编码采用乱序输入；利用模板进行文本分类。本发明通过自生成的提示模板能够更好的契合预训练语言模型，相比于传统的文本分类方法，提升了文本分类的泛化性和准确性。

技术研发人员：彭闯,王志永,赵建强,陈诚,陈思萌
受保护的技术使用者：厦门市美亚柏科信息安全研究所有限公司
技术研发日：
技术公布日：2024/3/21

完整全部详细技术资料下载

当前第2页1 2