一种文本分类后门攻击方法、系统及设备

文档序号：30384188发布日期：2022-06-11 06:05阅读：来源：国知局

技术特征：
1.一种文本分类后门攻击方法，其特征在于，包括：利用干净训练集d
c
对预训练模型进行训练，得到干净模型；利用定位标签生成器删除干净训练样本(x,y)∈d
c
中文本序列x的任一单词w
i
后，输入所述干净模型得到分类结果将所述分类结果与所述文本序列x的源标签y比较，根据比较结果对所述单词w
i
标记，生成伪标签数据集；利用所述伪标签数据集对sequence-to-sequence模型进行多任务训练，得到定位器模型；利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger，生成后门数据集；利用所述后门数据集对所述干净模型训练，得到脏模型。2.如权利要求1所述的文本分类后门攻击方法，其特征在于，所述利用定位标签生成器删除干净训练样本(x,y)∈d
c
中文本序列x的任一单词w
i
后，输入所述干净模型得到分类结果包括：利用所述定位标签生成器依次删除干净训练样本(x,y)∈d
c
中文本序列x＝[w1,w2,w3,...,w
i
,...,w
l
]中的l个单词，生成所述文本序列的候选集其中其中为删除所述文本序列x中第i个单词w
i
后生成的候选集元素；将所述候选集输入所述干净模型中预测，输出每个单词的分类标签分布和预测的标签和预测的标签其中对应分类结果的计算公式如下：c为文本分类任务中标签空间大小。3.如权利要求2所述的文本分类后门攻击方法，其特征在于，所述将所述分类结果与所述文本序列x的源标签y比较，根据比较结果对所述单词w
i
标记，生成伪标签数据集包括：将所述对应分类结果与所述源标签y通过异或操作比较并利用伪定位器标签标记，若则表示将文本序列x中第i个单词w
i
去掉后会改变句子分类结果,则所述文本序列x第i个单词所在位置为攻击位置，其中所述伪定位器标签计算公式如下：计算公式如下：表示每个单词的伪定位器标签，表示第i个单词所在位置为有效攻击位置，则相反；将所有已标记的数据集合，构成所述伪标签数据集d
p
；4.如权利要求3所述的文本分类后门攻击方法，其特征在于，所述利用所述伪标签数据集对sequence-to-sequence模型进行多任务训练，得到定位器模型包括：
所述sequence-to-sequence模型包括一个transformer encoder组件和两个transformer decoder组件；所述多任务训练包括主任务和辅助任务训练，所述主任务训练第一transformer decoder组件，所述辅助任务训练第二transformer decoder组件，所述主任务和所述辅助任务共同训练一个transformer encoder组件；将所述伪标签数据集中的文本序列和对应源掩码输入至所述transformer encoder组件和所述第二transformer decoder组件，产生所述文本序列对应的预测分类标签分布使用损失函数将分类标签分布预测作为辅助任务训练；将所述伪标签数据集中的文本序列和所述源掩码输入至所述transformer encoder组件和所述第一transformer decoder组件，产生所述文本对应的预测定位器标签使用交叉熵损失函数l
ce
将定位器标签预测作为主任务训练；通过最小化损失函数l
total
完成所述sequence-to-sequence模型的训练，得到所述定位器模型；其中，所述源掩码为所述定位器模型的附加输入，定义一个无意义单字词集合s，若文本序列中单词w
i
∈s，则w
i
对应的掩码值m
i
＝0,否则m
i
＝1；所述计算公式如下：所述l
total
计算公式如下：l
total
＝l
ce
+γ
·
l
dist
γ为控制辅助任务权重的参数。5.如权利要求1所述的文本分类后门攻击方法，其特征在于，所述利用所述定位器模型生成后门数据集包括：将所述干净训练集中一个子集输入所述定位器模型中，输出每个攻击位置的概率p，选取k个概率最大的单词作为最终攻击位置，并在所述最终攻击位置增加trigger，得到所述后门数据集。6.如权利要求1所述的文本分类后门攻击方法，其特征在于，所述利用所述后门数据集对所述干净模型训练，得到脏模型后包括：利用所述定位器模型预测干净测试集，得到攻击位置；将所述攻击位置加入trigger，得到后门测试文本；将所述后门测试文本输入所述脏模型中预测，得到后门触发结果。7.一种文本分类后门攻击系统，其特征在于，包括：干净模型训练模块，用于利用干净训练集d
c
对预训练模型进行训练，得到干净模型；伪标签数据集生成模块，用于利用定位标签生成器删除干净训练样本(x,y)∈d
c
中文本
序列x的任一单词w
i
后，输入所述干净模型得到分类结果将所述分类结果与所述文本序列x的源标签y比较，根据比较结果对所述单词w
i
标记，生成伪标签数据集；定位器训练模块，用于利用所述伪标签数据集对sequence-to-sequence模型进行多任务训练，得到定位器模型；后门数据集生成模块，用于利用所述定位器模型预测所述干净数据集的攻击位置并在所述攻击位置加入trigger，生成后门数据集；脏模型生成模块，用于利用所述后门数据集对所述干净模型训练，得到脏模型。8.如权利要求7所述的文本分类后门攻击系统，其特征在于，还包括：预测模块，用于利用所述定位器模型预测干净测试集，得到攻击位置，并在所述攻击位置加入trigger，得到后门测试文本，将所述后门测试文本输入所述脏模型中预测，得到后门触发结果。9.一种文本分类后门攻击方法设备，其特征在于，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述一种文本分类后门攻击方法的步骤。10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的一种文本分类后门攻击方法的步骤。

技术总结
本发明公开了一种文本分类后门攻击方法、系统、设备及计算机存储介质，包括利用干净训练集对预训练模型进行训练，得到干净模型，利用定位标签生成器生成伪标签数据集，利用所述伪标签数据集对Sequence-to-Sequence模型进行多任务训练，得到定位器模型，利用所述定位器模型生成后门数据集，利用所述后门数据集对所述干净模型训练，得到脏模型。本发明实现了利用预训练干净模型在无需人工标注的情况下生成为伪标签数据集；采用基于Sequence-to-Sequence与多任务学习架构的定位器模型，实现了无需人工干预即可动态预测文本序列中后门攻击位置，且动态选取攻击位置取得的性能指标更优异。更优异。更优异。

技术研发人员：陆恒杨周俊康胡聪方伟吴小俊
受保护的技术使用者：江南大学
技术研发日：2022.03.09
技术公布日：2022/6/10

完整全部详细技术资料下载

当前第2页1 2