一种基于高斯分布改进的文本对抗方法与流程

文档序号:33809228发布日期:2023-04-19 13:12阅读:70来源:国知局
一种基于高斯分布改进的文本对抗方法与流程

本发明属于文本对抗处理领域,具体涉及一种基于高斯分布改进的文本对抗方法。


背景技术:

1、深度神经网络(deep neural network,dnn)已经被广泛应用于多个领域(图像、自然语言、语音等),并由于其出色的表现,开始广泛地从学术论文走向现实生产,如物体识别、自动驾驶、语音识别、情感分析等。同时,人们也发现了其极易受到对抗性攻击的脆弱性质。如在图像领域中,只需人为向合法输入中添加少量像素进行干扰,就可使dnn做出错误的预测。因此为了迷惑dnn,人们通过向原始输入中添加不可察觉的恶意扰动,产生对抗样本,让网络做出错误判断,以求进一步提高网络的鲁棒性与可解释性。

2、图像处理领域的对抗攻击多种多样,这是因为很容易在添加攻击的同时保持图像原本表征效果,并顺利达到迷惑dnn的目的。在nlp中,有很多如机器翻译、垃圾邮件筛选等的安全性敏感任务,由于文本的离散性特点,和图像领域相比,它们更易受攻击影响。同时,在生成对抗样本时也存在很多困难,因为稍不严谨的对抗攻击,很容易产生一些奇怪的对抗样本。理想的攻击样本,应当是在很好地迷惑模型时,仍能保证语义相似性和句子正确性。

3、根据基本变化单位的不同,文本对抗方法可以分为字符级别、词级别和句子级别攻击。字符级别攻击通过对字符进行插入、交换、删除等操作来生成对抗样本,而这显然很容易产生错误词汇。句子级别攻击通过对句子进行释义来生成对抗样本,对句子进行大幅修改,这则容易产生语义歪曲的问题。与此相比,词级别攻击通过使用具有类似语义且词性合适的词或短语,替换原始输入句子中的几个词,以产生对抗样本,能更好地保持语义和句子正确性。因此,近期许多工作都转向了词级别的攻击。现有的词级别对抗方法已被证明是组合优化问题,可分为缩减搜索空间与搜索两个阶段。缩减搜索空间的常见方法是为原始样本每个单词准备候选词进行替换,使用这些候选词的组合作为递减的离散搜索空间;搜索则是指在这个递减的搜索空间中找到有效的对抗样本。alzantot等人【alzantot m,sharma y,elgohary a,et al.generating natural language adversarial examples[c]//proceedings of the 2018conference on empirical methods in naturallanguage processing.2018:2890-2896.】使用词嵌入距离加语言模型获得候选词的搜索空间,并使用遗传算法对空间中样本进行搜索优化;ren等人【ren s,deng y,he k,etal.generating natural language adversarial examples through probabilityweighted word saliency[c]//proceedings of the 57th annual meeting of theassociation for computational linguistics.2019:1085-1097.】使用同义词获取候选词,并使用贪心算法进行搜索。

4、由于粒子群优化(pso)算法已被证明能有效解决优化问题,故zang等人【zang y,qi f,yang c,et al.word-level textual adversarial attacking as combinatorialoptimization[c]//proceedings of the 58th annual meeting of the associationfor computational linguistics.2020:6066-6080.】使用与原始词拥有相同义原的替换词构建缩减搜索空间,并最先引入pso算法搜索对抗样本;xu【徐尹翔,陈祺东,孙俊.应用量子行为粒子群优化算法的文本对抗[j].计算机工程与应用,2022,58(9):175-180.】等人在此基础上进行改进,使用量子行为粒子群优化(qpso)算法更有效地进行搜索。这些基于pso的对抗方法均取得了不错的结果。

5、然而,在一些复杂的情况下,尤其是在求解句子中有很多单词的高维优化问题时,这些pso算法经常出现全局搜索能力弱、过早收敛,最终陷入局部最优的情况。其中一个原因在于,这些方法在每次迭代进行搜索时,均只使用均匀分布,搜索范围受限。


技术实现思路

1、本发明旨在解决上述技术问题,提供一种基于高斯分布改进的文本对抗方法。本发明向原使用均匀分布的搜索算法中添加了新的高斯分布项,从而实现在搜索前期在局部进行广泛探索,在后期寻找到全局最优的对抗样本。

2、本发明的技术方案:

3、一种基于高斯分布改进的文本对抗方法,步骤如下:

4、1)对语料库进行词级别标记化(tokenize);

5、2)对各标记(token)进行词形还原(lemmatization),去除词缀,得到词原型;

6、3)使用知网(hownet),获取各标记的词原型的所有概念(sense)的义原树,以及概念对应的词性标签;

7、4)对每一个标记的词原型,筛选其内容词词性作为有效词性,并按词性初始化候选词列表;

8、5)如标记的词原型的内容词词性中无有效词性,或知网查询结果为空,则直接返回初始化的空候选词列表;

9、6)遍历语料库中所有其他标记,寻找与当前标记的词原型的某一概念拥有相同词性和相同义原注释的其他标记的词原型。如找到,则为这个其他标记的词原型添加与当前标记相同的词缀,存入当前标记对应词性的候选词列表中;

10、7)对所有标记完成步骤6)后,得到完整的候选词列表;

11、8)对于一个有d个词的,能被受害模型正确预测的原始输入样本o,开始由它生成相应的一个对抗样本。首先根据原始样本o各个词的词性筛选出候选词列表,如整个样本o中所有词均无候选词,则攻击失败,算法结束;

12、9)对于原始样本o的第j个词xj,仅保留它的候选词列表中,对受害模型伤害度(即在仅将样本o中词xj替换为xj的某个候选词的情况下,受害模型预测该样本为目标错误标签的概率)最大的候选词,作为该原词xj的候选词。对于文本对抗问题,其解空间由句子各位置候选词所有的替换组合形成。通过对原始样本o中所有d个词做上述操作,得到对抗样本的解空间。将每个位置候选词的伤害度进行归一化后,得到各位置的突变概率;

13、10)每一个候选对抗样本,都对应解空间中的一个位置,在应用高斯分布的量子行为粒子群优化(quantum behaved particle swarm optimizationwith gaussiandistribution,gqpso)算法中被称为一个粒子。候选对抗样本被受害模型预测为目标错误标签的概率值,称为在该位置上粒子的优化分数。使用gqpso在解空间中搜索对抗样本时,先初始化一个包含m个粒子的种群,每一个粒子由原始输入样本o中,根据各位置突变概率,随机选择一个原词xj突变为其候选词而来;

14、11)在gqpso算法的第t次迭代时,表示第i个粒子当前在解空间第j维的位置;表示此粒子在从开始迭代直到现在,此粒子达到的最高优化分数的第j维的位置,称个体最优;表示整个种群从开始迭代到目前达到的最高优化分数的第j维的位置,即当前所有中最大者,称全局最优。在离散情况下,使用表示用于引导搜索的吸引子,介于个体和全局最优位置间;使用表示种群平均粒子最好位置,两者计算方式为:

15、

16、

17、

18、其中为由于文本离散性而引入的函数;为符合标准均匀分布的随机数。种群初始化后,即计算各粒子优化分数,为和赋值;

19、12)检查优化分数最高的粒子能否成功迷惑模型将其预测为目标错误标签,如是,则其对应的对抗样本即所要寻找的样本,攻击成功,算法结束;

20、13)在每次迭代中,粒子先进行位置更新,后重复步骤12);如未找到成功的对抗样本,则进行步骤10)中的粒子突变操作,再重复步骤12);如仍未找到,则更新个体与全局最优位置后,开始下次迭代至最大迭代次数t。其中位置更新的具体方法为:

21、

22、首先使用式(4)计算粒子各维暂时位置,和分别是符合标准均匀分布和标准高斯分布的随机数;是大于0的缩放因子,随迭代次数线性递减,以在前期广泛搜索,后期靠近全局最优;αmax,αmin,β均为设定的正值常数。

23、

24、

25、由于值可能在解空间之外,故使用sigmoid(·)函数对其进行转换,称为转移概率如式(5),表示该粒子此维对应的词被替换为个体或全局最优中词的概率,最后使用式(6)完成粒子位置更新;

26、14)如达到最大迭代次数t,则攻击失败,算法结束。

27、本发明的有益效果:提出了一种新的词级别文本对抗方法sememe-gqpso,通过将高斯分布引入到量子行为粒子群优化算法中,有效提升了攻击方法对模型的攻击能力。对比实验证明,本方法在提高攻击成功率,降低修改率的同时,能够生成质量更高的对抗样本,攻击效率更好,将有利于进一步提高网络的鲁棒性与可解释性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1