一种用于神经机器翻译的字符级对抗样本生成方法及装置与流程

文档序号:21639334发布日期:2020-07-29 02:50阅读:来源:国知局

技术特征:

1.一种用于神经机器翻译的字符级对抗样本生成方法,其特征在于,至少包括如下步骤:

从需要翻译的文本中随机选定源语言句子;

根据预设的攻击方式组合随机修改所述源语言句子中的单词,生成对抗样本;

其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击。

2.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,还包括:

分别将所述对抗样本输入至神经机器翻译模型,得到对应的输出结果进行比对,以评估神经机器翻译模型翻译所述对抗样本的翻译质量。

3.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述交换攻击,具体为:

随机选择所述源语言句子中的单词,将该单词中除首字母和尾字母之外的字母进行对称交换顺序,将完成交换攻击后的新单词替换原单词;

其中,该单词的长度不小于4。

4.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述中间随机攻击,具体为:

随机选择所述源语言句子中的单词,将该单词中的首字母和尾字母之外的字母进行重新的随机排序,将完成中间随机攻击后的新单词替换原单词;

其中,该单词的长度不小于4。

5.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述完全随机攻击,具体为:

随机选择所述源语言句子中的单词,将该单词中的所有字母的顺序随机打乱,将完成完全随机攻击后的新单词替换原单词。

6.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述键盘错误攻击,具体为:

随机选择所述源语言句子中的单词,随机选取该单词中的任意字母;

对每一个随机选取的字母均随机选择其对应的键盘临近字符中的一个字符进行替换,将完成键盘错误攻击后的新单词替换原单词。

7.根据权利要求1所述的用于神经机器翻译的字符级对抗样本生成方法,其特征在于,所述预设的攻击方式组合,包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击中的任意一种,以及四种攻击方式之间的全部随机组合。

8.一种用于神经机器翻译的字符级对抗样本生成装置,其特征在于,包括:

攻击目标模块,用于从需要翻译的文本中选定源语言句子;

对抗样本生成模块,用于根据预设的攻击方式组合随机修改所述源语言句子中的单词,生成对抗样本;其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击;

对抗样本翻译模块,用于分别将所述对抗样本输入至神经机器翻译模型,得到对应的输出结果进行比对,以评估神经机器翻译模型翻译所述对抗样本的翻译质量。

9.一种用于神经机器翻译的字符级对抗样本生成的终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的用于神经机器翻译的字符级对抗样本生成方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的用于神经机器翻译的字符级对抗样本生成方法。


技术总结
本发明公开了一种用于神经机器翻译的字符级对抗样本生成方法及装置,所述方法包括:从需要翻译的文本中随机选定源语言句子;根据预设的攻击方式组合随机修改源语言句子的单词,生成对抗样本;其中,所述攻击方式包括交换攻击、中间随机攻击、完全随机攻击和键盘错误攻击。本发明通过交换、中间随机、完全随机、键盘错误四种攻击方式修改源语言句子,在最小程度上对语句进行更改,生成在最大限度上不引发人类察觉的对抗样本,在不需要知晓被攻击模型的内部结构和参数的情况下,仅需要调用神经网络得到翻译译文,使得神经机器翻译模型的翻译质量大大降低,提高对抗样本的成功率,并且极大降低了算法的时间和复杂度,提高对抗样本的生成效率。

技术研发人员:顾钊铨;谢禹舜;伍丹妮;朱斌;仇晶;韩伟红;方滨兴
受保护的技术使用者:广州大学
技术研发日:2020.03.31
技术公布日:2020.07.28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1