一种中文文本中基于词性融合的对抗训练的防御方法

文档序号:31053214发布日期:2022-08-06 08:54阅读:146来源:国知局
一种中文文本中基于词性融合的对抗训练的防御方法

1.本发明属于计算机技术领域,涉及一种中文文本中基于词性融合的对抗训练的防御方法,可以广泛的应用于中文线上媒体平台内容检测模型中。


背景技术:

2.随着智能设备的普及,人们越来越倾向于在社交媒体上交流互动,发表自己的观点。在中文环境下,线上媒体平台内容检测主要借助深度神经网络模型。然而深度神经网络模型存在脆弱性,容易受到对抗样本的攻击,即在原始样本上添加一个精心设计的小扰动可以欺骗模型的分类,使得恶意言论躲避监管,影响公众认知。
3.与图像中修改像素值不同,文本属于离散数据,对文本的扰动易被检测,并且难以保持语义的不变形。此外,中文是由大量的具有独立含义的汉字组成,其中每一个句子的意义直接取决于组成该句子的汉字的意义以及这些汉字在句法上相互关联的方式,这与英文和法文等具有较小规模字母表的字母语言完全不同,因此简单的修改单个汉字可能会极大地改变句子的原始语义,因而导致中文对抗攻击的难度更大。目前中文文本对抗攻击主要是利用同音字、形近字、错别字、顺序替换等的方式替换文本中关键词干扰深度神经网络模型正常决策。
4.对抗训练是防御对抗攻击的一种直接手段,通过将对抗样本加入到正常样本作为模型的训练数据,可以在一定程度上加强模型攻击的鲁棒性。
5.目前,中文中针对对抗样本防御的研究相对较少,大致分为对抗样本检测、对抗训练和模型增强三种方式。例如,wang等人提出一种随机替换编码的防御方法rse,通过随机选择的替换率产生文本的候选单词集,并对其中每个单词做同义词攻击并替换,用新生成的样本训练模型。但是该方案只能防御同义词攻击,无法做到对其他类型攻击的防御;这种现象的主要原因包括:对于对抗样本这种复杂的优化问题,缺乏一个好的理论模型;其次,攻击形式的多样式使得模型的输出难以估计,因此,真正的适应性防御方法是困难的。


技术实现要素:

6.为了提高模型对对抗样本词级攻击识别的准确率和鲁棒性,本发明通过多种词级的对抗攻击生成对抗样本,将对抗样本和原始样本进行混合处理,通过提取数据的词性特征和语义特征形成高级联合特征,然后用混合后的词级攻击样本对模型进行对抗训练。
7.本发明主要包括高级联合表征构建和对抗训练两个部分。在高级联合表征构建部分,需要先利用原始中文文本数据集与对抗样本数据集形成训练集,分别用分词工具从训练集中提取出句子的语义信息和词性信息,并用不同的词嵌入方式编码、拼接为高级联合特征;在对抗训练部分,可以依次选取不同比例的词级对抗攻击样本加入到原始样本中,以高级联合表征为输入数据训练深度神经网络模型。
8.本发明采用如下技术方案以解决上述技术问题:
9.一种中文文本中基于词性融合的对抗训练的防御方法,所述方法包括采集原始中
文文本数据集,采用多种词级的对抗攻击对所述中文文本数据集进行处理,并形成对抗样本数据集;将中文文本数据集与对抗样本数据集进行混合,形成多个训练集;采用中文分词工具从所述训练集中提取出中文文本词语的语义信息和词性信息,以不同的词嵌入方式分别将其编码成语义特征和词性特征,并将所述语义特征和所述词性特征拼接组成高级联合特征,将所述高级联合特征作为神经网络模型的输入数据,进行对抗训练,以最小化对抗损失为目标,训练得到可防御词级攻击的强化模型。
10.本发明的有益效果:
11.本发明能够在不改变模型架构的基础上,通过增加词性特征加强句子中词语间语义和词性的联系,在一定程度上解决现有词级攻击引起的词语词性变化而导致的句子结构变化的现象,提升模型对词级攻击的识别判断能力。
附图说明
12.图1是本发明实施例中文文本中基于词性融合的对抗训练的防御框架图;
13.图2是本发明实施例中文文本中基于词性融合的对抗训练的防御方法流程图;
14.图3是本发明实施例中对抗样本占比变化对textcnn识别准确率的变化图,图3(a)为原始样本识别准确率变化图,图3(b)为对抗样本识别准确率;
15.图4是本发明实施例中对抗样本占比变化对bilstm识别准确率的变化图,图4(a)原始样本识别准确率,图4(b)对抗样本识别准确率。
具体实施方式
16.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
17.下面结合附图和具体实施方式详细描述本发明。
18.图1是本发明实施例的中文文本中基于词性融合的对抗训练的防御框架图,如图1所示,所述框架主要包括四层架构,第一层架构是对抗样本生成,通过对原始数据集进行对抗攻击形成对抗样本数据集;第二层架构是训练集样本生成,对原始数据集和对抗样本数据集进行数据混合形成n个不同的训练集;第三层结构是高级联合特征生成,对这些训练集分别提取出语义信息和词性信息;再分别对语义信息和词性信息进行编码,形成语义特征和词性特征;将语义特征和词性特征进行拼接形成高级联合特征;第四层架构是生成强化模型,利用高级联合特征作为神经网络模型的输入数据,进行对抗训练后能够得到可防御词级攻击的强化模型。
19.图2是本发明实施例的中文文本中基于词性融合的对抗训练的防御方法流程图,如图2所示,所述方法包括:
20.101、采集原始中文文本数据集;
21.在本发明实施例中,所述原始中文文本数据集可以是用户输入的文本,也可以是指定文本存储空间中的文本,该指定文本存储空间中可以存储某一特定应用场景的文本,例如,该指定文本存储空间中存储的微博文本。
22.102、采用多种词级的对抗攻击对所述中文文本数据集进行处理,并形成对抗样本数据集;
23.在本发明实施例中,由于基于词性融合的对抗训练防御方法主要是解决针对中文文本中存在的词级攻击导致的句子结构性破坏问题,因此,为了提高原始模型对非常规句式结构样本分类的准确性,本发明选取包括顺序扰动、添加无效字符等多种攻击策略攻击原始的神经网络模型,从而生成混合词级攻击的对抗样本数据集。
24.103、将中文文本数据集与对抗样本数据集进行混合,形成多个训练集;
25.在本发明实施例中,为了模拟真实的攻击环境,本发明将原始的中文文本数据集与生成的对抗样本数据集进行混合处理,具体的混合比例可以人为选择,混合后,因此可以形成多个不同比例的训练集。
26.上述实施例虽然能够在一定程度上解决原始中文文本数据集和对抗文本数据集的类不平衡问题,但是由于需要人为按照经验来选择混合比例,只能在有限范围内提升模型的准确性,影响模型泛化能力,并且需要人工参与,效率低下。
27.基于此,在本发明的优选实施例中,本发明采用深度学习结合反向传播的方式来获取最优的抽取比例,以该最优抽取比例的对抗样本数据集来替换原始中文文本数据级中的文本数据,结合对抗训练的反向传播过程来更新最优的抽取比例,实现对抗文本的自动化抽取,从而以更细粒度的方式提升模型对对抗样本识别的准确率。
28.104、采用中文分词工具从所述训练集中提取出中文文本词语的语义信息和词性信息,以不同的词嵌入方式分别将其编码成语义特征和词性特征,并将所述语义特征和所述词性特征拼接组成高级联合特征;
29.在本发明实施例中,可以基于自然语言处理技术nlp(natural language processing)工具pyltp对中文文本数据集进行预处理具体包括:输入需要预处理的数据集,载入中文常用的分隔符(中文的标点符号、特殊符号、图表以及中文中常见的停用词),从输入的数据集和分隔符进行正向匹配,数据集中与分隔符匹配成功的文本位置用空格替换字符串,使得最初的文本数据集被分割成由空格隔开的一系列的短字符串。将短字符串输入到pyltp工具中,同时载入通用分词词典,通用分词词典可以选择当前覆盖率较全的百度通用分词词典,或者搜狗通用分词词典,对短字符串进行分词,由于添加了专业词典,分词结果会和普通的分词结果有区别,同时也便于后续得到相关领域的中文词语。对分词结果继续进行词性标注,这些词性标注可以是人名、机构名、地名、时间、数字以及其他类型所标识的实体。
30.在本发明实施例中,可以使用foolnltk中文分词工具对句子分词提取出语义信息序列和词性信息序列,如给定一段分词后长度为n的文本w={x1,x2,

,xn}及其对应的词性标注p={p1,p2,

,pn}。
31.由于深度神经网络模型无法直接处理文本序列,需要将其编码为数值的形式作为模型的输入,因此本发明可以根据不同的词嵌入编码字典将语义序列和词性序列编码为语义向量特征v(s)和词性向量特征v(p)。
32.语义向量特征v(s)具体的嵌入方式为:统计数据集语料库中词频等相关信息,去除文本停用词后,生成文本编码字典,形成词语和数字的一一映射关系,从而将本文转化成长度为n,维度为1的数字向量特征。
33.词性向量特征v(p)的具体嵌入方式为:统计出分词工具foolnltk对文本预处理后词性标注的63种类别,基于语义向量特征嵌入的方式,构造词性与数字一一映射的词性编码字典,如表1所示。对于每个词语的词性标注p都可以转化成对应的数值编码。则句子的词性标注序列可以转化成长度为n,维度为1的词性特征向量。
34.表1词性编码转化表
[0035][0036][0037]
通过上述方式,本发明可以将语义向量特征v(s)和词性向量特征v(p)的融合方式采用早期多模态融合策略(early multimodel fusion,emf),即直接将编码后的语义向量特征和词性向量特征拼接起来。根据拼接方式的不同分为横向融合(horizontal fusion,hf)和纵向融合(vertical fusion,vf)。
[0038]
横向融合表示把v(p)拼接在v(s)的后边,在不改变联合表征维度的同时,增加其长度,如公式所示:
[0039][0040]
纵向融合表示把v(p)与v(s)按位对齐后,拼接在其下方,将两个一维的单一特征融合成二维的融合向量特征,如公式所示:
[0041][0042]
在本发明实施例中,两种融合方式都可以形成高级联合特征,一方面,本发明可以分别使用任意一种高级联合特征来进行对抗训练;另一方面,本发明还可以同时使用两种高级联合特征来进行对抗训练,这种多维度训练方式能够增强模型的泛化能力,保证强化模型的防御能力。
[0043]
105、将所述高级联合特征作为神经网络模型的输入数据,进行对抗训练,以最小化对抗损失为目标,训练得到可防御词级攻击的强化模型。
[0044]
在本发明实施例中,将生成的高级联合特征以及对应的词性标注作为神经网络模型的输入数据,通过对抗训练的方式来优化强化模型。
[0045]
在本发明实施例中,对抗训练的过程主要可以包括利用当前抽取出的原始样本和对抗样本,以最大化分类损失为目标,即尽可能让当前参数的神经网络模型对原始样本和对抗样本的分类预测结果出错;以最小化分布损失为目标,即尽可能让当前参数的神经网络模型对原始样本和对抗样本的分类预测结果一致;通过对抗训练的方式来更新神经网络模型的参数θ;按自适应方式更新对抗样本的抽取比例,更新对抗样本利用更新后的原始样本和对抗样本,优化神经网络模型的参数,在不同抽取过程中,以最大化神经网络模型对对
抗样本识别的准确率为目标,通过反向传播更新抽取比例,并输出最优抽取比例所对应的最优神经网络模型。
[0046]
其中,在本发明实施例中,最优神经网络模型的目标函数表示为:
[0047][0048]
其中,表示采用对抗训练集中对抗样本x

对应的识别准确率,表示原始中文文本训练集,表示对抗样本训练集,θ表示神经网络模型参数,l(x+δx,y;θ)表示原始样本x经过对抗扰动δx生成对抗样本并经过预测得到分类结果y所对应的损失值,表示通过模型最小化损失值来更新模型参数θ,ω表示扰动空间,x表示原始样本,δx表示对抗扰动,x

表示对抗样本。
[0049]
在神经网络模型的训练过程中,可以以前向传播和后向传播的方式来更新模型参数;具体可以参考如下:
[0050]
步骤1)将训练集数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是前向传播的过程,每层的神经元需要接收上层输入的数据,用公式表示为:
[0051]zl
=ω
lal-1
+b
l
,a
l
=σ(z
l
)
[0052]
其中,z
l
表示第l层神经元的输入,ω
l
表示第l-1层神经元连接到第l层神经元的权重,a
l
表示第l层神经元的输出,b
l
表示第l层神经元的的偏置,σ表示激活函数。
[0053]
步骤2)由于神经网络模型的输出结果与实际结果有误差,计算估计值与实际值之间的误差,用公式表示为:
[0054][0055]
其中,x表示输入样本,y表示实际分类,a
l
表示预测的输出,l表示神经网络的最大层数。
[0056]
将总的误差从输出层向隐藏层反向传播,直至传播到输入层;其中,计算输出层产生的错误用公式表示为:
[0057][0058]
其中,

表示hadamard乘积,用于矩阵或向量之间点对点的乘法运算。
[0059]
计算反向传播错误用公式表示为:
[0060]
δ
l
=((ω
l+1
)
t
δ
l+1
)

σ

(z
l
)
[0061]
步骤3)在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛,用公式表示为:
[0062][0063][0064]
其中,μ表示参数学习率,m表示模型总误差对隐藏层权值的偏导。
[0065]
在本发明的优选实施例中,本发明的反向传播过程中,还可以以当前抽取比例所对应的对抗损失进行梯度运算,结合梯度运算的结果对神经网络模型的模型参数进行反向传播,直至神经网络模型收敛,输出当前最优抽取比例下的模型参数,这种方式能够在一定程度上解决对抗样本和原始样本的类不平衡问题,优化模型的训练过程,提升模型的防御能力。
[0066]
可以理解的是,本发明的神经网络模型可以采用卷积神经网络,注意力神经网络,长短时记忆神经网络等常用的网络。
[0067]
在本发明实施例中,采用对照实验,在保证训练集数据总量和各标签类别数据不变的情况下,按照10%的数据占比增速依次用对抗样本数据集中对抗样本替换对应的原始数据,共生成11组对抗训练数据集,将每组对抗训练数据集中的数据以联合表征融合的形式依次输入训练强化模型,并选取其中对原始样本及对抗样本均有良好表现的模型。
[0068]
在jingdong数据集中,分别于textcnn和bilstm模型评估基于词性融合的对抗训练方法对针对文本情感分类任务的防御可行性,表2为bilstm对三种不同特征形式的数据初始准确率:
[0069]
表2模型对三种特征数据初始准确率
[0070][0071]
利用生成的对抗样本数据集依次替换原始训练集中的数据获取不同占比下,模型对对抗样本和原始样本的识别准确率,根据对原始样本和对抗样本识别准确率的相对需求,挑选出符合的模型。根据图3(a)和图4(a)可知,随着训练集中对抗样本的数据占比不断提高,模型textcnn和bilstm对原始样本的分类准确性呈逐渐缓慢下降趋势,但是整体下降幅度很小,对每幅图内部而言,横向融合和纵向融合的整体准确率情况均要优于使用的单一特征时的模型。而对比图3(b)和图4(b),随着训练集中对抗样本的数据占比不断提高,模型textcnn和bilstm对对抗样本的分类准确率有幅度较大的提升,特别是在其所占比重较大时,其准确率逐渐趋于稳定,较最初的准确率能上涨15个百分点左右,针对每幅图内部而言,融合的联合表征模型与单一特征的模型之间准确率有明显的差距,但是横向融合和纵向融合之间的差距不大。
[0072]
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0073]
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0074]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1