一种基于多模态自适应特征选取方法的对抗样本生成方法与流程

文档序号：36029493发布日期：2023-11-17 15:46阅读：44来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及对抗样本生成方法，尤其涉及一种基于多模态自适应特征选取方法的对抗样本生成方法。

背景技术：

1、目前的音频检测方法发展迅速，不断地增加对抗扰动的隐写难度，常规的对抗样本的生成通常采用如下方法：

2、①依据单一模态：现有对抗样本的生成方法，多从单模态即音频模态出发，将扰动信息添加到频谱图中，其添加的特征也只能以音频帧或其他音频信息为依据；这类常规方法难以逃过现有检测方法；

3、②扰动硬添加：常规的对抗样本生成方法大多执行硬添加的策略，即选取位置固定，将扰动信息添加固定的音频帧中，这样的方法易被检测方进行针对，隐蔽性、随机性差；

4、③编码器耦合：现有方法的加噪方式，编码器通常负责大部分工作包括编码、加扰动等，而解码器只负责还原音频；造成了计算量大、效率低下问题；且参数量太大，对部署也造成了困难。

5、经检索，中国专利申请号为cn202011544521.5的专利，公开了一种基于动态调度的对抗样本生成方法及装置，包括：获取多个原始样本数据和深度学习模型；基于对抗样本生成任务以及对抗样本生成任务与对抗样本生成算法之间的对应关系，在预设算法库中匹配对应的至少一个对抗样本生成算法；根据对抗样本生成任务的预设执行数量以及各个对抗样本生成任务的优先级，调度对抗样本生成任务；根据对抗样本生成算法的算法参数以及当前对抗样本生成任务的配置参数，调度预设算法库中对抗样本生成算法；基于封装的模型及调度算法，依次执行当前对抗样本生成任务，生成对应的对抗样本。上述专利中的跨类别视频时间定位方法存在以下不足：其抗检测的能力不足，还有待改进。

技术实现思路

1、本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于多模态自适应特征选取方法的对抗样本生成方法。

2、为了实现上述目的，本发明采用了如下技术方案：

3、一种基于多模态自适应特征选取方法的对抗样本生成方法，具体采用以下方案：

4、依据多个模态，依据对抗样本生成原理，相关模态有文本、音频、和频谱图等；通过多个模态提供的丰富信息，进一步增加对抗扰动的隐蔽性；

5、结合自适应特征选取方法，对模态特征依据扰动添加效果进行划分，主要分为必要特征、无用特征和中立有用特征等；使得在添加扰动时目标更加清晰明了；

6、生成对抗机制，用音频检测的sota方法作为判别器；增加额外的微调模块对生成的隐变量结果进行基于音频的适当自适应调整；

7、利用掩码自编码器，减少因多个模态的融入造成的计算量加大，在计算量、运行速度上进行提升。

8、优选的：所述对抗样本生成方法，包括如下步骤：

9、s1：多模态特征提取；

10、s2：掩码自编码；

11、s3：特征选取；

12、s4：对抗评估；

13、s5：扰动添加。

14、优选的：所述s1步骤中，使用文本、音频、图像三种模态，使用预训练模型从三种模态中提取出初始信息；其中文本模态采用bert预训练模型，音频模态采用wav2vec预训练模型，图像模态采用inceptionnet预训练模型；只采用预训练模型的编码部分，得到中间的隐变量编码结果。

15、优选的：所述s2步骤中，首先得到多模态特征提取结果后，将其中部分信息进行掩码，将剩余信息依据模态进行分别拼接；将拼接好的结果分别输入联合编码器中；其中，联合编码器采用堆叠的transformer编码器，出于对模型效果和运行速度的折中，编码器堆叠数量指定为六个。

16、优选的：所述s2步骤中，分别先经过三个不同的线性层，将三种模态信息映射到同一维度，送入到联合编码器当中，其中联合编码器采用变分推断编码器的结构；

17、将联合编码器得到的更深层表示进行池化操作，将两两模态之间的池化结果进行对比损失计算，在从三种模态之间提取出共通的主要影响特征。

18、优选的：所述s2步骤中，最后将主要特征添加上掩码信息，一起送入到联合解码器中，分别还原为图像、文本、音频模态，保证解码器能依据主要特征预测全部的信息，同时能从主要特征分别还原为三种模态，保证模型的重构不变性。

19、优选的：所述s3步骤中，将提取出的主要特征送入到特征选取模块；将添加扰动的特征分为有用特征和无用特征；

20、其中，有用特征是添加扰动后，难以被识别模型检测出且听感没有明显下降，能隐蔽保留扰动的特征；反之则为无用特征。

21、优选的：所述s3步骤中，采用dnn网络构建自适应的特征分类方法，依据不同的伪造原始样本将特征进行三类别的分类，其分类过程具体包括：

22、s31：先从全部特征中初步提取出部分的有用特征；

23、s32：将剩余特征进行分类，提取出全部的无用特征；

24、s33：再从剩余特征中彻底划分为有用特征和中立有用特征，将这一步部分有用特征和第一步的有用特征结果加在一起作为全部的有用特征分类结果。

25、优选的：所述s4步骤在模型训练过程中作为特征选取的辅助部分，负责使用识别模型的sota方法对选取的特征进行评估，整体采用生成对抗机制的思想，将识别模型作为判别器，判别添加扰动后的特征在解码后的结果是否为假；在让特征选取模块能有效分类出有用特征，保证扰动添加的隐蔽性和可变性；联合编码器只需要将中间特征编码为音频模态即可。

26、优选的：所述s5步骤中，扰动添加过程采用扩散模型，采用条件扩散模型，将扰动信息作为条件输入，逐步去噪，生成对应的带干扰的中间特征交给联合编码器解码，还原为对应音频形式。

27、本发明的有益效果为：

28、1.本发明摒弃常规的单一模态方法，采用多模态特征提取，模态之间相互补充和增强，依据更多的特征信息，增强添加扰动的多样性，提升对抗样本的抗检测能力。

29、2.本发明使用掩码自编码器，将特征提取和特征预测功能进行解耦，减少模型整体的参数量，增强了可部署性；同时极大的减少了计算量、加快运行速度；由于特征提取功能在编码器上的解耦，在模型效果上也有提升。

30、3.本发明自适应的特征选取方法，不在像过去那种采用固定的扰动添加方式，能依据原始样本采取改变，选取有用特征信息添加扰动；增强了扰动添加的多样性、加大了对抗样本的抗检测性。

31、4.本发明使用扩散模型添加扰动信息，与常规方法相比保证了扰动添加的隐蔽性，音频效果也更自然流畅。

技术特征：

1.一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，具体采用以下方案：

2.根据权利要求1所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述对抗样本生成方法，包括如下步骤：

3.根据权利要求2所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s1步骤中，使用文本、音频、图像三种模态，使用预训练模型从三种模态中提取出初始信息；其中文本模态采用bert预训练模型，音频模态采用wav2vec预训练模型，图像模态采用inceptionnet预训练模型；只采用预训练模型的编码部分，得到中间的隐变量编码结果。

4.根据权利要求2所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s2步骤中，首先得到多模态特征提取结果后，将其中部分信息进行掩码，将剩余信息依据模态进行分别拼接；将拼接好的结果分别输入联合编码器中；其中，联合编码器采用堆叠的transformer编码器，出于对模型效果和运行速度的折中，编码器堆叠数量指定为六个。

5.根据权利要求4所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s2步骤中，分别先经过三个不同的线性层，将三种模态信息映射到同一维度，送入到联合编码器当中，其中联合编码器采用变分推断编码器的结构；

6.根据权利要求5所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s2步骤中，最后将主要特征添加上掩码信息，一起送入到联合解码器中，分别还原为图像、文本、音频模态，保证解码器能依据主要特征预测全部的信息，同时能从主要特征分别还原为三种模态，保证模型的重构不变性。

7.根据权利要求2所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s3步骤中，将提取出的主要特征送入到特征选取模块；将添加扰动的特征分为有用特征和无用特征；

8.根据权利要求7所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s3步骤中，采用dnn网络构建自适应的特征分类方法，依据不同的伪造原始样本将特征进行三类别的分类，其分类过程具体包括：

9.根据权利要求2所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s4步骤在模型训练过程中作为特征选取的辅助部分，负责使用识别模型的sota方法对选取的特征进行评估，整体采用生成对抗机制的思想，将识别模型作为判别器，判别添加扰动后的特征在解码后的结果是否为假；在让特征选取模块能有效分类出有用特征，保证扰动添加的隐蔽性和可变性；联合编码器只需要将中间特征编码为音频模态即可。

10.根据权利要求2所述的一种基于多模态自适应特征选取方法的对抗样本生成方法，其特征在于，所述s5步骤中，扰动添加过程采用扩散模型，采用条件扩散模型，将扰动信息作为条件输入，逐步去噪，生成对应的带干扰的中间特征交给联合编码器解码，还原为对应音频形式。

技术总结
本发明公开了一种基于多模态自适应特征选取方法的对抗样本生成方法，涉及对抗样本生成方法技术领域；具体采用以下方案：依据多个模态，依据对抗样本生成原理，相关模态有文本、音频、和频谱图等；通过多个模态提供的丰富信息，进一步增加对抗扰动的隐蔽性；结合自适应特征选取方法，对模态特征依据扰动添加效果进行划分，主要分为必要特征、无用特征和中立有用特征等；使得在添加扰动时目标更加清晰明了；生成对抗机制，用音频检测的SOTA方法作为判别器。本发明摒弃常规的单一模态方法，采用多模态特征提取，模态之间相互补充和增强，依据更多的特征信息，增强添加扰动的多样性，提升对抗样本的抗检测能力。

技术研发人员：温正棋,戚鑫
受保护的技术使用者：北京中科智极科技有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：温正棋戚鑫
技术所有人：北京中科智极科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。