一种基于GAN的恶意代码检测抗混淆训练方法与流程

文档序号：36409920发布日期：2023-12-18 20:49阅读：57来源：国知局

本发明属于恶意代码检测领域，尤其涉及对于恶意代码混淆样本的检测。

背景技术：

1、恶意代码为了逃避检测和分析人员的分析，往往会采取如无效代码插入、指令替换、控制流程混淆、加密和打包等多种混淆手段产生新的恶意代码变种，来隐藏它的一些特征。因此，在恶意代码检测的研究中，在面对恶意代码混淆样本时，如何提升恶意代码检测模型查准率、提高其鲁棒性，是当下恶意代码检测研究领域的一个重点和难点。

2、受到在深度学习领域中的对抗训练的启发，本发明提出了一种基于gan进行数据增强的恶意代码检测模型抗混淆训练方法。传统的对抗性训练中，对训练样本加入微小的扰动，来提升模型的鲁棒性。本发明提出的方法将使用真实的混淆样本训练gan，使得gan可以从随机分布中生成和真实的混淆集近似但不完全相同的样本，对混淆样本训练集做数据增强，并利用其对恶意代码检测器进行抗混淆训练，以使得恶意代码检测模型面对混淆恶意代码样本时有更高的鲁棒性。最后，由于传统gan的训练不稳定、模式坍塌、训练样本量大等问题。本发明引入了可以满足本文需求的一种训练更加稳定，并且可以进行小样本训练的singan作为本文的生成对抗网络结构。

技术实现思路

1、本发明提出一种基于gan的恶意代码检测抗混淆训练方法，利用singan对小样本的恶意代码混淆样本灰度图像进行数据增强，并利用数据增强后的样本对检测模型进行抗混淆训练，最终得到一个经过抗混淆训练后的恶意代码检测器。

2、本发明提供一种基于gan的恶意代码检测抗混淆训练方法，包括以下步骤：

3、1)训练恶意代码混淆样本生成器，使用少量的恶意代码混淆文件的灰度图像训练singan，为每个恶意代码混淆样本训练一个生成器和判别器；

4、2)抗混淆训练，利用训练好的生成器和判别器，随机输入高斯噪声就可以得到若干不同的新的灰度图像，使用这些图像和训练好的生成器对恶意代码检测模型进行抗混淆训练；

5、进一步地，所述行为训练恶意代码混淆样本生成器和抗混淆训练算法包括：

6、a)初始化恶意代码混淆样本灰度图像数据集t＝{x1,…,xn)}，训练singan时的阶段数n；；

7、b)对于t中的每个恶意代码混淆样本xi，初始化n个阶段的不同生成器判别器以及一组用来计算重建误差的噪声重建误差的计算方式如下

8、

9、其中，gn表示第n个阶段的生成器，z*表示一组固定的噪声输入，xn表示第n个阶段用来训练的真实图像；

10、c)在训练singan的每个阶段，对于t中的每个恶意代码混淆样本xi，以不同的下采样系数对真实的恶意代码图像进行下采样作为该阶段的训练真实图像，将上一阶段的生成器的输出的上采样，同噪声一起输入当前的生成器中；

11、d)固定生成器，使用当前生成器加上噪声生成新的图像，然后训练判别器；

12、e)固定判别器，计算生成器损失，更新生成器的参数；

13、f)训练完成后得到训练好的生成器g，判别器d；

14、g)使用d)训练好的生成器g以及判别器d，给生成器g输入不同的随机噪声z，得到不同的新的恶意代码图像；

15、h)使用d)训练好的判别器d的检验，当判别器判断其为真时，将生成器的输出g(z)其用于对已经训练好的恶意代码检测器dmalware进行抗混淆训练；

16、i)通过输入不同的噪声z，可以得到不同的恶意代码混淆样本图像，利用这些大量生成的灰度图像对恶意代码检测器进行抗混淆训练，最终在达到设定的训练轮次后停止，此时得到一个经抗混淆训练后的恶意代码检测器d′alware。

17、利用本发明的方法可以提高检测混淆恶意代码的鲁棒性，准确率，与现有技术相比具有以下优点：

18、1、本发明提出了一种数据增强方法，相比于原始数据和普通的数据增强方法性能更佳；

19、2、本发明提出了一种数据增强方法，可以大量生成不同类型，不同语言的恶意代码；

20、3、本发明使用singan作为生成对抗网络结构，解决了传统gan训练不稳定、模式坍塌、训练样本量大等问题。

技术特征：

1.一种基于gan的恶意代码检测抗混淆训练方法，其特征在于，包括：

2.根据权利要求1所述的一种基于gan的恶意代码检测抗混淆训练方法，其特征在于，步骤a进一步包括以下步骤：

3.根据权利要求1所述的一种基于gan的恶意代码检测抗混淆训练方法，其特征在于，步骤b进一步包括以下步骤：

技术总结
本发明公开一种基于GAN的恶意代码检测模型抗混淆训练方法，利用sinGAN对小样本的恶意代码混淆样本灰度图像进行数据增强，并利用数据增强后的样本对检测模型进行抗混淆训练。包括：训练恶意代码混淆样本生成器，使用少量的恶意代码混淆文件的灰度图像训练sinGAN，为每个恶意代码混淆样本训练一个生成器和判别器；抗混淆训练：利用训练好的生成器和判别器，随机输入高斯噪声就可以得到若干不同的新的灰度图像，使用这些图像和训练好的生成器对恶意代码检测模型进行抗混淆训练，最终得到一个经过抗混淆训练后的恶意代码检测器；本发明构造的数据增强方法相比于原始数据和普通的数据的增强方法，提供了更好的思路。

技术研发人员：黄星杰,胡威,王婵,尚智婕,苏蓓蓓,董子娴,种旭磊,张茹,刘建毅
受保护的技术使用者：国家电网有限公司信息通信分公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄星杰胡威王婵尚智婕苏蓓蓓董子娴种旭磊张茹刘建毅
技术所有人：北京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。