一种基于特征图像化处理的PE恶意软件检测方法和系统

文档序号:37345526发布日期:2024-03-18 18:20阅读:11来源:国知局
一种基于特征图像化处理的PE恶意软件检测方法和系统

本发明属于人工智能,尤其涉及一种基于特征图像化处理的pe恶意软件检测方法和系统。


背景技术:

1、当前,网络基础设施、关键业务系统成为黑客和不法人员实施定向攻击的重点目标,新型未知恶意软件成为实施网络攻击的重要手段。据国家计算机网络应急技术处理协调中心(cncert)在2021年5月发表的《2020年我国互联网网络安全态势综述》[1]指出,cncert在2020全年捕获计算机恶意程序样本数量超过4200万个,日均传播次数达482万余次,涉及计算机恶意程序家族近34.8万个。

2、传统的恶意软件检测方法主要包括基于签名的检测方法和启发式动态行为检测方法等,对专家经验依赖性大,检测发现未知新型恶意软件的能力较弱,无法有效应对恶意软件的爆发式增长趋势。随着网络攻防技术的发展,恶意软件反检测分析技术同样在不断更新换代中变得越来越先进,可以通过各种逃避策略绕开检测,这些策略比常规的查杀技术更智能、更隐蔽。恶意软件利用变种、混淆和加壳等技术对现有检测手段进行对抗,增大静态分析技术提取恶意软件原始特征的难度;一些恶意软件还可以利用反动态跟踪、行为隐藏、虚拟环境规避等技术使基于动态行为分析的检测方法失能失效。此外,基于对抗样本生成的网络欺骗流量等技术逐渐运用到恶意软件反检测中,使传统的恶意软件检测方法变得越来越难以发挥效用。

3、现有pe恶意软件检测方法的特征图像化处理引入了不必要的先验信息,且图像只能描述恶意软件的部分信息以及类别不均衡的恶意软件图像数据集,导致恶意软件识别结果的准确度低。


技术实现思路

1、本发明的目的之一,在于提供一种基于特征图像化处理的pe恶意软件检测方法,该pe恶意软件检测方法能够提升不平衡数据集上的检测能力和识别准确率。

2、本发明的目的之二,在于提供一种基于特征图像化处理的pe恶意软件检测系统。

3、为了达到上述目的之一,本发明采用如下技术方案实现:

4、一种基于特征图像化处理的pe恶意软件检测方法,所述pe恶意软件检测方法包括如下步骤:

5、步骤s1、对pe恶意软件依次进行反汇编处理和操作码提取,得到所述pe恶意软件的操作码序列;

6、步骤s2、对所述pe恶意软件的操作码序列进行压缩处理;

7、步骤s3、按照三个不同长度窗口,对压缩处理后的操作码序列分别进行滑动处理,以获取所述各个长度窗口对应的操作码片段集;

8、步骤s4、对每个长度窗口对应的操作码片段集进行词频统计,以获取所述三个不同长度窗口对应的二维词频共现矩阵;

9、步骤s5、将所述三个不同长度窗口对应的二维词频共现矩阵转换为对应的单通道图像后进行通道融合,得到所述pe恶意软件的rgb图像;

10、步骤s6、将所述pe恶意软件的rgb图像输入到训练后的卷积神经网络分类模型中进行分类识别。

11、进一步的,在所述步骤s2中,所述压缩处理的具体过程包括:

12、步骤s21、对所述操作码序列进行语义相似性处理,得到相同语义的操作码;

13、步骤s22、对所述相同语义的操作码进行多对一映射处理,以合并成同一类操作码。

14、进一步的,在所述步骤s4中,所述获取所述三个不同长度窗口对应的二维词频共现矩阵的具体过程包括:

15、步骤s41、按照词频统计值,对所述每个长度窗口对应的操作码片段集进行从小到大排序;

16、步骤s42、从排序后的每个操作码片段集中各个操作码片段对应的词频统计值中获取最大词频统计值和最小词频统计值;

17、步骤s43、根据所述最大词频统计值和最小词频统计值以及各个操作码片段对应的词频统计值,计算所述每个长度窗口对应的操作码片段集中各个操作码片段对应的元素值,得到所述每个长度窗口对应的词频特征向量;

18、步骤s44、将所述每个长度窗口对应的词频特征向量转换为对应的二维词频共现矩阵。

19、进一步的,在所述步骤s5中,所述将所述三个不同长度窗口对应的二维词频共现矩阵转换为对应的单通道图像的具体过程包括:

20、步骤s51、设置三个单通道图像中行数和列数;所述三个单通道图像中的行数相同,列数相同;

21、步骤s52、采用先边缘后中间的顺序,将每个二维词频共现矩阵中各个元素值填充到对应的单通道图像中对应像素位置中。

22、进一步的,所述步骤s52还包括:

23、当每个单通道图像中存在像素位置未填充时,则将未填充像素位置填充为0。

24、为了达到上述目的之二,本发明采用如下技术方案实现:

25、一种基于特征图像化处理的pe恶意软件检测系统,所述pe恶意软件检测系统包括:

26、提取模块,用于对pe恶意软件依次进行反汇编处理和操作码提取,得到所述pe恶意软件的操作码序列;

27、压缩处理模块,用于对所述pe恶意软件的操作码序列进行压缩处理;

28、滑动处理模块,用于按照三个不同长度窗口,对压缩处理后的操作码序列分别进行滑动处理,以获取所述三个长度窗口对应的操作码片段集;

29、获取模块,用于对每个长度窗口对应的操作码片段集进行词频统计,以获取所述三个不同长度窗口对应的二维词频共现矩阵;

30、通道融合模块,用于将所述三个不同长度窗口对应的二维词频共现矩阵转换为对应的单通道图像后进行通道融合,得到所述pe恶意软件的rgb图像;

31、分类识别模块,用于将所述pe恶意软件的rgb图像输入到训练后的卷积神经网络分类模型中进行分类识别。

32、进一步的,所述压缩处理模块包括:

33、语义相似性处理子模块,用于对所述操作码序列进行语义相似性处理,得到相同语义的操作码;

34、映射处理子模块,用于对所述相同语义的操作码进行多对一映射处理,以合并成同一类操作码。

35、进一步的,所述获取模块包括:

36、排序子模块,用于按照词频统计值,对所述每个长度窗口对应的操作码片段集进行从小到大排序;

37、第一获取子模块,用于从排序后的每个操作码片段集中各个操作码片段对应的词频统计值中获取最大词频统计值和最小词频统计值;

38、计算子模块,用于根据所述最大词频统计值和最小词频统计值以及各个操作码片段对应的词频统计值,计算所述每个长度窗口对应的操作码片段集中各个操作码片段对应的元素值,得到所述每个长度窗口对应的词频特征向量;

39、转换子模块,用于将所述每个长度窗口对应的词频特征向量转换为对应的二维词频共现矩阵。

40、进一步的,所述通道融合模块包括:

41、设置子模块,用于设置三个单通道图像中行数和列数;所述三个单通道图像中的行数相同,列数相同;

42、填充子模块,用于采用先边缘后中间的顺序,将每个二维词频共现矩阵中各个元素值填充到对应的单通道图像中对应像素位置中。

43、进一步的,所述填充子模块,还用于当每个单通道图像中存在像素位置未填充时,则将未填充像素位置填充为0。

44、综上,本发明提出的方案具备如下技术效果:

45、本发明通过反汇编处理和操作码提取,得到pe恶意软件的操作码序列;再经过pe恶意软件的操作码序列的压缩处理和滑动处理,以获取各个长度窗口对应的操作码片段集;通过词频统计,以获取三个不同长度窗口对应的二维词频共现矩阵;利用三个不同长度窗口对应的二维词频共现矩阵的图像转换和通道融合,得到pe恶意软件的rgb图像;将pe恶意软件的rgb图像输入到训练后的卷积神经网络分类模型中进行分类识别,获取特征表达能力,实现了端到端的pe恶意软件检测识别;本发明加强了对少量样本恶意软件家族的学习能力,降低了样本分布不均衡对模型训练带来的负面影响,提升了模型在类别不平衡数据集上的检测性能,检测能力高,识别准确率达到98.43%,具有普遍适用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1