一种获取恶意代码文件分类模型的方法及文件分类方法与流程

文档序号:35955528发布日期:2023-11-08 17:07阅读:26来源:国知局
一种获取恶意代码文件分类模型的方法及文件分类方法与流程

本技术涉及文件识别领域,具体而言本技术实施例涉及一种获取恶意代码文件分类模型的方法及文件分类方法。


背景技术:

1、恶意软件是指以某种方式对用户或计算机造成破坏的任何软件,又称为恶意代码文件。随着自动化生成工具和恶意软件混淆技术的广泛使用,恶意软件及其变体的数量及其种类不断增加。由此大量新的恶意代码已经迅速生成,它们的入侵方式以及传播方式也不断变化,对网络环境产生了巨大的威胁,传统非可视化检测技术已经不再对其适用。

2、近年来,可视化方法,即将恶意代码转化为图像形式展示,作为一种新兴的恶意软件检测和分类技术备受关注。大多数恶意代码变体都是通过使用自动化技术或重用一些重要的模块来生成的,因此它们在二进制代码中具有一些相似之处。通过可视化方法,可以发现恶意软件图像中包含着丰富的信息。同一类别的恶意家族的可视化图像通常具有相似性,而不同家族的可视化图像之间则有较大的差异。

3、相对于传统的恶意软件分类方法,可视化方法可以加速恶意软件分类的过程,满足大数据计算、专家系统反馈和认知复杂性等方面的需求,从而能够更加有效地检测和分类恶意软件。然而相关技术的可视化方法需要借助反编译软件而由于反编译软件提供的反编译结果并一定能满足可视化图像的要求因此导致可视化方法得到的识别准确率较低,此外采用相关技术得到的灰度图像存在辨识度低的问题也会降低识别结果。


技术实现思路

1、本技术实施例的目的在于提供一种获取恶意代码文件分类模型的方法及文件分类方法,采用本技术实施例可提高得到的灰度图像的可视化效果与纹理特征进而提升分类结果的准确性。

2、第一方面,本技术实施例提供一种获取恶意代码文件分类模型的方法,所述方法包括:将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像;根据所述初始样本灰度图像得到样本灰度共生矩阵,其中,所述样本灰度共生矩阵用于记录统计得到的灰度级别相邻的像素对出现的次数且所述样本灰度共生矩阵中的每个元素用于表征一对灰度级别相邻的像素对在0°空间位置关系上出现的次数;将所述样本灰度共生矩阵转换为样本共生矩阵灰度图像,并对所述样本共生矩阵灰度图中每个像素值乘以一个增强比例系数,得到目标样本灰度图像;重复上述过程得到多张目标样本灰度图像,并将所述多张目标样本灰度图像作为训练数据对深度学习网络进行训练,得到恶意代码文件分类模型。

3、本技术的一些实施例直接通过二进制恶意代码文件得到灰度图像避免了对反编译工具的依赖,同时本技术的实施例还将样本共生矩阵灰度图像中的每个元素乘以增强比例系数可以有效减少黑色像素点的比例,增加图像亮度,使恶意代码图像更加清晰,进而提升特征提取的准确性。

4、在一些实施例中,所述将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像,包括:将所述二进制恶意代码样本文件分割为固定长度的子序列;将每个子序列转换为[0,255]之间的一个数,并将所有数按顺序排成一行得到待处理数据序列,并对所述所有数的总数目取平方根再取整得到整数m;将所述待处理数据序列重新排列成一个m×m的正方形数组,并将所述正方形数据转化为图像得到所述初始样本灰度图像。

5、本技术的实施例直接基于二进制文件通过上述步骤得到初始样本灰度图像进而得到灰度共生矩阵(例如,样本灰度共生矩阵),无需进行反编译预处理,可以针对任意二进制文件进行矢量灰度共生矩阵转换,泛化性好。

6、在一些实施例中,所述将所述二进制恶意代码样本文件分割为固定长度的子序列,包括:将所述二进制恶意代码样本文件中所有二进制数字按照在文件中的排列顺序分割为长度为8比特的多个子序列。

7、在一些实施例中,所述根据所述初始样本灰度图像得到样本灰度共生矩阵,包括:根据所述初始样本灰度图像提取灰度级别相邻的像素对在0°空间位置关系上出现的次数,得到初始样本灰度共生矩阵;对所述初始样本灰度共生矩阵中的每个数值除以所述初始样本灰度共生矩阵中最大数值,得到所述样本灰度共生矩阵。

8、本技术的一些实施例在获取目标样本灰度共生矩阵的过程中采用了除以初始样本灰度共生矩阵中最大数值的技术方案,这样使得得到的目标样本灰度共生矩阵可以有效避免数值差异过大导致的图像质量问题,更好地展示灰度共生矩阵的特征。

9、在一些实施例中,所述增强比例系数为10n,其中,n选取[0,8]之间的整数。

10、本技术的一些实施例在获取目标样本灰度图像的过程中还需要乘以增强比例系数,通过该处理可以解决克服图像存在黑色像素点比例较高、暗淡的问题,因为存在这种问题的图像会影响恶意代码分类的效果,这是由于黑色像素点过多会掩盖灰度共生矩阵的细节特征。

11、在一些实施例中,所述增强比例系数为100。

12、第二方面,本技术的一些实施例提供一种恶意代码分类的方法,所述方法包括:利用如第一方面任意实施例得到的所述恶意代码文件分类模型识别待分类恶意代码的类型,得到分类结果。

13、在一些实施例中,所述利用所述恶意代码文件分类模型识别待分类恶意代码的类型,得到分类结果,还包括:将与所述待分类恶意代码对应的二进制文件转换为一张灰度图像,得到初始待识别灰度图像;根据所述初始待识别灰度图像得到目标待识别灰度共生矩阵;将所述目标待识别灰度共生矩阵转换为待识别共生矩阵灰度图像,并对所述待识别共生矩阵灰度图中每个像素值乘以一个增强比例系数,得到目标待识别灰度图像;根据所述目标待识别灰度图像和所述恶意代码文件分类模型得到所述分类结果。

14、在一些实施例中,所述根据所述初始待识别灰度图像得到目标待识别灰度共生矩阵,包括:根据所述初始待识别灰度图像提取灰度级别相邻的像素对在0°空间位置关系上出现的次数,得到初始待识别灰度共生矩阵;对所述初始待识别灰度共生矩阵中的每个数值除以所述初始待识别灰度共生矩阵中最大数值,得到目标待识别灰度共生矩阵。

15、在一些实施例中,所述恶意代码文件分类模型通过提取所述目标待识别灰度图像的图像特征和语义信息得到所述分类结果。

16、第三方面,本技术的一些实施例提供一种获取恶意代码文件分类模型的装置,所述装置包括:初始样本灰度图像获取模块,被配置为将二进制恶意代码样本文件转换为一张灰度图像,得到初始样本灰度图像;目标样本灰度共生矩阵获取模块,被配置为根据所述初始样本灰度图像得到样本灰度共生矩阵,其中,所述样本灰度共生矩阵用于反应统计灰度级别相邻的像素对出现的次数且所述样本灰度共生矩阵中的每个元素用于表征一对灰度级别相邻的像素对在0°空间位置关系上出现的次数;目标样本灰度图像获取模块,被配置为将所述样本灰度共生矩阵转换为样本共生矩阵灰度图像,并对所述样本共生矩阵灰度图中每个像素值乘以一个增强比例系数,得到目标样本灰度图像;训练模块,被配置为将多张目标样本灰度图像作为训练数据对深度学习网络进行训练,得到恶意代码文件分类模型。

17、第四方面,本技术的一些实施例提供一种恶意代码分类的装置,所述装置包括:待分类恶意代码预处理模块,被配置为对所述待分类恶意代码进行预处理;恶意代码文件分类模型,被配置为确定所述待分类恶意代码的类型,得到分类结果。

18、第五方面,本技术的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面或第二方面包括的任意实施例中所述的方法。

19、第六方面,本技术的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面或第二方面包括的任意实施例所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1