一种恶意PDF文件检测方法、装置、设备及存储介质与流程

文档序号：36420257发布日期：2023-12-20 08:41阅读：28来源：国知局

本发明涉及信息安全，具体而言，涉及一种恶意pdf文件检测方法、装置、设备及存储介质。

背景技术：

1、恶意pdf(便携式文档格式)文件检测技术包括动态检测和静态检测两种方式。动态检测是指在pdf文件执行过程中，对pdf文件的执行行为进行实时监控和分析，判断执行行为是否是恶意行为；静态检测是指对pdf文件的结构和内容进行分析，判断pdf文件中有无恶意代码。由于静态检测方式相比于动态检测方式，可以提前发现潜在威胁，更好地保证信息安全，因此主要采用静态检测方式检测恶意pdf文件。

2、目前，广泛采用卷积神经网络解析pdf文件的结构和内容，但卷积神经网络仅考虑局部邻域信息，难以充分解析pdf文件的结构信息，且卷积神经网络对pdf文件中的数据扰动极其敏感，当pdf文件出现数据扰动时，难以有效检测恶意pdf文件，可见，现有的恶意pdf文件检测方法难以稳定准确地检测恶意pdf文件。

技术实现思路

1、本发明实施例的目的在于提供一种恶意pdf文件检测方法、装置、设备及存储介质，用以实现稳定准确地检测恶意pdf文件的技术效果。

2、第一方面，本发明实施例提供一种恶意pdf文件检测方法，包括：

3、采用恶意软件分类器解析待检测pdf文件，得到所述待检测pdf文件的结构树；

4、将所述结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图；

5、向所述图卷积神经网络模型输入所述重构图，得到所述待检测pdf文件的检测结果。

6、在上述实现过程中，通过采用恶意软件分类器解析待检测pdf文件，得到待检测pdf文件的结构树，将结构树转化为适应图卷积神经网络模型的输入格式的重构图，基于图卷积神经网络模型根据重构图进行恶意pdf文件检测，得到待检测pdf文件的检测结果，能够稳定准确地检测恶意pdf文件。

7、进一步地，在所述采用恶意软件分类器解析待检测pdf文件，得到所述待检测pdf文件的结构树之前，还包括：

8、对所述待检测pdf文件进行格式转换。

9、在上述实现过程中，通过在采用恶意软件分类器解析待检测pdf文件之前，对待检测pdf文件进行格式转换，能够保证有效采用恶意软件分类器解析待检测pdf文件。

10、进一步地，所述采用恶意软件分类器解析待检测pdf文件，得到所述待检测pdf文件的结构树，具体包括：

11、采用所述恶意软件分类器解析所述待检测pdf文件，将所述待检测pdf文件中的pdf根节点和所有pdf对象均作为节点，根据所述pdf根节点到每个所述pdf对象的最短结构化路径的二进制计数，在所述pdf根节点所在节点与每个所述pdf对象所在节点之间添加边，生成所述结构树。

12、在上述实现过程中，通过采用恶意软件分类器从待检测pdf文件中解析出根节点到每个pdf对象的最短结构化路径的二进制计数，生成结构树，能够在待检测pdf文件出现数据扰动时，有效避免结构树中的特征值产生较大变化，提高图卷积神经网络模型进行特征学习的鲁棒性，有利于进一步稳定准确地检测恶意pdf文件。

13、进一步地，所述将所述结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图，具体包括：

14、对所述结构树中的所有节点进行编号，结合所述结构树中所有节点之间的边连接关系，构造邻接矩阵和度矩阵，以所述邻接矩阵和所述度矩阵表示所述重构图。

15、在上述实现过程中，通过对结构树中的所有节点进行编号，结合结构树中所有节点之间的边连接关系，构造邻接矩阵和度矩阵，以邻接矩阵和度矩阵表示重构图，能够保证完整保留结构树中的所有特征，准确地将结构树转化为重构图，有利于进一步稳定准确地检测恶意pdf文件。

16、进一步地，所述邻接矩阵为n阶方阵，所述邻接矩阵中的第i行第j列元素为：

17、

18、其中，aij为所述邻接矩阵中的第i行第j列元素，i＝{1,2,...,n}，j＝{1,2,...,n}，n为所述结构树的节点总数；

19、所述度矩阵为n阶对角方阵，所述度矩阵中的第i行第j列元素为：

20、

21、其中，dij为所述度矩阵中的第i行第j列元素，i＝{1,2,...,n}，j＝{1,2,...,n}，s为第i个节点或第j个节点上的边总数。

22、在上述实现过程中，通过结合简化的结构树中的所有节点之间的边连接关系，按照上述公式分别构造邻接矩阵和度矩阵，能够保证快速准确地构造邻接矩阵和度矩阵，有利于进一步稳定准确地检测恶意pdf文件。

23、进一步地，所述向所述图卷积神经网络模型输入所述重构图，得到所述待检测pdf文件的检测结果，具体包括：

24、向所述图卷积神经网络模型输入所述重构图；

25、通过所述图卷积神经网络模型中的图卷积层，根据所述邻接矩阵和所述度矩阵，得到学习矩阵；

26、通过所述图卷积神经网络模型中的图池化层，将所述学习矩阵转化为特征向量；

27、通过所述图卷积神经网络模型中的全连接层，根据所述特征向量进行分类，得到所述待检测pdf文件的检测结果。

28、在上述实现过程中，通过联合图卷积神经网络模型中的图卷积层、图池化层、全连接层，采用有监督训练方式根据待检测pdf文件中的结构特征进行训练分类，得到待检测pdf文件的检测结果，能够保证全面学习待检测pdf文件中的结构特征来检测恶意pdf文件，有利于进一步稳定准确地检测恶意pdf文件。

29、进一步地，所述图卷积层为：

30、

31、其中，h(l)为第l层所述图卷积层的输出，l＝{2,3,...,l}，l为所有所述图卷积层的总数，σ(·)为激活函数，d为所述度矩阵，a为邻接矩阵，x(l)为第l层所述图卷积层获取的n×m的特征矩阵，n为所述结构树的节点总数，m为所述结构树的节点特征维数，所述结构树中各个节点的节点特征对应为各个节点编号的二进制编码，w(l)为第l层所述图卷积层预设权重参数。

32、在上述实现过程中，通过按照上述公式设计图卷积神经网络模型中的图卷积层，能够全面学习重构图中的结构特征得到学习矩阵，有利于进一步稳定准确地检测恶意pdf文件。

33、进一步地，所述图池化层为平均池化层。

34、在上述实现过程中，通过选用平均池化层设计图卷积神经网络模型中的图池化层，能够快速准确地将学习矩阵转化为特征向量，有利于进一步稳定准确地检测恶意pdf文件。

35、第二方面，本发明实施例提供一种恶意pdf文件检测装置，包括：

36、pdf文件解析模块，用于采用恶意软件分类器解析待检测pdf文件，得到所述待检测pdf文件的结构树；

37、解析结果处理模块，用于将所述结构树转化为适应预先建立的图卷积神经网络模型的输入格式的重构图；

38、pdf文件检测模块，用于向所述图卷积神经网络模型输入所述重构图，得到所述待检测pdf文件的检测结果。

39、第三方面，本发明实施例提供一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序；所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时实现如上所述的恶意pdf文件检测方法。

40、第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上所述的恶意pdf文件检测方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄璐瑶张三峰徐晓
技术所有人：北京天融信网络安全技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。