文件扫描方法、装置、电子设备和介质与流程

文档序号:37140590发布日期:2024-02-26 16:52阅读:15来源:国知局
文件扫描方法、装置、电子设备和介质与流程

本发明涉及大数据和人工智能,更具体地涉及一种文件扫描方法、装置、电子设备和介质。


背景技术:

1、对于国有银行等大型关键企业中,通常在员工的内部电脑系统中存储大量的商业秘密、客户数据和其他敏感信息。为了保障信息的机密性和完整性,企业通常采用文档加密软件,并要求员工对敏感文件进行加密。然而,涉密文档可能存在于电脑的各种不同的区域中,这增加了信息安全管理的复杂性。

2、目前,传统的涉密文档扫描方法通常要求对电脑上的所有文档进行全面扫描,包括对文档内容的遍历检查。虽然这种方法能够确保高度的安全性,但其效率相对较低。同时,由于需要对每个文档的内容进行遍历,导致了扫描工作的频繁执行和高计算资源的开销。因此,需要寻求能够改进涉密文档扫描效率和性能的方法。


技术实现思路

1、鉴于上述问题,根据本发明的第一方面,提供了一种文件扫描方法,所述方法包括:获取多个待扫描设备;对所述多个待扫描设备进行分类,获取第一类型设备和第二类型设备,其中,所述第一类型设备的可访问系统权限数量高于所述第二类型设备;采集所述第一类型设备和所述第二类型设备的身份访问信息以及扫描历史信息,获得第一类型设备信息和第二类型设备信息;将所述第一类型设备信息输入预先训练的第一预测模型进行未加密文件风险预测,输出预测风险概率值,其中,通过gbdt模型训练所述第一预测模型;将所述第二类型设备信息输入第二预测模型进行未加密文件风险预测,输出预测风险分类结果,其中,通过逻辑回归模型训练所述第二预测模型;以及基于所述预测风险概率值和所述预测风险分类结果,对对应的待扫描设备执行加密文件扫描。

2、根据一些示例性实施例,所述方法还包括:对所述第一类型设备信息和所述第二类型设备信息进行数据预处理,以提取输入特征,其中,具体包括:对所述第一类型设备信息和所述第二类型设备信息进行缺失值填充和异常值处理,获取处理后的第一类型设备信息和第二类型设备信息;将所述处理后的第一类型设备信息和第二类型设备信息分别转换为第一独热编码和第二独热编码;以及对所述第一独热编码和所述第二独热编码进行z-score归一化处理,获取第一输入特征和第二输入特征。

3、根据一些示例性实施例,所述将所述第一类型设备信息输入预先训练的第一预测模型进行未加密文件风险预测,输出预测风险概率值,具体包括:将所述第一输入特征输入所述第一预测模型的多棵决策树,其中,所述第一预测模型根据所述第一输入特征对所述第一类型设备信息进行分裂,以形成每一棵决策树;获取多棵决策树中每一棵决策树的预测概率输出;以及对所述预测概率输出进行平均,获取所述预测风险概率值。

4、根据一些示例性实施例,在通过gbdt模型训练所述第一预测模型之后,所述方法还包括:基于所述第一预测模型,获取特征重要性;基于所述特征重要性,获取对预测结果的贡献大于第一阈值的对应特征,其中,所述第一阈值为预设值;以及基于所述对预测结果的贡献大于第一阈值的对应特征,执行未加密文件原因的映射。

5、根据一些示例性实施例,在通过逻辑回归模型训练所述第二预测模型之后,所述方法还包括:获取所述第二预测模型的系数解释,基于所述系数解释,获取与预测结果相关的重要性特征;获取所述第二预测模型的p值,筛选所述p值小于第二阈值的显著性特征,其中,所述第二阈值为预设值;以及基于所述重要性特征和所述显著性特征,执行未加密文件原因的映射。

6、根据一些示例性实施例,所述方法还包括:以文件属性为主键,创建扫描记录数据库,其中,所述文件属性包括文件名称、大小、创建时间和修改时间;基于所述扫描历史信息,将每个文件对应的扫描记录存入所述扫描记录数据库中;在对对应的待扫描设备执行加密文件扫描时,基于当前扫描文件的文件名称判断在所述扫描记录数据库中是否存在相同文件的扫描记录;以及响应于存在相同文件的扫描记录且对应的文件属性相同,跳过对所述当前扫描文件的扫描。

7、根据一些示例性实施例,所述方法还包括:获取文件的加密和解密记录,将最新解密记录对应的文件存入定期扫描数据库中;基于预设的频率,对所述定期扫描数据库中的文件进行专项扫描;以及响应于所述专项扫描的结果为文件未被重新加密,触发安全预警。

8、根据一些示例性实施例,所述对所述多个待扫描设备进行分类,获取第一类型设备和第二类型设备,具体包括:获取所述多个待扫描设备对应的归属人员;基于所述归属人员,获取分类标签,其中,所述分类标签包括人员类别和各系统的开户情况;基于所述各系统的开户情况,统计可访问系统权限数量;以及基于所述人员类别和所述可访问系统权限数量,对所述多个待扫描设备进行分类。

9、根据本发明的第二方面,提出了一种文件扫描装置,所述装置包括:待扫描设备获取模块,用于:获取多个待扫描设备;分类模块,用于:对所述多个待扫描设备进行分类,获取第一类型设备和第二类型设备,其中,所述第一类型设备的可访问系统权限数量高于所述第二类型设备;信息获取模块,用于:采集所述第一类型设备和所述第二类型设备的身份访问信息以及扫描历史信息,获得第一类型设备信息和第二类型设备信息;预测风险概率值获取模块,用于:将所述第一类型设备信息输入预先训练的第一预测模型进行未加密文件风险预测,输出预测风险概率值,其中,通过gbdt模型训练所述第一预测模型;预测风险分类结果获取模块,用于:将所述第二类型设备信息输入第二预测模型进行未加密文件风险预测,输出预测风险分类结果,其中,通过逻辑回归模型训练所述第二预测模型;以及文件扫描模块,用于:基于所述预测风险概率值和所述预测风险分类结果,对对应的待扫描设备执行加密文件扫描。

10、根据一些示例性实施例,所述分类模块可以包括归属人员获取单元、分类标签获取单元、可访问系统权限数量统计单元和分类单元。

11、根据一些示例性实施例,所述归属人员获取单元可以用于获取所述多个待扫描设备对应的归属人员。

12、根据一些示例性实施例,所述分类标签获取单元可以用于基于所述归属人员,获取分类标签,其中,所述分类标签包括人员类别和各系统的开户情况。

13、根据一些示例性实施例,所述可访问系统权限数量统计单元可以用于基于所述各系统的开户情况,统计可访问系统权限数量。

14、根据一些示例性实施例,所述分类单元可以用于基于所述人员类别和所述可访问系统权限数量,对所述多个待扫描设备进行分类。

15、根据一些示例性实施例,所述信息获取模块可以包括填充处理单元、独热编码转换单元和归一化单元。

16、根据一些示例性实施例,所述填充处理单元可以用于对所述第一类型设备信息和所述第二类型设备信息进行缺失值填充和异常值处理,获取处理后的第一类型设备信息和第二类型设备信息。

17、根据一些示例性实施例,所述独热编码转换单元可以用于将所述处理后的第一类型设备信息和第二类型设备信息分别转换为第一独热编码和第二独热编码。

18、根据一些示例性实施例,所述归一化单元可以用于对所述第一独热编码和所述第二独热编码进行z-score归一化处理,获取第一输入特征和第二输入特征。

19、根据一些示例性实施例,所述预测风险概率值获取模块可以包括决策树形成单元、决策树输出单元和平均计算单元。

20、根据一些示例性实施例,所述决策树形成单元可以用于将所述第一输入特征输入所述第一预测模型的多棵决策树,其中,所述第一预测模型根据所述第一输入特征对所述第一类型设备信息进行分裂,以形成每一棵决策树。

21、根据一些示例性实施例,所述决策树输出单元可以用于获取多棵决策树中每一棵决策树的预测概率输出。

22、根据一些示例性实施例,所述平均计算单元可以用于对所述预测概率输出进行平均,获取所述预测风险概率值。

23、根据一些示例性实施例,所述文件扫描装置还可以包括第一未加密文件原因分析模块、第二未加密文件原因分析模块、增量文件扫描模块和专项扫描模块。

24、根据一些示例性实施例,所述第一未加密文件原因分析模块可以包括特征重要性获取单元、高贡献特征获取单元和第一映射单元。

25、根据一些示例性实施例,所述特征重要性获取单元可以用于基于所述第一预测模型,获取特征重要性。

26、根据一些示例性实施例,所述高贡献特征获取单元可以用于基于所述特征重要性,获取对预测结果贡献大于第一阈值的对应特征,其中,所述第一阈值为预设值。

27、根据一些示例性实施例,所述第一映射单元可以用于基于所述对预测结果贡献大于第一阈值的对应特征,执行未加密文件原因的映射。

28、根据一些示例性实施例,所述第二未加密文件原因分析模块可以包括重要性特征获取单元、显著性特征获取单元和第二映射单元。

29、所述重要性特征获取单元可以用于获取所述第二预测模型的系数解释,基于所述系数解释,获取与预测结果相关的重要性特征。

30、根据一些示例性实施例,所述显著性特征获取单元可以用于获取所述第二预测模型的p值,筛选所述p值小于第二阈值的显著性特征,其中,所述第二阈值为预设值。

31、根据一些示例性实施例,所述第二映射单元可以用于基于所述重要性特征和所述显著性特征,执行未加密文件原因的映射。

32、根据一些示例性实施例,所述增量文件扫描模块可以包括扫描记录数据库创建单元、扫描记录存入单元、判断单元和扫描筛选单元。

33、根据一些示例性实施例,所述扫描记录数据库创建单元可以用于以文件属性为主键,创建扫描记录数据库,其中,所述文件属性包括文件名称、大小、创建时间和修改时间。

34、根据一些示例性实施例,所述扫描记录存入单元可以用于基于所述扫描历史信息,将每个文件对应的扫描记录存入所述扫描记录数据库中。

35、根据一些示例性实施例,所述判断单元可以用于在对对应的待扫描设备执行加密文件扫描时,基于当前扫描文件的文件名称判断在所述扫描记录数据库中是否存在相同文件的扫描记录。

36、根据一些示例性实施例,所述扫描筛选单元可以用于响应于存在相同文件的扫描记录且对应的文件属性相同,跳过对所述当前扫描文件的扫描。

37、根据一些示例性实施例,所述专项扫描模块可以包括存入单元、专项扫描单元和安全预警单元。

38、根据一些示例性实施例,所述存入单元可以用于获取文件的加密和解密记录,将最新解密记录对应的文件存入定期扫描数据库中。

39、根据一些示例性实施例,所述专项扫描单元可以用于基于预设的频率,对所述定期扫描数据库中的文件进行专项扫描。

40、根据一些示例性实施例,所述安全预警单元可以用于基于所述扫描历史信息,将每个文件对应的扫描记录存入所述扫描记录数据库中。

41、根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的方法。

42、根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。

43、根据本发明的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。

44、上述一个或多个实施例具有如下优点或有益效果:根据本发明提供的文件扫描方法,通过将多个待扫描设备进行分类并分别通过gbdt模型和逻辑回归模型进行预测,能够根据待扫描的各计算机的类型特点有针对性地进行扫描,从而提高了计算机性能的利用效率并确保更准确的扫描结果;同时,预测模型的使用能够快速确定设备的扫描方案,从而提高了用户的操作效率并提升了用户体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1