一种文件筛选方法、装置、设备和计算机可读存储介质与流程

文档序号:35126011发布日期:2023-08-14 19:48阅读:24来源:国知局
本申请涉及计算机,尤其涉及一种文件筛选方法、装置、设备和计算机可读存储介质。
背景技术
::1、目前,端点检测与响应(endpoint detection and response,edr)产品中的save(sangfor ai-based anti-virus engine)引擎对可执行与可链接格式(executable andlinkable format,elf)恶意文件检出效果不佳,其主要原因在于elf恶意文件的训练集中存在大量相似样本,并且在没有经过任何筛选的情况进行训练,会导致模型训练学习不到重要特征。在已有的筛选方案中,一般是通过文件大小对文件进行相似性分类,并根据文件类别对文件进行筛选;但是这种分类方法是文件大小一致即认为文件内容一致,分类结果不准确,从而使得对elf恶意文件的筛选也不准确。技术实现思路1、为解决上述技术问题,本申请实施例期望提供一种文件筛选方法、装置、设备和计算机可读存储介质,解决了相关技术中进行恶意文件筛选时对恶意文件的分类不准确的问题,从而提高了对恶意文件筛选的准确率。2、本申请的技术方案是这样实现的:3、一种文件筛选方法,所述方法包括:4、获取待筛选文件集中的待筛选恶意文件;5、对所述待筛选恶意文件进行处理,得到所述待筛选恶意文件的模糊哈希值;6、基于所述待筛选恶意文件的模糊哈希值和目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别;7、基于所述待筛选恶意文件的类别,对所述待筛选文件集中的所述待筛选恶意文件进行筛选。8、上述方案中,所述对所述待筛选恶意文件进行处理,得到所述待筛选恶意文件的模糊哈希值,包括:9、基于所述待筛选恶意文件的目标分片值,对所述待筛选恶意文件进行分片处理;10、确定每片分片后的恶意文件的第一哈希值;11、对所述每片分片后的恶意文件的第一哈希值进行处理,得到所述每片分片后的恶意文件的第二哈希值;12、基于所述每片分片后的恶意文件的第二哈希值,确定所述待筛选恶意文件的模糊哈希值。13、上述方案中,所述基于所述待筛选恶意文件的模糊哈希值和目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,包括:14、对所述待筛选恶意文件的模糊哈希值进行处理,得到所述待筛选恶意文件对应的待筛选特征向量;15、基于所述待筛选特征向量、所述目标恶意文件的特征向量和所述目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别。16、上述方案中,所述基于所述待筛选特征向量、所述目标恶意文件的特征向量和所述目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,包括:17、确定所述待筛选特征向量与每一所述目标恶意文件的特征向量的相似度;18、基于所述相似度和所述目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别。19、上述方案中,所述确定所述待筛选特征向量与每一所述目标恶意文件的特征向量的相似度,包括:20、采用目标聚类算法,确定所述待筛选特征向量与所述每一目标恶意文件的特征向量的距离;21、相应的,所述基于所述相似度和所述目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,包括:22、基于所述距离和所述每一目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别。23、上述方案中,所述基于所述距离和所述每一目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,包括:24、基于所述距离,从多个所述目标恶意文件的特征向量中确定目标特征向量;25、基于所述每一目标恶意文件的特征向量的类别,确定所述目标特征向量的类别;26、基于所述目标特征向量的类别,确定所述待筛选恶意文件的类别。27、上述方案中,所述基于所述目标特征向量的类别,确定所述待筛选恶意文件的类别,包括:28、确定多个所述目标特征向量的类别中,每种类别对应的目标特征向量的数量;29、基于所述每种类别对应的目标特征向量的数量,从所述多个目标特征向量的类别中确定所述待筛选恶意文件的类别。30、一种文件筛选装置,所述装置包括:31、获取单元,用于获取待筛选文件集中的待筛选恶意文件;32、第一处理单元,用于对所述待筛选恶意文件进行处理,得到所述待筛选恶意文件的模糊哈希值;33、确定单元,用于基于所述待筛选恶意文件的模糊哈希值和目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别;34、第二处理单元,用于基于所述待筛选恶意文件的类别,对所述待筛选文件集中的所述待筛选恶意文件进行筛选。35、一种文件筛选设备,所述设备包括:处理器、存储器和通信总线;36、所述通信总线用于实现所述处理器和所述存储器之间的通信连接;37、所述处理器用于执行所述存储器中的文件筛选程序,以实现如上述的文件筛选方法的步骤。38、一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的文件筛选方法的步骤。39、本申请的实施例所提供的文件筛选方法、装置、设备和计算机可读存储介质,可以获取待筛选文件集中的待筛选恶意文件,对待筛选恶意文件进行处理得到待筛选恶意文件的模糊哈希值,基于待筛选恶意文件的模糊哈希值和目标恶意文件的特征向量的类别,确定待筛选恶意文件的类别,基于待筛选恶意文件的类别对待筛选文件集中的待筛选恶意文件进行筛选,这样,可以根据恶意文件的模糊哈希值和目标恶意文件的特征向量的类别来确定恶意文件的类别,而不是根据恶意文件的大小确定恶意文件的类别,使得确定的恶意文件的类别更准确,从而根据该类别对恶意文件的筛选更精确,解决了相关技术中进行恶意文件筛选时对恶意文件的分类不准确的问题,同时,提高了对恶意文件筛选的准确率。技术特征:1.一种文件筛选方法,其特征在于,所述方法包括:2.根据权利要求1所述的方法,其特征在于,所述对所述待筛选恶意文件进行处理,得到所述待筛选恶意文件的模糊哈希值,包括:3.根据权利要求1所述的方法,其特征在于,所述基于所述待筛选恶意文件的模糊哈希值和目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,包括:4.根据权利要求3所述的方法,其特征在于,所述基于所述待筛选特征向量、所述目标恶意文件的特征向量和所述目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,包括:5.根据权利要求4所述的方法,其特征在于,所述确定所述待筛选特征向量与每一所述目标恶意文件的特征向量的相似度,包括:6.根据权利要求5所述的方法,其特征在于,所述基于所述距离和所述每一目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,包括:7.根据权利要求6所述的方法,其特征在于,所述基于所述目标特征向量的类别,确定所述待筛选恶意文件的类别,包括:8.一种文件筛选装置,其特征在于,所述装置包括:9.一种文件筛选设备,其特征在于,所述设备包括:处理器、存储器和通信总线;10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~7中任一项所述的文件筛选方法的步骤。技术总结本申请实施例公开了一种文件筛选方法,所述方法包括:获取待筛选文件集中的待筛选恶意文件,对所述待筛选恶意文件进行处理,得到所述待筛选恶意文件的模糊哈希值,基于所述待筛选恶意文件的模糊哈希值和目标恶意文件的特征向量的类别,确定所述待筛选恶意文件的类别,基于所述待筛选恶意文件的类别,对所述待筛选文件集中的所述待筛选恶意文件进行筛选。本申请实施例还公开了一种文件筛选装置、设备和计算机可读存储介质。技术研发人员:黄晟,宋汝鹏,陈珙,徐敬蘅受保护的技术使用者:深圳市深信服信息安全有限公司技术研发日:技术公布日:2024/1/14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1