一种文件扫描方法及装置的制造方法

文档序号:8282634阅读:325来源:国知局
一种文件扫描方法及装置的制造方法
【专利说明】
【技术领域】
[0001]本发明涉及计算机技术领域,尤其涉及一种文件扫描方法及装置。
【【背景技术】】
[0002]基于机器学习的文件扫描方法,其基本思想是:计算已知类型的文件的特征向量,然后利用特征向量进行机器训练,获得判断模型,利用判断模型来判断未知类型的文件的类型,以检测出其中的恶意文件。
[0003]然而,随着时间的推移会不断出现新的恶意文件,而且基于机器学习的训练方法中,获得的判断模型都是单个模型,因此,现有技术中文件扫描中所使用的判断模型在面对新出现的恶意文件时,对恶意文件的检测性能较低。

【发明内容】

[0004]有鉴于此,本发明实施例提供了一种文件扫描方法及装置,可以实现提高文件扫描过程中判断模型对恶意文件的检测性能。
[0005]本发明实施例的一方面,提供一种文件扫描方法,包括:
[0006]利用M个第一模型分别判断待检测文件的类型,以获得M个判断结果,M为大于或者等于2的整数;
[0007]依据所述M个判断结果,获得将所述待检测文件判定为恶意文件的第一模型的数目;
[0008]依据所述将所述待检测文件判定为恶意文件的第一模型的数目,获得所述待检测文件的类型。
[0009]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述依据所述将所述待检测文件判定为恶意文件的第一模型的数目,获得所述待检测文件的类型,包括:
[0010]比较将所述待检测文件判定为恶意文件的第一模型的数目与预设的第一阈值的大小;
[0011]若将所述待检测文件判定为恶意文件的第一模型的数目小于所述第一阈值,确定所述待测试文件为正常文件;
[0012]若将所述待检测文件判定为恶意文件的第一模型的数目大于或者等于所述第一阈值,确定所述待测试文件为恶意文件。
[0013]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
[0014]获得新出现的恶意文件,以作为训练样本;
[0015]利用所述训练样本进行机器训练,以生成第二模型;
[0016]利用所述第二模型对所述M个第一模型进行调整。
[0017]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述M个第一模型组成第一集合;所述利用所述第二模型对所述M个第一模型进行调整,包括:
[0018]将所述第二模型添加到预设的第二集合,所述第二集合包含K个第二模型,K为大于O的整数;
[0019]依据所述第二集合中的一个第二模型以及所述第一集合中的一个第一模型,生成P个模型组,P大于O且小于或者等于M与K的乘积;
[0020]利用每个所述模型组中的第二模型,在所述第一集合中替换属于该模型组的第一模型,以获得P个第三集合;
[0021]获得每个所述第三集合的恶意文件检出率和恶意文件错误率;
[0022]依据每个所述第三集合的恶意文件检出率和恶意文件错误率,选出一个所述第三集合;
[0023]利用选出的所述第三集合对应的模型组中的第二模型对所述第一集合进行调整。
[0024]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述利用选出的所述第三集合对应的模型组中的第二模型对所述第一集合进行调整,包括:
[0025]比较选出的所述第三集合的恶意文件检出率与所述第一集合的恶意文件检出率的大小,以及比较选出的所述第三集合的恶意文件错误率与所述第一集合的恶意文件错误率的大小;
[0026]若选出的所述第三集合的恶意文件检出率大于所述第一集合的恶意文件检出率,且选出的所述第三集合的恶意文件错误率大于所述第一集合的恶意文件错误率,利用所述第三集合对应的模型组中的第二模型,在所述第一集合中替换属于该模型组的第一模型,或者,在所述第一集合中增加所述第三集合对应的模型组中的第二模型。
[0027]本发明实施例的一方面,提供一种文件扫描装置,包括:
[0028]类型判断单元,用于利用M个第一模型分别判断待检测文件的类型,以获得M个判断结果,M为大于或者等于2的整数;
[0029]结果统计单元,用于依据所述M个判断结果,获得将所述待检测文件判定为恶意文件的第一模型的数目;
[0030]类型确定单元,用于依据所述将所述待检测文件判定为恶意文件的第一模型的数目,获得所述待检测文件的类型。
[0031]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述类型确定单元,具体用于:
[0032]比较将所述待检测文件判定为恶意文件的第一模型的数目与预设的第一阈值的大小;
[0033]若将所述待检测文件判定为恶意文件的第一模型的数目小于所述第一阈值,确定所述待测试文件为正常文件;
[0034]若将所述待检测文件判定为恶意文件的第一模型的数目大于或者等于所述第一阈值,确定所述待测试文件为恶意文件。
[0035]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述装置还包括:
[0036]文件获取单元,用于获得新出现的恶意文件,以作为训练样本;
[0037]模型生成单元,用于利用所述训练样本进行机器训练,以生成第二模型;
[0038]模型调整单元,用于利用所述第二模型对所述M个第一模型进行调整。
[0039]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述M个第一模型组成第一集合;所述模型调整单元,具体用于:
[0040]将所述第二模型添加到预设的第二集合,所述第二集合包含K个第二模型,K为大于O的整数;
[0041]依据所述第二集合中的一个第二模型以及所述第一集合中的一个第一模型,生成P个模型组,P大于O且小于或者等于M与K的乘积;
[0042]利用每个所述模型组中的第二模型,在所述第一集合中替换属于该模型组的第一模型,以获得P个第三集合;
[0043]获得每个所述第三集合的恶意文件检出率和恶意文件错误率;
[0044]依据每个所述第三集合的恶意文件检出率和恶意文件错误率,选出一个所述第三集合;
[0045]利用选出的所述第三集合对应的模型组中的第二模型对所述第一集合进行调整。
[0046]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述模型调整单元用于利用选出的所述第三集合对应的模型组中的第二模型对所述第一集合进行调整时,具体用于:
[0047]比较选出的所述第三集合的恶意文件检出率与所述第一集合的恶意文件检出率的大小,以及比较选出的所述第三集合的恶意文件错误率与所述第一集合的恶意文件错误率的大小;
[0048]若选出的所述第三集合的恶意文件检出率大于所述第一集合的恶意文件检出率,且选出的所述第三集合的恶意文件错误率大于所述第一集合的恶意文件错误率,利用所述第三集合对应的模型组中的第二模型,在所述第一集合中替换属于该模型组的第一模型,或者,在所述第一集合中增加所述第三集合对应的模型组中的第二模型。
[0049]由以上技术方案可以看出,本发明实施例具有以下有益效果:
[0050]本发明实施例提供的技术方案中,利用多个模型进行待检测文件的类型判定,并依据多个模型的判定结果对待检测文件的类型进行综合判断,从而可以实现提高文件扫描过程中判断模型对恶意文件的检测性能,提高判断模型对恶意文件的检测准确率。
【【附图说明】】
[0051]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0052]图1是本发明实施例所提供的文件扫描方法的实施例一的流程示意图;
[0053]图2是本发明实施例所提供的判断模型对待检测文件进行判断的示例图;
[0054]图3是本发明实施例所提供的文件扫描方法的实施例二的流程示意图;
[0055]图4是本发明实施例所提供的文件扫描装置的功能方块图。
【【具体实施方式】】
[0056]为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
[0057]应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0058]在本发明实施例中使用的术语是仅仅出
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1