文件的检测方法及装置的制造方法_3

文档序号:8361759阅读:来源:国知局
[0099]样本文件的标注结果可以包括但不限于如下内容:
[0100]病毒文件;或者
[0101]正常文件。
[0102]一般地,标注结果为病毒文件的样本文件,可以称为黑样本文件;标注结果为正常文件的样本文件,可以称为白样本文件。
[0103]在一个具体的实现过程中,所述第一类型文件可以为病毒文件;相应地,所述第二类型文件可以为正常文件。
[0104]在另一个具体的实现过程中,所述第一类型文件可以为正常文件;相应地,所述第二类型文件可以为病毒文件。
[0105]在统计第一出现次数和第二出现次数时,一个文件片段在同一个样本文件中的出现次数,最多统计为I。也就是说,一个文件片段,不管其在一个样本本文件中出现几次,只要出现过,都记为I次。
[0106]202、根据所述每个文件片段、所述第一出现次数和所述第二出现次数,从所述N个文件片段中,选择R个文件片段,R为大于或等于I,且小于或等于N的整数。
[0107]具体地,具体可以根据所述每个文件片段、所述第一出现次数和所述第二出现次数,获得所述每个文件片段的排序参数,进而,则可以按照排序参数从大到小的顺序,对所述N个文件片段进行排序,然后,选择排在前R个的文件片段。
[0108]在一个具体的实现过程中,如果最终的检测结果为待测文件是否为第一类型文件,那么,所述排序参数可以为每个文件片段的信息增益。所述每个文件片段的信息增益,可以用于衡量文件片段区分第一类型文件与第二类型文件的能力。信息增益越大,说明文件片段区分第一类型文件与第二类型文件的能力越大,也就是说,文件片段为第一类型文件的可能性越大,反之,信息增益越小,说明文件片段区分第一类型文件与第二类型文件的能力越小,也就是说,文件片段为第一类型文件的可能性越小。
[0109]在另一个具体的实现过程中,如果最终的检测结果为待测文件是否为第一类型文件,那么,所述排序参数则可以为每个文件片段的所述第一出现次数与所述第二出现次数的比值。所述每个文件片段的所述比值,可以用于衡量文件片段区分第一类型文件与第二类型文件的能力。该比值越大,说明文件片段区分第一类型文件与第二类型文件的能力越大,也就是说,文件片段为第一类型文件的可能性越大,反之,该比值越小,说明文件片段区分第一类型文件与第二类型文件的能力越小,也就是说,文件片段为第一类型文件的可能性越小。
[0110]在选择的过程中,如果最终的检测结果为待测文件是否为第一类型文件,那么,还可以进一步将所述第一出现次数所对应的最小次数阈值和所述第二出现次数所对应的最大次数阈值,作为一个附加的选择条件,将不满足这些次数阈值即最小次数阈值和最大次数阈值的X样本文件(X为大于或等于0,且小于或等于R的整数),从所选择出来的R个文件片段中直接删除。然后,再从没有选择的剩余样本文件中,选择排列在前X个的文件片段,继续利用这些次数阈值进行选择,直到获得R个满足这些次数阈值的样本文件为止。
[0111]203、根据所述R个文件片段,获得Q个组合片段,Q为大于或等于M的整数。
[0112]其中,所述Q个组合片段中每个组合片段可以包括至少一个文件片段。
[0113]具体地,具体可以根据预先设置的组合数量例如2个等,将任意文件片段组合成一个满足组合数量的组合片段,例如,任意两个文件片段,组合成一个组合片段等。
[0114]204、根据所述每个样本文件的标注结果和所述P个样本文件,获得所述每个组合片段在标注结果为所述第一类型文件的样本文件中出现的第三出现次数,以及所述每个组合片段在标注结果为第二类型文件的样本文件中出现的第四出现次数。
[0115]在此需要说明的是,组合片段在样本文件中出现,是指组合片段所包括的每个文件片段,都在该样本文件中出现。
[0116]在统计第三出现次数和第四出现次数时,一个文件片段在同一个样本文件中的出现次数,最多统计为I。也就是说,一个文件片段,不管其在一个样本本文件中出现几次,只要出现过,都记为I次。
[0117]205、根据所述每个组合片段、所述第三出现次数和所述第四出现次数,从所述Q个组合片段中,选择M个组合片段,以作为所述M个指定特征。
[0118]具体地,具体可以根据所述每个组合片段、所述第三出现次数和所述第四出现次数,获得所述每个组合片段的排序参数,进而,则可以按照排序参数从大到小的顺序,对所述Q组合片段进行排序,然后,选择排在前T个的组合片段,T为大于或等于M的整数。
[0119]在一个具体的实现过程中,如果最终的检测结果为待测文件是否为第一类型文件,那么,所述排序参数可以为每个组合片段的信息增益。所述每个组合片段的信息增益,可以用于衡量组合片段区分第一类型文件与第二类型文件的能力。信息增益越大,说明组合片段区分第一类型文件与第二类型文件的能力越大,也就是说,组合片段为第一类型文件的可能性越大,反之,信息增益越小,说明组合片段区分第一类型文件与第二类型文件的能力越小,也就是说,组合片段为第一类型文件的可能性越小。
[0120]在另一个具体的实现过程中,如果最终的检测结果为待测文件是否为第一类型文件,那么,所述排序参数则可以为每个组合片段的所述第三出现次数与所述第四出现次数的比值。所述每个组合片段的所述比值,可以用于衡量组合片段区分第一类型文件与第二类型文件的能力。该比值越大,说明组合片段区分第一类型文件与第二类型文件的能力越大,也就是说,反之,该比值越小,说明组合片段区分第一类型文件与第二类型文件的能力越小,也就是说,组合片段为第一类型文件的可能性越小。
[0121]在选择的过程中,如果最终的检测结果为待测文件是否为第一类型文件,那么,还可以进一步将所述第三出现次数所对应的最小次数阈值和所述第四出现次数所对应的最大次数阈值,作为一个附加的选择条件,将不满足这些次数阈值即最小次数阈值和最大次数阈值的Y样本文件(Y为大于或等于0,且小于或等于T的整数),从所选择出来的T个组合片段直接删除。然后,再从没有选择的剩余样本文件中,选择排列在前Y个的组合片段,继续利用这些次数阈值进行选择,直到获得T个满足这些次数阈值的样本文件为止。
[0122]接着,在获得T个组合片段之后,还可以进一步再根据所述T个组合片段中每个组合片段在标注结果为所述第一类型文件的样本文件中的出现情况,利用贪心算法,从所述T个组合片段中,选择M个组合片段,以覆盖尽可能多的标注结果为所述第一类型文件的样本文件,直到组合片段的数量达到数量阈值,或者覆盖度达到覆盖度阈值为止。
[0123]至此,就可以获得M个组合片段,以作为所述M个指定特征。整个过程无需人工参与,操作简单,而且正确率高,从而提高了文件检测的效率和可靠性。
[0124]所述M个指定特征,可以对应不同运算类型的逻辑运算,例如,M个指定特征可以对应或运算,即只要待测文件满足任何一个指定特征,就可以获得该待测文件的检测结果。
[0125]可选地,在本实施例的一个可能的实现方式中,在102中,具体可以对所述每个指定特征的匹配结果,进行预先设置的与运算、或运算、非运算三种运算类型中的至少一项。例如,可以对每个匹配结果进行或运算,或者,还可以对部分进行或运算,再将或运算的运算结果与其他匹配结果进行与运算,等等。
[0126]由于逻辑运算的表达能力较为丰富,因此,对匹配结果进行逻辑运算,能够有效提高待测文件的检出率。下面将采用逻辑运算与数值运算,对二者的检出情况进行对比。
[0127]假设四个文件片段,即文件片段A、文件片段B、文件片段C和文件片段D。
[0128]方法一:利用数值运算,对待测文件进行检测,以获得待测文件是否为病毒文件的检测结果。
[0129]数值运算可以直接采用这四个文件片段作为匹配特征,对待测文件进行匹配处理,获得每个特征的匹配结果即[A B C D]。然后,再利用每个匹配特征所对应的权值k,计算一个结果即[ABC D]*k。根据这个结果,就能够获得待测文件的检测结果,即[ABCD]*k> = 0,待测文件为病毒文件;[A B C D]*k〈0,待测文件为非病毒文件。
[0130]方法二:利用逻辑运算,对待测文件进行检测,以获得待测文件是否为病毒文件的检测结果。
[0131]逻辑运算可以采用文件片段的组合方式,采用两个组合片段,作为匹配特征,对待测文件进行匹配处理,获得每个特征的匹配结果。匹配特征,即
[0132]文件片段A与文件片段B所组成的指定特征A&B ;以及
[0133]文件片段C与文件片段D所组成的指定特征C&D。
[0134]然后,对每个匹配特征的匹配结果,进行或运算,获得运算结果。根
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1