可移植可执行文件的时序特征处理方法及装置制造方法

文档序号:6631413阅读:207来源:国知局
可移植可执行文件的时序特征处理方法及装置制造方法【专利摘要】本发明公开了一种可移植可执行文件的时序特征处理方法及装置,涉及数据处理领域,用于解决由于每个向量本身的长度很长,使拼接后向量长度过长的问题更为凸显,导致计算效率低的问题。方法包括:从可移植可执行PE文件中提取第一数量的第一特征单元作为第一时序特征,在第一时序特征前面和/或后面分别获取与第一时序特征相关的预设数量的第二时序特征,分别根据每个第一时序特征的向量表示估算在每个第二时序特征的位置出现第二时序特征的第一概率,并计算各个根据第一时序特征确定的第一概率的对数的和的最大值;分别获取第一时序特征对应的目标向量。本发明主要应用于计算机病毒检测的过程中。【专利说明】可移植可执行文件的时序特征处理方法及装置【
技术领域
】[0001]本发明涉及数据处理领域,尤其涉及一种可移植可执行文件的时序特征处理方法及装置。【
背景技术
】[0002]随着机器学习技术的发展,机器学习技术被应用于判断PE(PortableExecute,可移植的执行体)文件是否为具有病毒的恶意文件。为能够使用机器学习技术,需要将PE文件的特征转化为机器学习模型可识别和计算的向量。[0003]在WindowsNT操作系统中,PE文件格式主要用于EXE文件、DLL文件、SYS(驱动程序)和其他文件类型。PE文件是微软Windows操作系统上的程序文件,常见的PE文件有EXE、DLL、OCX、SYS、COM、DLL等格式的文件。PE文件包括PE文件头特征、PE标准头特征、数据目录特征、常用表格特征、PE文件二进制特征和PE文件反汇编特征等。其中,PE文件二进制特征和PE文件反汇编特征会在PE文件中多次出现甚至有规律的出现,即具有一定的时序性,故本发明中将上述二进制特征和反汇编特征统称为时序特征。而对于上述PE文件头特征、PE标准头特恒、数据目录特征、常用表格特征均只在PE文件头中出现一次,故在本发明中将这些不会反复出现的特征称为非时序特征。[0004]目前,在生成机器学习模型可以识别和计算的向量时,首先获取PE文件中存在的时序特征的总数K,然后使用一个由K-I个"0"和一个"1"组成的K维向量分别表示每个特征,其中"1"的位置与特征的数值大小(二进制特征)或编号(反汇编特征)相对应。例如:一个二进制特征被提取后为了方便显示,按照16进制表示为821C,该十六进制对应的十进制数为33308,由于821C为4位十六进制的数字,且4位十六进制的数字能够表示的最大值为FFFF(十六进制)即65536(十进制),因此上述特征821C的向量表示为:[0005]【权利要求】1.一种可移植可执行文件的时序特征处理方法,其特征在于,包括:从可移植可执行PE文件中提取第一数量的第一特征单元作为第一时序特征,所述第一时序特征的向量表示的维度为所述第一数量的任意特征单元所能表示的最大值;在所述第一时序特征前面和/或后面分别获取与所述第一时序特征相关的预设数量的第二时序特征,所述第二时序特征由所述第一数量的第二特征单元组成;分别根据每个第一时序特征的向量表示估算在每个所述第二时序特征的位置出现所述第二时序特征的第一概率,并计算各个根据所述第一时序特征确定的第一概率的对数的和的最大值;分别获取每个所述第一时序特征对应的目标向量;或者,分别根据所述预设数量的第二时序特征的向量表示估算在所述第一时序特征的位置出现所述第一时序特征的第二概率,并计算各个根据所述预设数量的第二时序特征确定的第二概率的对数的和的最大值;分别获取所述第一时序特征对应的目标向量。2.根据权利要求1所述的可移植可执行文件的时序特征处理方法,其特征在于,所述在所述第一时序特征前面和/或后面分别获取与所述第一时序特征相关的预设数量的第二时序特征,包括:在所述第一时序特征前面和/或后面分别获取与所述第一时序特征相邻的预设数量的第二时序特征;或者,在所述第一时序特征前面和/或后面分别获取与所述第一时序特征具有部分重叠且相互之间具有部分重叠的预设数量的第二时序特征;或者,在所述第一时序特征前面和/或后面分别获取与所述第一时序特征不相邻且不重叠的预设数量的第二时序特征;或者,在所述第一时序特征前面和/或后面分别获取与所述第一时序特征相邻且相互之间不重叠的预设数量的第二时序特征。3.根据权利要求2所述的可移植可执行文件的时序特征处理方法,其特征在于,所述在所述第一时序特征前面和/或后面分别获取与所述第一时序特征具有部分重叠且相互之间具有部分重叠的预设数量的第二时序特征,包括:在所述第一数量的第一特征单元作中选择目标特征单元;在所述目标特征单元的前面和/或后面,分别获取与所述目标特征单元相邻或不相邻的所述第一数量的第二特征单元作为所述第二时序特征。4.根据权利要求1至3中任一项所述的可移植可执行文件的时序特征处理方法,其特征在于,所述分别根据每个第一时序特征的向量表示估算在每个所述第二时序特征的位置出现所述第二时序特征的第一概率,并计算各个根据所述第一时序特征确定的第一概率的对数的和的最大值,包括:依次将所述第一时序特征wi+k的向量表示代入第一预设数学模型,通过分别估算在每个所述第二时序特征的位置i+k出现所述第二时序特征wi+k的第一概率P(WitkIwi);所述第一预设数学模型为.其中,所述M为可移植可执行文件中时序特征的总数,C为所述预设数量,所述Wi为所述第一时序特征,所述wi+k为所述第二时序特征;所述p(wi+k|Wi)用于表示已存在所述第一时序特征Wi时,在位置i+k出现所述第二时序特征wi+k的概率。5.根据权利要求4所述的可移植可执行文件的时序特征处理方法,其特征在于,所述P(WiJwi)为:所述Vwi为所述第一时序特征Wi的向量表示,所述VWiT为所述Vwi的转置矩阵,所述V为所述PE文件中时序特征种类的总数;所述和所述矩阵S为待求解值,所述!?_为目标维度UX1的向量,所述矩阵S为VXU的矩阵;相应的,所述第一时序特征Wi对应的目标向量为所述矩阵S左乘所述第一时序特征Wi的向量表示的转置矩降后,得到的IXU的向量。6.根据权利要求1至3中任一项所述的可移植可执行文件的时序特征处理方法,其特征在于,所述分别根据所述预设数量的第二时序特征的向量表示估算在所述第一时序特征的位置出现所述第一时序特征的第二概率,并计算各个根据所述预设数量的第二时序特征确定的第二概率的对数的和的最大值,包括:依次将所述预设数量的第二时序特征化_。,...,Wg,wi+1,...,wi+。的向量表示代入第二预设数学模型,估算在所述第一时序特征的位置i出现所述第一时序特征Wi的最大概率;所述第二数学模型为:其中,所述M为可移植可执行文件中时序特征的总数,所述C为所述预设数量,所述Wi为所述第一时序特征,所述P^lwp。,...,Wp1,wi+1,...,wi+。)用于表示已存在所述第二时序特征(Wi_。,...,Wp1,wi+1,...,wi+。)时,在位置i出现所述第一时序特征Wi的概率。7.根据权利要求6所述的可移植可执行文件的时序特征处理方法,其特征在于,所述P(WiIWi-C,…,Wh,wi+1,…,wi+c)为:所述节_用于表示全部第二时序特征对应的向量的和,所述JWiT为所述.參胃的转置矩阵,所述V为所述PE文件中时序特征种类的总数;所述Vwi:和所述矩阵S为待求解值,所述.为目标维度UX1的向量,所述矩阵S为VXU的矩阵。8.根据权利要求1至3中任一项所述的可移植可执行文件的时序特征处理方法,其特征在于,所述在所述第一时序特征前面和/或后面分别获取与所述第一时序特征相邻的预设数量的第二时序特征,包括:如果所述第一时序特征前面存在的时序特征的数量小于所述预设数量,则获取所述第一时序特征前面与所述第一时序特征相邻的全部时序特征作为所述第二时序特征;如果所述第一时序特征后面存在的时序特征的数量小于所述预设数量,则获取所述第一时序特征后面与所述第一时序特征相邻的全部时序特征作为所述第二时序特征。9.根据权利要求5或7所述的可移植可执行文件的时序特征处理方法,其特征在于,所述从可移植可执行PE文件中提取第一数量的第一特征单元作为第一时序特征,包括:读取多个可移植可执行文件;从所述多个可移植可执行PE文件中提取第一数量的第一特征单元作为第一时序特征。10.-种可移植可执行文件的时序特征处理装置,其特征在于,包括:第一时序特征提取单元,用于从可移植可执行PE文件中提取第一数量的第一特征单元作为第一时序特征,所述第一时序特征的向量表示的维度为所述第一数量的任意特征单元所能表示的最大值;第二时序特征获取单元,在所述第一时序特征提取单元提取的所述第一时序特征前面和/或后面分别获取与所述第一时序特征相关的预设数量的第二时序特征,所述第二时序特征由所述第一数量的第二特征单元组成;估算单元,用于分别根据所述第一时序特征提取单元提取的每个第一时序特征的向量表示估算在每个所述第二时序特征的位置出现所述第二时序特征的第一概率,并计算各个根据所述第一时序特征确定的第一概率的对数的和的最大值;或者,分别根据所述第二时序特征获取单元获取的所述预设数量的第二时序特征的向量表示估算在所述第一时序特征的位置出现所述第一时序特征的第二概率,并计算各个根据所述预设数量的第二时序特征确定的第二概率的对数的和的最大值;目标向量获取单元,用于分别获取所述第一时序特征对应的目标向量。11.根据权利要求10所述的可移植可执行文件的时序特征处理方法,其特征在于,所述第二时序特征获取单元还用于:在所述第一时序特征提取单元提取的第一时序特征前面和/或后面分别获取与所述第一时序特征相邻的预设数量的第二时序特征;或者,在所述第一时序特征提取单元提取的第一时序特征前面和/或后面分别获取与所述第一时序特征具有部分重叠且相互之间具有部分重叠的预设数量的第二时序特征;或者,在所述第一时序特征提取单元提取的第一时序特征前面和/或后面分别获取与所述第一时序特征不相邻且不重叠的预设数量的第二时序特征;或者,在所述第一时序特征提取单元提取的所述第一时序特征前面和/或后面分别获取与所述第一时序特征相邻且相互之间不重叠的预设数量的第二时序特征。12.根据权利要求11所述的可移植可执行文件的时序特征处理方法,其特征在于,所述第二时序特征获取单元还用于:在所述第一数量的第一特征单元作中选择目标特征单元;在所述目标特征单元的前面和/或后面,分别获取与所述目标特征单元相邻或不相邻的所述第一数量的第二特征单元作为所述第二时序特征。13.根据权利要求10至12中任一项所述的可移植可执行文件的时序特征处理装置,其特征在于,所述估算单元还用于:依次将所述第一时序特征wi+k的向量表示代入第一预设数学模型,通过分别估算在每个所述第二时序特征的位置i+k出现所述第二时序特征wi+k的第一概率p(wiikIWi);所述第一预设数学模型为:其中,M为可移植可执行文件中时序特征的总数,C为所述预设数量,所述Wi为所述第一时序特征,所述wi+k为所述第二时序特征;所述p(wi+k|Wi)用于表示已存在所述第一时序特征Wi时,在位置i+k出现所述第二时序特征wi+k的概率。14.根据权利要求13所述的可移植可执行文件的时序特征处理装置,其特征在于,所述估算单元使用的所述P(Wi+kIWi)为:所述Vwi:为所述第一时序特征wi的向量表示,所述VWiT为所述_1%^的转置矩阵,所述V为所述PE文件中时序特征种类的总数;所述和所述矩阵S为待求解值,所述目标维度UX1的向量,所述矩阵S为VXU的矩阵;相应的,所述第一时序特征Wi对应的目标向量为所述矩阵S左乘所述第一时序特征Wi的向量表示的转置矩降VWiT£后,得到的IXU的向量。15.根据权利要求10至12中任一项所述的可移植可执行文件的时序特征处理装置,其特征在于,依次将所述预设数量的第二时序特征Wi_。,...,Wp1,wi+1,...,wi+。的向量表示代入第二预设数学模型,估算在所述第一时序特征的位置i出现所述第一时序特征Wi的最大概率;所述第二数学模型为:其中,所述M为可移植可执行文件中时序特征的总数,所述C为所述预设数量,所述Wi为所述第一时序特征,所述P^lwp。,...,Wp1,wi+1,...,wi+。)用于表示已存在所述第二时序特征(Wi_。,...,Wp1,wi+1,...,wi+。)时,在位置i出现所述第一时序特征Wi的概率。16.根据权利要求15所述的可移植可执行文件的时序特征处理装置,其特征在于,所述估算单元使用的所述P(Wil?v。,...,Wh,Wi+1,...,Wi+。)为:所述fWi.用于表示全部第二时序特征对应的向量的和,所述.#WlT为所述,^的转置矩阵,所述V为所述PE文件中时序特征种类的总数;所述vW£和所述矩阵S为待求解值,所述VW|.为目标维度UX1的向量,所述矩阵S为VXU的矩阵。17.根据权利要求10至12中任一项所述的可移植可执行文件的时序特征处理装置,其特征在于,所述第二时序特征获取单元还用于:当所述第一时序特征提取单元提取的所述第一时序特征前面与所述第一时序特征相邻的全部时序特征的数量小于所述预设数量时,获取所述第一时序特征前面存在的特征作为所述第二时序特征;或者,当所述第一时序特征提取单元提取的所述第一时序特征后面存在的时序特征的数量小于所述预设数量时,获取所述第一时序特征后面与所述第一时序特征相邻的全部时序特征作为所述第二时序特征。18.根据权利要求14或16所述的可移植可执行文件的时序特征处理装置,其特征在于,所述装置还包括读取单元,所述读取单元用于读取多个可移植可执行文件;所述第一时序特征提取单元还用于,从所述读取单元读取的所述多个可移植可执行PE文件中提取第一数量的第一特征单元作为第一时序特征。【文档编号】G06F17/30GK104317892SQ201410572813【公开日】2015年1月28日申请日期:2014年10月23日优先权日:2014年10月23日【发明者】杨宜,于涛,李璐鑫申请人:深圳市腾讯计算机系统有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1