一种文件检测方法、设备和计算机可读存储介质与流程

文档序号:36213423发布日期:2023-11-30 07:55阅读:34来源:国知局
本技术涉及计算机,尤其涉及一种文件检测方法、设备和计算机可读存储介质。
背景技术
::1、可移植文件(portable executable,pe)是视窗(windows)操作系统中的程序文件。一般,病毒程序会采取代码模糊技术将恶意代码隐藏在pe文件中,以躲避防病毒软件的检测,从而导致计算机被病毒入侵。相关技术中,为了识别pe文件是否被病毒入侵,会将pe文件输入到神经网络模型中进行模型训练得到检测模型,之后基于检测模型来确定待处理的pe文件是否被病毒入侵。但是,相关技术中是在不对pe文件进行处理的情况下,直接将pe文件输入到神经网络模型进行模型训练的,需要结构较为复杂的神经网络模型才能学习到pe文件的特征,存在模型复杂度较高和训练周期长的问题,且模型检测准确率较低。技术实现思路1、为解决上述技术问题,本技术实施例期望提供一种文件检测方法、设备和计算机可读存储介质,解决了相关技术中直接将pe文件输入到神经网络模型进行模型训练的方案存在模型复杂度较高和训练周期长的问题,提高了模型检测准确率。2、本技术的技术方案是这样实现的:3、一种文件检测方法,所述方法包括:4、获取待训练的可移植文件;5、对所述待训练的可移植文件进行分析,得到所述待训练的可移植文件的目标特征信息;其中,所述目标特征信息表征所述待训练的可移植文件中字符的分布情况、地址信息的跳转情况以及节的属性信息;6、基于所述目标特征信息进行模型训练,得到检测模型;7、基于所述检测模型对待处理的可移植文件进行检测,确定所述待处理的可移植文件是否被病毒入侵。8、上述方案中,所述对所述待训练的可移植文件进行分析,得到所述待训练的可移植文件的目标特征信息,包括:9、对所述待训练的可移植文件中的字符进行分析,得到所述待训练的可移植文件的第一特征信息;其中,所述第一特征信息表征所述待训练的可移植文件中字符的分布情况;10、对所述待训练的可移植文件中的地址信息进行分析,得到所述待训练的可移植文件的第二特征信息;其中,所述第二特征信息表征所述待训练的可移植文件中地址信息的跳转情况;11、基于所述待训练的可移植文件中的节的属性信息,确定所述待训练的可移植文件的第三特征信息;其中,所述目标特征信息包括所述第一特征信息、所述第二特征信息和所述第三特征信息。12、上述方案中,所述对所述待训练的可移植文件中的字符进行分析,得到所述待训练的可移植文件的第一特征信息,包括:13、对所述待训练的可移植文件进行解析,得到所述待训练的可移植文件的结构信息和可识别字符串;14、统计所述待训练的可移植文件中每个字符出现的次数,并对所述次数进行标准化处理;15、基于处理后的所述次数,得到所述待训练的可移植文件的第一子特征信息;16、基于可移植文件被病毒入侵的方式对所述结构信息和所述可识别字符串进行分析,得到所述待训练的可移植文件的第二子特征信息;其中,所述第一特征信息包括所述第一子特征信息和所述第二子特征信息。17、上述方案中,所述基于可移植文件被病毒入侵的方式对所述结构信息和所述可识别字符串进行分析,得到所述待训练的可移植文件的第二子特征信息,包括:18、从所述结构信息和所述可识别字符串中,确定字符串长度大于第一目标长度的目标字符串;19、对所述目标字符串进行分析,得到所述目标字符串的基础特征信息;其中,所述基础特征信息表征所述目标字符串的数量特征;20、将所述目标字符串映射到多个第一集合;21、对所述第一集合的字符进行分析,得到所述目标字符串的中间特征信息;其中,所述第二子特征信息包括所述基础特征信息和所述中间特征信息。22、上述方案中,所述对所述第一集合的字符进行分析,得到所述目标字符串的中间特征信息,包括:23、确定所述第一集合的字符的数量,并对所述第一集合的字符的数量进行标准化处理;24、基于处理后的所述第一集合的字符的数量,确定所述目标字符串的第一中间特征信息;25、计算每一所述第一集合的字符的数量占所述目标字符串的字符的数量的比例,并基于所述比例确定所述第一集合的信息熵;26、基于所述第一集合的信息熵确定所述目标字符串的第二中间特征信息;其中,所述中间特征信息包括所述第一中间特征信息和所述第二中间特征信息。27、上述方案中,所述对所述待训练的可移植文件中的地址信息进行分析,得到所述待训练的可移植文件的第二特征信息,包括:28、获取所述待训练的可移植文件中的入口点地址和距离所述入口点地址第二目标长度内的字符,得到第一地址信息;29、基于所述第一地址信息,确定目的点地址和距离所述目的点地址第三目标长度内的字符,得到第二地址信息;30、基于所述第一地址信息和所述第二地址信息,得到目标地址信息;31、对所述目标地址信息进行分析得到所述第二特征信息。32、上述方案中,所述对所述目标地址信息进行分析得到所述第二特征信息,包括:33、将第i部分的目标地址信息映射到多个第二集合,基于第一次映射后的第二集合的字符的数量确定第一行索引,并基于所述第一行索引将所述第一次映射后的第二集合中的字符添加至初始矩阵;34、将第j部分的目标地址信息映射到所述第一次映射后的第二集合,基于第二次映射后的第二集合的字符的数量确定第二行索引,并基于所述第二行索引将所述第二次映射的第二集合中的字符添加至更新后的初始矩阵,直至将所述目标地址信息都被添加至所述初始矩阵,以得到目标矩阵;其中,所述第j部分的目标地址信息j是将所述第i部分的目标地址信息移动目标步长后确定的;35、基于所述目标矩阵得到所述第二特征信息。36、上述方案中,所述基于第一次映射后的第二集合的字符的数量确定第一行索引,包括:37、确定所述第一次映射后的第二集合的字符的数量为目标数量,并对所述目标数量进行标准化处理;38、基于处理后的所述目标数量,确定所述第一次映射后的第二集合的信息熵;39、基于所述第一次映射后的第二集合的信息熵得到所述第一行索引。40、上述方案中,所述基于所述待训练的可移植文件中的节的属性信息,得到所述待训练的可移植文件的第三特征信息,包括:41、确定所述待训练的可移植文件中的节、所述节的节名和所述节的属性信息;42、针对每个节,将所述节的节名和所述节的属性信息进行组合处理得到组合信息;43、对所述组合信息进行特征哈希处理,并基于处理后的所述组合信息得到所述第三特征信息。44、一种文件检测设备,所述设备包括:处理器、存储器和通信总线;45、所述通信总线用于实现所述处理器和所述存储器之间的通信连接;46、所述处理器用于执行所述存储器中的文件检测程序,以实现上述的文件检测方法的步骤。47、一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的文件检测方法的步骤。48、本技术的实施例所提供的文件检测方法、设备和计算机可读存储介质,可以获取待训练的可移植文件,然后对待训练的可移植文件进行分析得到待训练的可移植文件的目标特征信息,接着基于目标特征信息进行模型训练得到检测模型,从而可以基于检测模型对待处理的可移植文件进行检测确定待处理的可移植文件是否被病毒入侵。如此,可以基于对待训练的可移植文件进行分析后得到的目标特征信息进行模型训练,不需要结构复杂的模型就可以学习到pe文件的特征,解决了相关技术中直接将pe文件输入到神经网络模型进行模型训练的方案存在模型复杂度较高和训练周期长的问题,提高了模型检测准确率。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1