一种基于特征向量的相似恶意样本匹配方法及系统的制作方法

文档序号:9727675阅读:402来源:国知局
一种基于特征向量的相似恶意样本匹配方法及系统的制作方法
【专利说明】-种基于特征向量的相似恶意样本匹配方法及系统
[0001]
技术领域
[0002] 本发明设及信息安全技术领域,尤其设及一种基于特征向量的相似恶意样本匹配 方法及系统。
【背景技术】
[0003] 随着近些年来数据的井喷式的增长,在网络安全运个领域,恶意程序的种类、数量 也在飞速增长。如何能够在运海量的恶意代码中,发现恶意代码的共性,对于反病毒技术的 发展有着很大的帮助。

【发明内容】

[0004] 针对上述技术问题,本发明提供了一种基于特征向量的相似恶意样本匹配方法及 系统,能够在海量恶意样本文件中快速发现恶意样本文件间的共性,查询到所需的相似样 本,生成报告,W提供给相关人员进行分析。解决了传统方法中检索速度慢、耗时长等技术 问题。 阳〇化]本发明采用如下方法来实现:一种基于特征向量的相似恶意样本匹配方法,包 括: 提取海量恶意样本文件库中的各恶意样本文件的行为特征; 过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成 行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应 于各恶意样本文件的m类行为特征; 所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量η]; 获取待查询样本文件的待查询特征向量组; 求取待查询样本文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目 标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意 样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文件; 所述求取样本相似度的具体方法为: 将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求 取任一行为特征类型下,两者所含的相同行为分量的数目; 求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘W该行为 特征向量的预设权重,获得该行为特征向量的中间权重值,并W同样的方法求取其余行为 特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度; 所述的全部行为特征向量权重总和为1。
[0006] 进一步地,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本 文件库进行过滤。
[0007] 进一步地,所述预设过滤条件为: 选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完 全匹配,根据行为分量数目、目标相似度W及行为特征向量的权重之间的运算关系,求出相 对应各行为分量的最少匹配分量数; 计算行为分量的子权重,从大到小排列,形成倒叙子权重列表; 逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分 量的个数即为最少匹配总数; 基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本 文件库。
[0008] 本发明采用如下系统来实现:一种基于特征向量的相似恶意样本匹配系统,包 括: 恶意样本文件库处理模块,用于提取海量恶意样本文件库中的各恶意样本文件的行为 特征; 过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件生成 行为特征向量组,所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应 于各恶意样本文件的m类行为特征; 所述行为特征向量的结构为:行为特征类型:[行为分量1,行为分量2…行为分量η]; 待查询样本文件处理模块,用于获取待查询样本文件的待查询特征向量组; 匹配计算模块,用于求取待查询样本文件与各恶意样本文件的样本相似度,获取样本 相似度大于或等于目标相似度的恶意样本文件的行为特征向量组,根据所述行为特征向量 组,找到相应的恶意样本文件,所述恶意样本文件为与待查询样本文件相似的恶意样本文 件; 所述求取样本相似度的具体方法为: 将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对,求 取任一行为特征类型下,两者所含的相同行为分量的数目; 求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值,再乘W该行为 特征向量的预设权重,获得该行为特征向量的中间权重值,并W同样的方法求取其余行为 特征向量的中间权重值,计算所有中间权重值之和,获得样本相似度; 所述的全部行为特征向量权重总和为1。
[0009] 进一步地,在求取样本相似度之前,还包括:基于预设过滤条件,对海量恶意样本 文件进行过滤。
[0010] 进一步地,所述预设过滤条件为: 选取待查询特征向量组的任一行为特征向量作为单一变量,假设其余行为特征向量完 全匹配,根据行为分量数目、目标相似度W及行为特征向量的权重之间的运算关系,求出相 对应各行为分量的最少匹配分量数; 计算行为分量的子权重,从大到小排列,形成倒叙子权重列表; 逐一累加列表中子权重,直至累加之和大于预设目标权重,列表中参与累加的行为分 量的个数即为最少匹配总数; 基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本 文件库。
[0011] 综上所述,本发明所述技术方案首先提取海量恶意样本文件库中的各恶意样本文 件的行为特征;过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样 本文件生成行为特征向量组;获取待查询样本文件的待查询特征向量组;求取待查询样本 文件与各恶意样本文件的样本相似度,获取样本相似度大于或等于目标相似度的恶意样本 文件的行为特征向量组,根据所述行为特征向量组,找到相应的恶意样本文件,所述恶意样 本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量恶意样 本文件中快速发现恶意样本文件间的共性,查询到所需的相似样本,并生成报告W提供给 相关人员进行分析。
[0012] 本发明的有益效果为:本发明基于恶意样本文件的行为特征向量,使用了有效的 相似样本匹配算法,能够在海量恶意样本文件中快速发现恶意样本文件间的共性,查询到 所需的相似样本,生成报告,W提供给相关人员进行分析。解决了传统方法中检索速度慢、 耗时长等技术问题。
【附图说明】
[0013] 为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简 单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据运些附图获得其他的附图。
[0014] 图1为本发明提供的一种基于特征向量的相似恶意样本匹配方法实施例流程图; 图2为本发明提供的一种基于特征向量的相似恶意样本匹配系统实施例结构图。
【具体实施方式】
[0015] 本发明给出了一种基于特征向量的相似恶意样本匹配方法及系统,为了使本技术 领域的人员更好地理解本发明实施例中的技术方案,并使本发明的上述目的、特征和优点 能够更加明显易懂,下面结合附图对本发明中技术方案作进一步详细的说明: 本发明首先提供了一种基于特征向量的相似恶意样本匹配方法实施例,如图1所示, 包括: S101提取海量恶意样本文件库中的各恶意样本文件的行为特征; 其中,所述行为特征包括恶意样本文件访问的m?L,IP,域名等信息; S102过滤所述行为特征,计算过滤后的各行为特征的hash值,并针对各恶意样本文件 生成行为特征向量组; 所述行为特征向量组包含m个行为特征向量,所述m个行为特征向量对应于各恶意样 本文件的m类行为特征; 所述行为特征向量的结构 为:行为特征类型:[行为分量1,行为分量2…行为分量η]; 其中,过滤所述行为特征是基于原有的恶意样本库进行的。
[0016
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1