一种基于特征向量的相似恶意样本匹配方法及系统的制作方法

文档序号：9727675阅读：402来源：国知局

一种基于特征向量的相似恶意样本匹配方法及系统的制作方法
【专利说明】-种基于特征向量的相似恶意样本匹配方法及系统
[0001]
技术领域
[0002] 本发明设及信息安全技术领域，尤其设及一种基于特征向量的相似恶意样本匹配方法及系统。
【背景技术】
[0003] 随着近些年来数据的井喷式的增长，在网络安全运个领域，恶意程序的种类、数量也在飞速增长。如何能够在运海量的恶意代码中，发现恶意代码的共性，对于反病毒技术的发展有着很大的帮助。

【发明内容】

[0004] 针对上述技术问题，本发明提供了一种基于特征向量的相似恶意样本匹配方法及系统，能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，生成报告，W提供给相关人员进行分析。解决了传统方法中检索速度慢、耗时长等技术问题。阳〇化]本发明采用如下方法来实现：一种基于特征向量的相似恶意样本匹配方法，包括：提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量η]; 获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；所述求取样本相似度的具体方法为：将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘W该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并W同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；所述的全部行为特征向量权重总和为1。
[0006] 进一步地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。
[0007] 进一步地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度W及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
[0008] 本发明采用如下系统来实现：一种基于特征向量的相似恶意样本匹配系统，包括：恶意样本文件库处理模块，用于提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量η]; 待查询样本文件处理模块，用于获取待查询样本文件的待查询特征向量组；匹配计算模块，用于求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；所述求取样本相似度的具体方法为：将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘W该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并W同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；所述的全部行为特征向量权重总和为1。
[0009] 进一步地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件进行过滤。
[0010] 进一步地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度W及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
[0011] 综上所述，本发明所述技术方案首先提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，并生成报告W提供给相关人员进行分析。
[0012] 本发明的有益效果为：本发明基于恶意样本文件的行为特征向量，使用了有效的相似样本匹配算法，能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，生成报告，W提供给相关人员进行分析。解决了传统方法中检索速度慢、耗时长等技术问题。
【附图说明】
[0013] 为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可W根据运些附图获得其他的附图。
[0014] 图1为本发明提供的一种基于特征向量的相似恶意样本匹配方法实施例流程图；图2为本发明提供的一种基于特征向量的相似恶意样本匹配系统实施例结构图。
【具体实施方式】
[0015] 本发明给出了一种基于特征向量的相似恶意样本匹配方法及系统，为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术方案作进一步详细的说明：本发明首先提供了一种基于特征向量的相似恶意样本匹配方法实施例，如图1所示，包括： S101提取海量恶意样本文件库中的各恶意样本文件的行为特征；其中，所述行为特征包括恶意样本文件访问的m?L，IP，域名等信息； S102过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量η]; 其中，过滤所述行为特征是基于原有的恶意样本库进行的。
[0016

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张洋;康学斌;董晓齐;孙晋超;肖新光;
技术所有人：哈尔滨安天科技股份有限公司;
我是此专利的发明人

上一篇：一种灰样本鉴定方法与系统的制作方法
上一篇：一种基于pdb调试信息的恶意代码分析方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。