一种基于特征向量的相似恶意样本匹配方法及系统的制作方法_3

文档序号：9727675阅读：来源：国知局

型下，两者所含的相同行为分量的数目；求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘W该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并W同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；所述的全部行为特征向量权重总和为1。
[0028] 优选地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。
[0029] 优选地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度W及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
[0030] 综上所述，本发明所述技术方案首先提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，并生成报告W提供给相关人员进行分析。
[0031] 本发明的有益效果为：本发明基于恶意样本文件的行为特征向量，使用了有效的相似样本匹配算法，能够在海量恶意样本文件中快速发现恶意样本文件间的共性，查询到所需的相似样本，生成报告，w提供给相关人员进行分析。能有有效解决了传统方法中检索速度慢、耗时长等技术问题。
[0032] W上实施例用W说明而非限制本发明的技术方案。不脱离本发明精神和范围的任何修改或局部替换，均应涵盖在本发明的权利要求范围当中。
【主权项】
1. 一种基于特征向量的相似恶意样本文件匹配方法，其特征在于，包括：提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2···行为分量η]; 获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；所述求取样本相似度的具体方法为：将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘以该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并以同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；所述的全部行为特征向量权重总和为1。2. 如权利要求1所述的方法，其特征在于，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。3. 如权利要求2所述的方法，其特征在于，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。4. 一种基于特征向量的相似恶意样本文件匹配系统，其特征在于，包括：恶意样本文件库处理模块，用于提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2···行为分量η]; 待查询样本文件处理模块，用于获取待查询样本文件的待查询特征向量组；匹配计算模块，用于求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；所述求取样本相似度的具体方法为：将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘以该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并以同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；所述的全部行为特征向量权重总和为1。5. 如权利要求4所述的系统，其特征在于，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件进行过滤。6. 如权利要求5所述的系统，其特征在于，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度以及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。
【专利摘要】本发明提出了一种基于特征向量的相似恶意样本文件匹配方法及系统,本发明首先？提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组；获取待查询样本文件的待查询特征向量组；求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件。本发明所述技术方案能够在海量样本中快速发现恶意样本文件的共性，查询到所需的相似样本，并生成报告以提供给相关人员进行分析。
【IPC分类】G06F21/56
【公开号】CN105488406
【申请号】CN201410827237
【发明人】张洋, 康学斌, 董晓齐, 孙晋超, 肖新光
【申请人】哈尔滨安天科技股份有限公司
【公开日】2016年4月13日
【申请日】2014年12月29日

完整全部详细技术资料下载

当前第3页1 2 3