一种基于特征向量的相似恶意样本匹配方法及系统的制作方法_2

文档序号：9727675阅读：来源：国知局

] 具体实例如下：假设MD5值为E13A8763AE6F6抓F4C72D130B6696056恶意样本文件的行为特征向量组的具体形式如下： URL :比ttp: //46. 211. 87. 16/mod2/safp;rol. exe,http://89. 149. 101. 121/modl/ safprol.exe, http://188. 0. 133. 161/modl/safprol. exe]；域名：["188. 0. 133. 161", "WWW. baidu. com", "WWW. google, com"] IP: [39. 119. 165. 76, 178. 151. 173. 178, 46. 148. 53. 253, 86. 100. 8. 75, 89. 149. 101. 12 1, 188.0.133.161, 74.82.216.5, 95.141.42.87, 65.98.83.117] 其中，由于WWW. bai化.com和WWW. google, com是普通常见的域名，很明显不属于恶意样本文件的行为特征，因此被过滤掉。
[0017] 计算过滤后的各行为特征的hasM直如下： U化：[c62f6e80, a097745c, 4b865ed5] 域名：[1化3c40引 IP: [180a97dd,日ecdccfe, 12d99ac4, 918f478b, 8c870f31, Ilb3c408, fb油2cfa, 62fl0103, d65c4fb7] 从上述可知，行为特征U化、域名W及IP分别包含3个、1个W及9个行为分量。
[0018] 其中，基于海量恶意样本的行为特征向量组生成倒挂索引表，所述倒挂索引表的结构为：行为分量i :[样本文件1的MD5值、样本文件2的MD5值…样本文件P的MD5值]，其中，所述K=i<=n ;所述样本文件P的MD5值为，海量恶意样本文件的特征向量组中具备行为分量i的恶意样本文件的MD5值；行为特征向量U化的索引表如下： c62f6e80 :[E13A8763AE6F65DF4C72D130B6696056, ···] a097745c: [E13A8763AE6F65DF4C72D130B6696056,…] 4b865ed5 :圧 13A8763AE6F65DF4C72D130B6696056,…] S103获取待查询样本文件的待查询特征向量组； S104求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；所述求取样本相似度的具体方法为：将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类型下，两者所含的相同行为分量的数目；求取相同行为分量的数目与该行为特征向量的行为分量总数目的比值，再乘W该行为特征向量的预设权重，获得该行为特征向量的中间权重值，并W同样的方法求取其余行为特征向量的中间权重值，计算所有中间权重值之和，获得样本相似度；所述的全部行为特征向量权重总和为1。
[0019] 其中，目标相似度为人为设定值。在此，假设目标相似度的值为90%，U化、域名W 及IP行为特征向量的预设权重分别为20%，20%，60%。
[0020] 计算公式如下：
I为待查询特征向量组，wei曲t (η)为第η类行为特征向量在待查询特征向量组中所占的权重，in (η)和ord (η)分别代表待查询特征向量组的行为特征向量和各恶意样本文件的行为特征向量。f(n)为待查询样本文件与各恶意样本文件的样本相似度。计算过程举例如下：假设恶意样本文件只包含Ξ类行为特征，分别为U化、域名和IP ; 则所有中间权重值之和Wei曲t = Wei曲t (UPL) * I in扣化）η ord扣化）/ in 扣化）1+ Wei 曲t (域名）* |in (域名）η in (域名）I / |in (域名）1+ Wei 曲t (ip) * in(ip) n〇rd(ip)| / |in(ip)| = 0. 2巧/2+0. 2*l/l+0. 6*8/9 =93%。则可获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件。
[0021] 优选地，在求取样本相似度之前，还包括：基于预设过滤条件，对海量恶意样本文件库进行过滤。
[0022] 优选地，所述预设过滤条件为：选取待查询特征向量组的任一行为特征向量作为单一变量，假设其余行为特征向量完全匹配，根据行为分量数目、目标相似度W及行为特征向量的权重之间的运算关系，求出相对应各行为分量的最少匹配分量数；计算行为分量的子权重，从大到小排列，形成倒叙子权重列表；逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；基于获取的各行为分量的最少匹配分量数和最少匹配总数进一步过滤海量恶意样本文件库。阳02引其中，计算公式如下：x〉n-(l-Wd)*n/Wc。Wd为目标相似度。Wc该行为特征类型的行为特征向量的预设权重，X为所求该类行为特征的至少匹配的数目，η该行为特征类型下所包含行为分量的总数目。
[0024] 则计算过程如下： U化至少匹配的数目为2- (1-90%) *2/20%=1个，域名至少匹配的数目为1- (1-90%) * 1 / 20% = 1个 IP至少匹配的数目为9 - (1-90%)* 9 / 60% = 8个计算行为分量的子权重的过程为：每个U化行为分量的子权重为20% / 2 = 10% 每个域名行为分量的子权重20% / 1 = 20% 每个IP行为分量的子权重60% / 9 = 6. 67% 由上述可知，从大到小排列，形成倒叙子权重列表为[域名行为分量1，U化行为分量1， U化行为分量2, IP行为分量1，……IP行为分量9]，其中，每类行为特征类型间的行为分量排序不分先后。阳0巧]逐一累加列表中子权重，直至累加之和大于预设目标权重，列表中参与累加的行为分量的个数即为最少匹配总数；因此最少匹配总数至少为1+化8=11个。
[0026] 预设过滤条件为，U化，域名化及IP至少匹配的数目分别为1个，1个，8个。最少匹配总数不得少于11个。
[0027] 本发明其次提供了一种基于特征向量的相似恶意样本匹配系统实施例，如图2所示，包括：恶意样本文件库处理模块201，用于提取海量恶意样本文件库中的各恶意样本文件的行为特征；过滤所述行为特征，计算过滤后的各行为特征的hash值，并针对各恶意样本文件生成行为特征向量组，所述行为特征向量组包含m个行为特征向量，所述m个行为特征向量对应于各恶意样本文件的m类行为特征；所述行为特征向量的结构为：行为特征类型：[行为分量1，行为分量2…行为分量η]; 待查询样本文件处理模块202,用于获取待查询样本文件的待查询特征向量组；匹配计算模块203,用于求取待查询样本文件与各恶意样本文件的样本相似度，获取样本相似度大于或等于目标相似度的恶意样本文件的行为特征向量组，根据所述行为特征向量组，找到相应的恶意样本文件，所述恶意样本文件为与待查询样本文件相似的恶意样本文件；所述求取样本相似度的具体方法为：将待查询特征向量组的行为特征向量与各恶意样本文件的行为特征向量进行比对，求取任一行为特征类

完整全部详细技术资料下载

当前第2页1 2 3