恶意特征提取方法、装置及存储介质的制作方法

文档序号:6488029阅读:105来源:国知局
恶意特征提取方法、装置及存储介质的制作方法
【专利摘要】本发明公开一种恶意特征提取方法、装置及存储介质,其方法包括:选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。本发明通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。
【专利说明】恶意特征提取方法、装置及存储介质
【技术领域】
[0001]本发明涉及互联网【技术领域】,特别涉及安全领域,尤其涉及一种恶意特征提取方法、装置及存储介质。
【背景技术】
[0002]随着互联网技术的发展,病毒的传播也在加剧。病毒对用户信息的安全和用户财产造成了极大的危害,因此,开发反应迅速、高效、查毒率且正确率高的杀毒引擎已成为当今互联网信息安全界的重点。
[0003]传统的杀毒引擎通常采用的病毒识别技术如下:分析人员分析病毒文件、提取病毒特征、将病毒特征入库、杀毒引擎根据病毒库扫描现有文件,如果遇到能够匹配上的特征则报毒。
[0004]现有的提取病毒特征技术完全依靠分析人员的经验,对比同一类的病毒,找出它们共有部分,将这些共有部分中没有出现在所有白文件中的特征保留下来作为病毒的特征。
[0005]但是,现有的病毒特征提取技术存在以下弊端:
[0006]1、对分析人员的专业技能要求较高,而提取病毒特征的质量决定了误报率和报出率,一方面,对于一个家族的病毒(即行为基本一致的病毒)提取共有特征越多,则误报的可能性越低,但是对于该家族病毒的变种的识别率就越低,即报出率越低;另一方面,一个家族提取的共有特征越少,这些特征与白文件重叠的可能性就越高,也就是误报率越高;从中找出一个平衡点则极大地依赖于分析人员的经验;
[0007]2、系统响应慢,分析病毒文件以及提取病毒特征十分耗时,导致一些新的病毒没有得到及时处理;
[0008]3、效率低,随着病毒库记录的增多,为了碰撞每一条记录,所需要的时间会成几何倍数增加;
[0009]4、对病毒的发现不及时,相对于海量的新的病毒种类,由于分析人员的处理能力有限,对于一些病毒的处理,只有等病毒爆发时才会被发现或重视,继而进行处理,而此时病毒已造成了相当大的危害。

【发明内容】

[0010]本发明的主要目的在于提供一种恶意特征提取方法、装置及存储介质,旨在提高病毒等恶意特征的提取效率。
[0011]为了达到上述目的,本发明提出一种恶意特征提取方法,包括:
[0012]选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
[0013]将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
[0014]对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。[0015]本发明还提出一种恶意特征提取装置,包括:
[0016]选取模块,用于选取用来提取特征的黑文件集和与黑文件集数量相当且各不相同的白文件集;
[0017]转换模块,用于将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维
向量;
[0018]提取模块,用于对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
[0019]本发明还提出一种计算机可读取的存储介质,在其上存储了使计算机能够运行的程序,在程序装入计算机的存储器内后,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
[0020]本发明提出的一种恶意特征提取方法、装置及存储介质,通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。
【专利附图】

【附图说明】
[0021]图1是本发明恶意特征提取方法较佳实施例的流程示意图;
[0022]图2是本发明恶意特征提取方法较佳实施例中对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的流程示意图;
[0023]图3是本发明恶意特征提取方法较佳实施例中对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的一种实例的流程示意图;
[0024]图4是本发明恶意特征提取装置较佳实施例的结构示意图;
[0025]图5是本发明恶意特征提取装置较佳实施例中提取模块的结构示意图;
[0026]图6是本发明恶意特征提取装置较佳实施例中转换模块的结构示意图。
[0027]为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。
【具体实施方式】
[0028]本发明实施例解决方案主要是:自动对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,提高恶意特征的提取效率。
[0029]本发明中恶意文件可以为病毒文件或其他恶意的文件,以下实施例以病毒文件举例说明。其中,涉及的技术术语包括:
[0030]黑文件:病毒文件
[0031]黑向量:病毒文件转化成的向量
[0032]白文件:正常的非病毒文件
[0033]白向量:正常的非病毒文件转化成的向量
[0034]PE文件:windows系统下的一种可执行文件格式
[0035]如图1所示,本发明较佳实施例提出一种恶意特征提取方法,包括:[0036]步骤S101,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
[0037]以windows系统为例,为了对windows系统下的文件进行查毒,需要提取病毒特征,将病毒特征入库,然后由杀毒引擎根据病毒库扫描现有文件。
[0038]本实施例中,用来提取特征的黑文件集和白文件集分别指预先收集的已知的恶意文件集和正常文件集。
[0039]以病毒特征为例,为了提取病毒特征,首先选出用来选取特征的同一个家族病毒(即同一种病毒或其变种)的黑文件集和与黑文件集数量相当的白文件集,其中白文件集中的文件各不相同。
[0040]步骤S102,将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;
[0041]对于一个可执行文件(PE文件)来说,对病毒识别有帮助的特征包括:字符串、指令序列、函数过程、导入导出函数以及各个段的属性等。
[0042]本实施例将这些特征key和该特征的值value组成一(key:value)对,一个文件(包括恶意文件和正常文件)则变成了一个(key:value)的集合,如果将每一个key当做一个维度,贝1J一个文件的(key:value)的集合可以看做是一个维数不固定的多维向量。
[0043]步骤S103,对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
[0044]对恶意特征的提取即是对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选。
[0045]本实施例具体将维度合并和筛选出K维,其中,K维是指从多个维度中根据一定的规则,经过合并和筛选,选出的前K个维度。
[0046]具体地,如图2所示,若设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,则上述步骤S103对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的步骤包括:
[0047]步骤S10,从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
[0048]步骤S11,将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
[0049]上述步骤SlO及步骤Sll中,为了将维度合并和筛选出K维,采用以下方式:
[0050]将整个黑向量集和白向量集合并和筛选维度的问题,拆分成两黑向量和两白向量的子问题;然后解每一个子问题,将两白向量提取共有维度(取交集),作为子问题白维度集,将两黑向量提取共有维度作为子问题的黑维度集,并且将黑维度集中所有出现在白维度集中的维度去掉,对选出来的每一黑、白维度赋予权重。
[0051]步骤S12,将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃;
[0052]将所有子问题的解根据维度合并,合并过程中设置一个权重阈值W,如果合并后的维度(合并时维度对应的权重值相加)的权重低于W,则直接丢弃该维度,防止出现维度集无限制增长。[0053]步骤S13,分别判断黑向量集和白向量集中所有的向量是否处理完毕;若是;则进入步骤S14 ;否则,返回步骤SlO ;
[0054]步骤S14,用合并后的白维度集过滤合并后的黑维度集;
[0055]步骤S15,对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
[0056]上述步骤S13-步骤S15中,当黑向量集和白向量集中所有的向量学习完毕,用合并后的白维度集过滤黑维度集(即黑维度集=黑维度集-白维度集),对黑维度集根据权重大小进行排名,取出排名最高的前K维的黑维度作为结果。
[0057]下面以具体实例对上述合并和筛选学习集中所有病毒文件和正常文件的向量的过程进行详细阐述。
[0058]如图3所示,以FB、FW分别表示黑、白向量总集,以FBL和FWL分别表示黑、白向量的共有维度集,以B1、B2分别表示从黑向量集中随机选取的两黑向量的标记,以Wl、W2分别表示从白向量集中随机选取的两白向量的标记,对学习集中所有病毒文件和正常文件的向量进行合并和筛选的过程具体为:
[0059]SI,初始化FB、FW,选择黑白向量集;若选择黑向量,则进入步骤S2,若选择白向量,则进入步骤S3;
[0060]S2,判断黑向量集中的黑向量是否全部被标记;若是,则进入步骤S4 ;否则,进入步骤S21 ;
[0061]S21,随机选取两个黑向量B1、B2 ;
[0062]S22,提取共有维度集FBL并对每一维度赋予权重;进入S23 ;
[0063]S3,判断白向量集中的白向量是否全部被标记;若是,则进入步骤S4 ;否则,进入步骤S31 ;
[0064]S31,随机选取两个白向量W1、W2 ;
[0065]S32,提取共有维度集FWL并对每一维度赋予权重;进入S23 ;
[0066]S23,将FBL和FWL作差集,作为新的FBL ;
[0067]S24,将新的FBL和FWL分别合并到总集FB、Fff中,合并时将权集相加;
[0068]S25,将FB和FW中权重小于w-limit (设定的权重阀值)的维度剔除;分别返回步骤S2和S3。
[0069]S4,FB和FW作差集作为新的FB ;
[0070]S5,将FB根据权重排序取出前K维,得到FB最终结果。
[0071]本实施例通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。
[0072]如图4所示,本发明较佳实施例提出一种恶意特征提取装置,包括:选取模块401、转换模块402以及提取模块403,其中:
[0073]选取模块401,用于选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;
[0074]转换模块402,用于将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;[0075]提取模块403,用于对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
[0076]以windows系统为例,为了对windows系统下的文件进行查毒,需要提取病毒特征,将病毒特征入库,然后由杀毒引擎根据病毒库扫描现有文件。
[0077]本实施例中,用来提取特征的黑文件集和白文件集分别指预先收集的已知的恶意文件集和正常文件集。
[0078]以病毒特征为例,为了提取病毒特征,首先选取模块401选出用来选取特征的同一个家族病毒(即同一种病毒或其变种)的黑文件集和与黑文件集数量相当的白文件集,其中,白文件集中的文件各不相同。
[0079]对于一个可执行文件(PE文件)来说,对病毒识别有帮助的特征包括:字符串、指令序列、函数过程、导入导出函数以及各个段的属性等。
[0080]本实施例通过转换模块402将这些特征key和该特征的值value组成一(key:value)对,一个文件(包括恶意文件和正常文件)则变成了一个(key:value)的集合,如果将每一个key当做一个维度,贝U—个文件的(key:value)的集合可以看做是一个维数不固定的多维向量。
[0081 ] 对恶意特征的提取即是对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选。
[0082]本实施例提取模块403具体将维度合并和筛选出K维,其中,K维是指从多个维度中根据一定的规则,经过合并和筛选,选出的前K个维度。
[0083]具体地,如图5所示,若设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,所述提取模块403包括:第一提取单元4031、筛选单元4032、合并单元4033、过滤单元4034以及第二提取单元4035,其中:
[0084]第一提取单元4031,用于从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集;
[0085]筛选单元4032,用于将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重;
[0086]合并单元4033,用于将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃。
[0087]过滤单元4034,用于当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集;
[0088]第二提取单元4035,用于对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
[0089]在本实施例中,为了将维度合并和筛选出K维,采用以下方式:
[0090]将整个黑向量集和白向量集合并和筛选维度的问题,拆分成两黑向量和两白向量的子问题;然后解每一个子问题,将两白向量提取共有维度(取交集),作为子问题白维度集,将两黑向量提取共有维度作为子问题的黑维度集,并且将黑维度集中所有出现在白维度集中的维度去掉,对选出来的每一黑、白维度赋予权重。
[0091]然后将所有子问题的解根据维度合并,合并过程中设置一个权重阈值W,如果合并后的维度(合并时维度对应的权重值相加)的权重低于W,则直接丢弃该维度,防止出现维度集无限制增长。
[0092]当黑向量集和白向量集中所有的向量学习完毕,用合并后的白维度集过滤黑维度集(即黑维度集=黑维度集-白维度集),对黑维度集根据权重大小进行排名,取出排名最高的前K维的黑维度作为结果。
[0093]下面以具体实例对上述合并和筛选学习集中所有病毒文件和正常文件的向量的过程进行详细阐述。
[0094]如图3所示,以FB、FW分别表示黑、白向量总集,以FBL和FWL分别表示黑、白向量的共有维度集,以B1、B2分别表示从黑向量集中随机选取的两黑向量的标记,以Wl、W2分别表示从白向量集中随机选取的两白向量的标记,对学习集中所有病毒文件和正常文件的向量进行合并和筛选的过程具体为:
[0095]SI,初始化FB、FW,选择黑白向量集;若选择黑向量,则进入步骤S2,若选择白向量,则进入步骤S3 ;
[0096]S2,判断黑向量集中的黑向量是否全部被标记;若是,则进入步骤S4;否则,进入步骤S21 ;
[0097]S21,随机选取两个黑向量B1、B2 ;
[0098]S22,提取共有维度集FBL并对每一维度赋予权重;进入S23 ;
[0099]S3,判断白向量集中的白向量是否全部被标记;若是,则进入步骤S4 ;否则,进入步骤S31 ;
[0100]S31,随机选取两个白向量W1、W2 ;
[0101]S32,提取共有维度集FWL并对每一维度赋予权重;进入S23 ;
[0102]S23,将FBL和FWL作差集,作为新的FBL ;
[0103]S24,将新的FBL和FWL分别合并到总集FB、Fff中,合并时将权集相加;
[0104]S25,将FB和FW中权重小于w-limit (设定的权重阀值)的维度剔除;分别返回步骤S2和S3。
[0105]S4,FB和FW作差集作为新的FB ;
[0106]S5,将FB根据权重排序取出前K维,得到FB最终结果。
[0107]进一步地,如图6所示,所述转换模块402包括:提取单元4021及转换单元4022,其中:
[0108]样本特征提取单元4021,用于从所述黑文件或白文件中提取有效样本特征key ;
[0109]转换单元4022,用于将所述黑文件或白文件中所有有效样本特征key及其值value组成(key:value)对,将所述黑文件或白文件转换为多维向量。
[0110]本实施例通过对已知的黑文件集和白文件集进行向量转换,并对转换的向量进行维度合并和筛选,可自动及时、准确并有效的提取病毒等恶意特征,不仅能省去大量的分析人员,而且极大地降低了人为主观因素的影响,同时在反应速度上有极大的提高。
[0111]此外,本发明还提出一种计算机可读取的存储介质,在其上存储了使计算机能够运行的程序,在程序装入计算机的存储器内后,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
[0112]相比现有技术本发明具有如下优点:
[0113]1、省去了大量人力,由于本发明除了开始阶段需要人参与填写参数值以外,整个过程由机器自动进行,无需人为提取特征,由此省去了大量的人力。
[0114]2、高效,整个过程由机器完成,而机器的计算能力相对比人的操作要高效得多,并且可以采用分布式的技术增快速度,因此十分高效。
[0115]3、反应迅速,由于计算高效,可在短时间内完成工作,因此反应比较迅速。
[0116]4、客观,减少了人的参与,使得人为主观性降低了很多。
[0117]需要说明的是,本发明上述实施例均以windows操作系统举例说明,但并不限于windows操作系统,其他操作系统也可以参照采用本发明的上述方案进行恶意文件检测识另IJ,比如mac或者Iinux系统等,其具体原理在此不再赘述。
[0118]以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变换,或直接或间接运用在其它相关的【技术领域】,均同理包括在本发明的专利保护范围内。
【权利要求】
1.一种恶意特征提取方法,其特征在于,包括: 选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集; 将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量; 对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
2.根据权利要求1所述的方法,其特征在于,设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,所述对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的步骤包括: 从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集; 将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重; 将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃;以此循环上述三个步骤,直至所述黑向量集和白向量集中所有的向量处理完毕。
3.根据权利要求2所述的方法,其特征在于,所述对黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征的步骤进一步包括: 当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集; 对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
4.根据权利要求1所述的方法,其特征在于,所述将黑文件集中的黑文件以及白文件集中的白文件转换为多维向量的步骤包括: 从所述黑文件或白文件中提取有效样本特征key ; 将所述黑文件或白文件中所有有效样本特征key及其值value组成(key:value)对,将所述黑文件或白文件转换为多维向量。
5.根据权利要求4所述的方法,其特征在于,所述有效样本特征key至少包括以下之一:字符串、指令序列、函数过程、导入导出函数以及各个段的属性。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述用来提取特征的黑文件集和白文件集分别指预先收集的已知的恶意文件集和正常文件集;所述黑文件集中包括同类型或其变种的恶意文件。
7.—种恶意特征提取装置,其特征在于,包括: 选取模块,用于选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集; 转换模块,用于将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量; 提取模块,用于对所述黑文件集中的黑文件以及白文件集中的白文件的向量进行维度合并和筛选,提取恶意特征。
8.根据权利要求7所述的装置,其特征在于,设定所述黑文件集中所有黑文件的向量为黑向量集,所述白文件集中所有白文件的向量为白向量集,所述提取模块包括:第一提取单元,用于从所述黑向量集中随机选取两黑向量,提取两黑向量的共有维度,作为黑维度集;从所述白向量集中随机选取两白向量,提取两白向量的共有维度,作为白维度集; 筛选单元,用于将所述黑维度集中所有出现在所述白维度集中的维度去掉,形成新的黑维度集,对所述白维度集和新的黑维度集中的每一维度赋予权重; 合并单元,用于将所述白维度集和新的黑维度集根据权重分别进行维度合并,并将合并后权重低于预定权重阀值的维度丢弃。
9.根据权利要求8所述的装置,其特征在于,所述提取模块进一步还包括: 过滤单元,用于当所述黑向量集和白向量集中所有的向量处理完毕后,用合并后的白维度集过滤合并后的黑维度集; 第二提取单元,用于对过滤后的黑维度集按照权重大小排序,取出排名最高的前K维的黑维度作为最终维度。
10.根据权利要求7-9中任一项所述的装置,其特征在于,所述转换模块包括: 样本特征提取单元,用于从所述黑文件或白文件中提取有效样本特征key ; 转换单元,用于将所述黑文件或白文件中所有有效样本特征key及其值value组成(key:value)对,将所述黑文件或白文件转换为多维向量。
11.一种计算机可读取的存储介质,在其上存储了使计算机能够运行的程序,在程序装入计算机的存储器内后,选取用来提取特征的黑文件集和与黑文件集数量相当的白文件集;将所述黑文件集中的黑文件以及白文件集中的白文件转换为多维向量;对所述黑文件集中的黑文件以及白文件集 中的白文件的向量进行维度合并和筛选,提取恶意特征。
【文档编号】G06F21/56GK103632091SQ201210298988
【公开日】2014年3月12日 申请日期:2012年8月21日 优先权日:2012年8月21日
【发明者】崔精兵, 杨宜, 于涛, 吴家旭, 白子潘 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1